当前位置:   article > 正文

使用Python requests和lxml实现爬虫_python使用request模块和lxml模块爬取知网论文

python使用request模块和lxml模块爬取知网论文

requests是python的第三方库,需要使用 pip install requests进行安装,是一个简单易用的http库;
lxml也是python的第三方库,需要使用 pip install lxml进行安装,lxml使用的是 Xpath 语法(需要了解一些xapth语法),是效率比较高的解析方法,可解析html和xml文件。

以新浪新闻为示例:

response = requests.get('https://mil.news.sina.com.cn/')
txt = response.text
  • 1
  • 2

先只用requests进行请求,获得文本信息

html = etree.HTML(txt)
  • 1

使用etree的HTML方法进行操作;也可使用 etree.parse()方法读取一个html、xml文件


使用xpath解析该文本,此处是定位到中国军情栏中,获取第一个ul里面的数据

result = html.xpath('//div[@class="zgjq"]/div[@class="left"]//ul[1]//a')
  • 1

此时result还是一个对象数组,还需进一步解析,使用for循环进行遍历,解析

result值为:[<Element a at 0x2cb1248>, <Element a at 0x2df2b88>, <Element a at 0x2df2bc8>, <Element a at 0x2df2c08&
    声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/728866
    推荐阅读
    相关标签
      

    闽ICP备14008679号