当前位置:   article > 正文

对Ajax加载页面爬虫的几个类型分析_ajax 爬虫 加载更多

ajax 爬虫 加载更多

情景一:

如果要爬取的是这个url直接response(preview)回来的内容,则用data = json.loads(html)对response进行处理,如下图


提取代码参考如下:

  1. def parse_html(html):
  2. data = json.loads(html)
  3. if data and 'data' in data.keys():
  4. for item in data.get('data'):
  5. yield item.get('article_url')

情景二:

如果要爬取的是这个url是在html中直接提取,那么需要先转换成pyquery可以识别的格式,再进行提取:



代码参考如下:


  1. def get_url(html): # 去获取文章的url
  2. doc = pq(html)
  3. items = doc('li').items()
  4. for item in items:
  5. article_urls = item('div.txt-box > h3 > a').attr('href')
  6. yield article_urls

本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号