赞
踩
难点:
1)受到请求频率的限制,需要采用一些方法来避免限制,例如:time.sleep等
2)通常来说,需要设置cookie,通过设置url,模拟网页发送请求,获得网页内容。缺点:需要对数据进行预处理,并且需要找到网页url的逻辑,cookie。
3)经过测试,当前微博的评论,不能全部提取。本文通过实验得到结果,微博评论通常只能抓到200条数据后,就会被限制。
基于上述问题,为了爬取到微博的评论,本文爬取的思路采取通过微博API进行调用相关接口,具体实现步骤如下:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。