当前位置:   article > 正文

爬取马蜂窝用户评论界面中的用户ID、用户名以及评分_这次先爬一下马蜂窝旅行的用户评论页面,即“蜂蜂点评”,首先进入所要爬取的页面,

这次先爬一下马蜂窝旅行的用户评论页面,即“蜂蜂点评”,首先进入所要爬取的页面,

距离上篇爬虫有些久了,但不会缺席的~~~
昨晚去看了“我不是药神”,比较压抑,又感动,有悲愤,也有无奈,生命啊,请珍惜。
上次爬取了马蜂窝旅行都江堰景点的用户评论信息,比较杂,我们选取其中的用户ID、用户名以及用户评分,开始数据的清洗吧……
主要代码就三行:
  1. pattern=r'<a class="name" href="/u/(.*?).html" target="_blank">(.*?)</a>.*? <span class="s-star s-star(.*?)"></span>'
  2. items=re.compile(pattern,re.S|re.M).findall(ht2)
  3. it=str(items)

承接上篇,我们转换得到了ht2,设置了正则表达式,注意有三个的分组,即三个(.*?),这就是我们所要获取的三组内容,具体的语法规则在之前的博客已经说了,正则这一块水还很深,刚踏出一小步……compile和findall方法也提到了,注意一下参数

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/372198
推荐阅读
相关标签
  

闽ICP备14008679号