当前位置:   article > 正文

python通用爬虫的特点是_Python通用爬虫,聚焦爬虫概念理解

简述通用爬虫优点

通用爬虫:百度、360、搜狐、谷歌、必应.......

原理:

(1)抓取网页

(2)采集数据

(3)数据处理

(4)提供检索服务

百度爬虫:Baiduspider

通用爬虫如何抓取新网站?

(1)主动提交url

(2)设置友情链接

(3)百度会和DNS服务商合作,抓取新网站

检索排名

(1)竞价排名

(2)根据pagerank值排名,由访问量,点击量得出,SEO岗位做的工作

如果不想让百度爬虫你的网站:加一个文件robots.txt,可以限定哪些可以爬取我的网站,哪些不可以,例如淘宝的部分robots.txt内容:

User-agent: Baiduspider

Allow: /article

Allow: /oshtml

Allow: /ershou

Allow: /$

Disallow: /product/

Disallow: /

User-Agent: Googlebot

Allow: /article

Allow: /oshtml

Allow: /product

Allow: /spu

Allow: /dianpu

Allow: /oversea

Allow: /list

Allow: /ershou

Allow: /$

Disallow: /

这个协议仅仅是口头上的协议,真正的还是可以爬取的。

聚焦爬虫:根据特定的需求抓取指定的数据。

思路:代替浏览器上网

网页的特点:

(1)网页都有自己唯一的url

(2)网页内容都是HTML结构的

(3)使用的都是http,https协议

(1)给一个url

(2)写程序,模拟浏览器访问url

(3)解析内容,提取数据

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/很楠不爱3/article/detail/380822?site=
推荐阅读
相关标签
  

闽ICP备14008679号