赞
踩
爬虫:网页、客户端信息提取
认识爬虫、反爬虫、配置爬虫环境
浏览器获取反应内容,从而获取网页数据
爬虫实际上是上述流程的模拟
网络爬虫:也称为网络蜘蛛、网络机器人,是一个自动下载网页的计算机程序或自动化脚本。
像一只蜘蛛在互联网上沿着URL的丝线爬行,下载每一个URL所指向的网页,分析页面内容。
分类:
1.通用网络爬虫
2.聚焦网络爬虫
3.增量式网络爬虫
合法性与robots协议
反爬虫的手段
总结:
概述
通讯过程:
1.请求方法
2.请求、响应
2.3 常见HTTP状态码
常见种类:
2.4 HTTP头部信息
2.5 认识cookie
2.6 小结
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。