赞
踩
温馨提示:
爬虫爬得欢,监狱要坐穿;
数据玩的溜,牢饭吃个够; —横批:国家管饭
不知道各位是否遇到过这样的需求. 就是我们总是希望能够保存互联⽹上的⼀些重要的数据信息为⼰所⽤.
⽐如,
在浏览到⼀些优秀的让⼈⾎脉喷张的图⽚时. 总想保存起来留为⽇后做桌⾯上的壁纸
在浏览到⼀些重要的数据时(各⾏各业), 希望保留下来⽇后为⾃⼰进⾏各种销售⾏为增光添彩
在浏览到⼀些奇奇怪怪的劲爆视频时, 希望保存在硬盘⾥供⽇后慢慢品鉴
在浏览到⼀些⼗分优秀的歌声曲⽬时, 希望保存下来供我们在烦闷的⽣活中增添⼀份精彩
只不过,用户获取网络数据的方式是:
而爬虫程序要做的就是:
用户获取网络数据的方式与爬虫程序的区别是:
爬⾍⼀定要⽤Python么? ⾮也~ ⽤Java也⾏, C也可以. 请各位记住,编程语⾔只是⼯具. 抓到数据是你的⽬的. ⽤什么⼯具去达到你的⽬的都是可以的. 和吃饭⼀样, 可以⽤叉⼦也可以⽤筷⼦, 最终的结果都是你能吃到饭. 那为什么⼤多数⼈喜欢⽤Python呢? 答案: 因为Python写爬⾍简单. 不理解? 问: 为什么吃⽶饭不⽤⼑叉? ⽤筷⼦?因为简单! 好⽤!
⽽Python是众多编程语⾔中, ⼩⽩上⼿最快, 语法最简单. 更重要的是, 这货有⾮常多的关于爬⾍能⽤到的第三⽅⽀持库. 说直⽩点⼉. 就是你⽤筷⼦吃饭, 我还附送你⼀个佣⼈. 帮你吃! 这样吃的是不是更爽了. 更容易了~
⾸先, 爬⾍在法律上是不被禁⽌的. 也就是说法律是允许爬⾍存在的.
但是, 爬⾍也具有违法⻛险的. 就像菜⼑⼀样, 法律是允许菜⼑的存在的. 但是你要是⽤来砍⼈, 那对不起. 没⼈惯着你. 就像王欣说过的,技术是⽆罪的. 主要看你⽤它来⼲嘛. ⽐⽅说有些⼈就利⽤爬⾍+⼀些⿊客技术每秒钟对着bilibili撸上⼗万⼋千次. 那这个肯定是不被允许的.爬⾍分为善意的爬⾍和恶意的爬⾍
善意的爬⾍, 不破坏被爬取的⽹站的资源(正常访问, ⼀般频率不⾼, 不窃取⽤户隐私)恶意的爬⾍, 影响⽹站的正常运营(抢票, 秒杀, 疯狂solo⽹站资源造成⽹站宕机)综上, 为了避免进!我们还是要安分守⼰. 时常优化⾃⼰的爬⾍程序,避免⼲扰到⽹站的正常运⾏. 并且在使⽤爬取到的数据时,发现涉及到⽤户隐私和商业机密等敏感内容时, ⼀定要及时终⽌爬取和传播
反爬机制 ⻔户⽹站,可以通过制定相应的策略或者技术⼿段,防⽌爬⾍程序进⾏⽹站数据的爬取。
反反爬策略 爬⾍程序可以通过制定相关的策略或者技术⼿段,破解⻔户⽹站中具备的反爬机制,从⽽可以获取⻔户⽹站中相关的数据。
robots.txt(爬虫)协议: 君⼦协议。规定了⽹站中哪些数据可以被爬⾍爬取哪些数据不可以被爬取。
爬虫的比喻:
爬虫的定义:
爬虫的价值:
(Request,selenium)
使用http请求库向目标站点发起请求(网页,app),即发送一个Request入库
excel
百度,谷歌,搜索引起都是爬虫
HTTP协议 | 链接
Request
:用户将自己的信息通过浏览器(socket client)
发送给服务器(socket server)
Response:服务器接收请求,分析用户发来的请求信息,然后返回数据(返回的数据中可能包含其他链接,如:图片,js,css等)
例如:浏览器在接收Response后,会解析其内容来显示给用户
而爬虫程序在模拟浏览器发送请求然后接收Response后,是要提取其中的有用数据。
GET,POST
HEAD,PUT,DELETE,OPTHONS
举例:用浏览器演示get与post的区别,(用登录演示post)
post
k1=xxx&k2=yyy&k3=zzz
post
请求的参数放在请求体内, 可用浏览器查看,存放于form data
内.get
url编码
网页的加载过程是:
举例:
1、登录窗口,文件上传等,信息都会被附加到请求体内
2、登录,输入错误的用户名密码,然后提交,就可以看到post,正确登录后页面通常会跳转,无法捕捉到post
set-cookie:可能有多个,是来告诉浏览器,把cookie保存下来
scrapy
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。