当前位置:   article > 正文

爬虫开山之作_不知道各位是否遇到过这样的需求

不知道各位是否遇到过这样的需求

什么是爬虫?

不知道各位是否遇到过这样的需求. 就是我们总是希望能够保存互联
网上的⼀些重要的数据信息为己所用.

比如:

  • 在浏览到⼀些优秀的让人血脉喷张的图片时. 总想保存起来留为日后做桌⾯上的壁纸
  • 在浏览到⼀些重要的数据时(各⾏各业), 希望保留下来⽇后为⾃⼰进⾏各种销售⾏为增光添彩
  • 在浏览到⼀些奇奇怪怪的劲爆视频时, 希望保存在硬盘⾥供⽇后慢慢品鉴
  • 在浏览到⼀些⼗分优秀的歌声曲⽬时, 希望保存下来供我们在烦闷的⽣活中增添⼀份精彩

那么恭喜你. 爬⾍就是通过编写程序来爬取互联⽹上的优秀资源(图⽚, ⾳频, 视频, 数据)

爬⾍和Python

爬⾍⼀定要⽤Python么? ⾮也~ ⽤Java也⾏, C也可以. 请各位记住,
编程语⾔只是⼯具. 抓到数据是你的⽬的. ⽤什么⼯具去达到你的⽬的都是可以的. 和吃饭⼀样, 可以⽤叉⼦也可以⽤筷⼦, 最终的结果都是你能吃到饭. 那为什么⼤多数⼈喜欢⽤Python呢?

答案: 因为Python写爬⾍简单. 不理解? 问: 为什么吃⽶饭不⽤⼑叉? ⽤筷⼦?

因为简单! 好⽤!

⽽Python是众多编程语⾔中, ⼩⽩上⼿最快, 语法最简单. 更重要的是, 这货有⾮常多的关于爬⾍能⽤到的第三⽅⽀持库. 说直⽩点⼉. 就是你⽤筷⼦吃饭, 我还附送你⼀个佣⼈. 帮你吃! 这样吃的是不是更爽了. 更容易了~

爬⾍合法么?

⾸先, 爬⾍在法律上是不被禁⽌的. 也就是说法律是允许爬⾍存在的.
但是, 爬⾍也具有违法⻛险的. 就像菜⼑⼀样, 法律是允许菜⼑的存在的. 但是你要是⽤来砍⼈, 那对不起. 没⼈惯着你. 就像王欣说过的,技术是⽆罪的. 主要看你⽤它来⼲嘛. ⽐⽅说有些⼈就利⽤爬⾍+⼀些⿊客技术每秒钟对着bilibili撸上⼗万⼋千次. 那这个肯定是不被允许的。

爬⾍分为善意的爬⾍和恶意的爬⾍:

  • 善意的爬⾍, 不破坏被爬取的⽹站的资源(正常访问, ⼀般频率不⾼, 不窃取⽤户隐私)
  • 恶意的爬⾍, 影响⽹站的正常运营(抢票, 秒杀, 疯狂solo⽹站资源造成⽹站宕机)

综上, 为了避免进局子!
我们还是要安分守⼰. 时常优化⾃⼰的爬⾍程序避免⼲扰到⽹站的正常运⾏. 并且在使⽤爬取到的数据时,发现涉及到⽤户隐私和商业机密等敏感内容时, ⼀定要及时终⽌爬取和传播。

爬⾍的⽭与盾

反爬机制⻔户⽹站,可以通过制定相应的策略或者技术⼿段,防⽌爬⾍程序进⾏⽹站数据的爬取。

反反爬策略 爬⾍程序可以通过制定相关的策略或者技术⼿段,破解⻔户⽹站中具备的反爬机制,从⽽可以获取⻔户⽹站中相关的数据。

robots.txt协议: 君⼦协议。

规定了⽹站中哪些数据可以被爬⾍爬取哪些数据不可以被爬取。

在这里插入图片描述

爬虫使用软件

  • python 3.8 (尽量不要⽤最新版的python)
  • pycharm (舒服, 但收费, 联系作者有神秘⼯具为您解忧)

如果有基础或者玩⼉的⽐较6的玩家也可以选择以下⼯具:

  • anaconda, jupyter
  • Visual Studio Code
  • python, IDLE (不推荐)

接下来就是安装了. Python安装过程就不赘述了. 注意安装的时候需要把python添加到环境变量中. 其他的没啥注意的

⾄于Pycharm的安装. 全程⼀路确定即可.

神秘⼯具的使⽤: 恕不外放. 需要的找客服

更多内容,请参考 小白必学的爬虫基础(二)

加油!

感谢!

努力!

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/924341
推荐阅读
相关标签
  

闽ICP备14008679号