赞
踩
大家好,我是J哥,专注原创,致力于用浅显易懂的语言分享爬虫、数据分析及可视化等干货,希望人人都能学到新知识。最近J哥做了个爬虫小项目,感觉还挺适合新手入门的,于是迫不及待想分享给大家。
什么是爬虫?
实践来源于理论,做爬虫前肯定要先了解相关的规则和原理,要知道互联网可不是法外之地,你一顿爬虫骚操作搞不好哪天就...
首先,咱先看下爬虫的定义:网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。一句话概括就是网上信息搬运工。
我们再来看下爬虫应该遵循的规则:robots协议是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。一句话概括就是告诉你哪些东西能爬哪些不能爬。
了解了定义和规则,最后就是熟悉爬虫的基本原理了,很简单,作为一名灵魂画手,我画个示意图给你看下就明白了。
(⊙o⊙)…尴尬,鼠标写字咋这么丑,都不好意思说自己学过书法,好一个脸字打得呱呱响。
项目背景
理论部分差不多讲完了,有些小朋友估计要嫌我啰嗦了,那就不废话,直接讲实操部分。本次爬虫小项目是应朋友需求,爬取中国木材价格指数网中的红木价格数据,方便撰写红木研究报告。网站长这样:
所需字段已用红框标记,数据量粗略看了下,1751页共5万多条记录,如果你妄想复制粘贴的话,都不知道粘到猴年马月了。而python只要运行几分钟就能把所有数据保存到你的excel里,是不是很舒服?
项目实战
工具:PyCharm
Python版本:Python 3.7
浏览器:Chrome (推荐)
对于第一次写爬虫的朋友可能觉得很麻烦,咱不慌,由浅入深,先爬一页数据试试嘛。
一爬取一
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。