赞
踩
第一章 Python 爬虫的入门(一)——爬虫介绍与爬取小说文本内容
首先介绍一下爬虫的基本定义:
网络爬虫(web crawler)也叫网页蜘蛛,网络机器人,是一种用来自动浏览万维网的程序或者脚本。爬虫可以验证超链接和HTML代码,用于网络抓取(Web scraping)。网络搜索引擎等站点通过爬虫软件更新自身的网站内容(Web content)或其对其他网站的索引。
当然,对于爬虫这个概念,通俗来讲,我们在对于某个网站内容信息获取时,通常会出现一些内容并不是自己想要或者需要的内容,因此往往需要自己通过手动筛选,目视观察才能下载得到自己需要的内容。但通过对网页爬虫的方法,我们可以在已知网页HTML语言代码构造的前提之下,不打开搜索引擎设备或者浏览器,直接通过Python代码提取出自己需要的内容。
爬虫合法性
对于爬虫这个操作,我们需要进行合理合法的方法手段,获取自己需要的简洁版内容即可,切记不能爬取一些非法网站,在法律边缘疯狂试探等等,当然对我们一些爬虫小白而言想达到爬取非法网站或者搞坏人家的服务器也目前也是不现实的。
当然相信学习爬虫的我们都是正经人,好啦,话不多说直接开始Python实战啦!!!
提示:以下是本篇文章正文内容
当我们打开浏览器界面时,可以看出有美丽的图画,大小不一的文字,以及各种搜索内容和广告信息等等。
但是我们其实仅仅看到的是网页封装后的画面内容,而网页一般是基于HTML语言进行编写的代码信息,因此当我们想对某一网页进行信息爬取时,首先我们要揭开网页封装这个面纱,获取原始代码的信息,并且通过对信息的基本解读,得到自己想要的内容与原始代码之间的对应关系,这么说就很清楚了吧。接下来就是对网页信息获取的方法。
通过右击鼠标按钮,选中检查。
可以看出右侧已经出现网页的源码啦。初学者看不懂这样的代码其实不必担心,我们只是想获得自己需要的内容,并不需要对完整网页的编码过程进行逐一了解。
移动鼠标在代码的不同行,移动到某处发现左侧的网页界面边蓝(表示已经选中对应网页中的某部分内容),点击代码左侧的小三角一次进行展开,直到展开得到你想要的内容。
比如在下图中,我们搜索了Python这个语句,搜索完成后,查看网页的隐藏代码部分如下图:
鼠标移动在代码中,逐渐展开代码,其实可以明显看出,我们搜索字符串“Python”,因此右侧的ov和value值中出现了python字段,并且可以在前边的input type中看出输入的是text文本类型的字符串。
因此我们尝试修改一下输入的类型,双击input type=“text”的text字段,将其修改为“password”,双击完成后,可以看出左侧直接变为了密码型的字段。
再将其恢复为文本类型,我们再修改一下ov和value的值
可以看出修改后搜索界面也发生了相应的改变,因此可以看出界面与代码之间是相对应的。在Network中同样也可以看到对应的搜索文本内容。
**
**
可以通过在windows的cmd命令(开始键+r键–>输入cmd打开)中输入
pip install <库名>
即可直接下载
如果是采用PyCharm,则可以在File–>setting内搜索库名直接进行下载
介绍完库的下载方法后接下来就是库的介绍引用过程啦!!
依此将函数的功能列出实在是比较枯燥,因此选择举例方法介绍基本库函数的使用!
首先爬虫需要使用的库是requests库,其功能主要是由网站的url获取网页全部信息。
import requests
req = requests.get(url = <目标网站>, headers = <网站爬虫的头信息>)
#通常使用headers来隐藏自己爬虫的身份,通过headers信息将自己伪装成->
#浏览器搜索引擎等,是防止一些网站识破代码爬虫的有效手段。
requests.get()函数主要是返回网页的基本信息,通常要对获得的信息进行解码,此时就需要了解到原始网页的头文名里的编码信息。
一般是在里边找到"charset"的信息,一般为utf-8。
req.enconding = "utf-8" #解码过程
html = req.text #导出文本内容
其实到这里就可以对小说网站进行最基本的爬虫了,
以下就是最基础的入门代码。
import requests
#from bs4 import BeautifulSoup
if __name__ == '__main__':
url = 'https://www.xqb5200.com/95_95204/49370156.html'#目标访问网站url
#伪装头信息的引入
header = {"User-Agent":
"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3861.400 QQBrowser/10.7.4313.400"}
req = requests.get(url=url,headers = header) #返回爬取网站信息
req.encoding = 'gbk' #查看head中charset可以查找到编码信息
html = req.text #转化为文本
print(html)
看到这里,初学者肯定会疑惑headers是从哪儿获取得到的,下面是简单举例:
在网页的Netwrok中找到headers,往下翻,寻找到User-Agent,将其复制粘贴即可。
爬取结果如下:
显然,它把全部信息都显示了,并不是我们需要的内容。
接下来就要引入另一个库进行。
除了requests库的爬取内容,其次就是BeautifulSoup库的解析数据功能。
BeautifulSoup库是BeautifulSoup4库(一般书写为bs4)中的子库。
import bs4 from BeautifulSoup
#html接上文中的已爬取得到的全部信息
bes= BeautifulSoup(html,"lxml")#通过lxml方式解析获取网页中文本信息
text = bes.find("div", id = "content"[,class_ = "<class的名称>"]) #解析text中,提取标签为"div"内id = "content"全部信息,也可解析提取class = <某名称>的内容信息
代码如下:
import requests
from bs4 import BeautifulSoup
if __name__ == '__main__':
url = 'https://www.xqb5200.com/95_95204/49370156.html'
header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3861.400 QQBrowser/10.7.4313.400"}
req = requests.get(url=url,headers = header)
req.encoding = 'gbk'
html = req.text
bes = BeautifulSoup(html,"lxml")
texts = bes.find("div", id = "content")
print(texts)
运行结果如下:
结果中可以看出在每段的开头处存在四个空格键,因此需要将其消除
代码如下:
texts_list = texts.text.split("\xa0"*4)
print(texts_list)
得到列表结果:
**
**
import requests from bs4 import BeautifulSoup if __name__ == '__main__': url = 'https://www.xqb5200.com/95_95204/49370156.html' header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3861.400 QQBrowser/10.7.4313.400"} req = requests.get(url=url,headers = header) req.encoding = 'gbk' html = req.text bes = BeautifulSoup(html,"lxml") texts = bes.find("div", id = "content") texts_list = texts.text.split("\xa0"*4) with open("D:/novel.txt","w") as file: ##打开读写文件,逐行将列表读入文件内 for line in texts_list: file.write(line+"\n")
得到结果如下:
别急,还有亿点点!
批量读入小说文本文件
可将代码进一步深化,采用同样的操作方法,从全体章节处读取url网站名导入列表中,再对以上代码进行批量的读取即可进行批量下载小说等文本文件了。
**
**
import requests from bs4 import BeautifulSoup def geturl(): url = "https://www.xqb5200.com/95_95204/" header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3861.400 QQBrowser/10.7.4313.400"} req = requests.get(url = url, headers = header) req.encoding = "gbk" html = req.text bes = BeautifulSoup(html,"lxml") texts = bes.find("div", id="list") chapters = texts.find_all("a") #该函数可以返回list下的标签为a的所有信息 words = [] #创建空的列表,存入每章节的url与章节名称 ##对标签a内的内容进行提取 for chapter in chapters: name = chapter.string #取出字符串,可以看出字符串只有章节号与章节名称,刚好符合我们所需 url1 = url + chapter.get("href") #获得每一章节小说的url,可从html代码中看到每一个"href"前边均缺少初始的url,因此需要加上 word = [url1, name] #以列表格式存储 words.append(word) #最终加入总的大列表中并返回 return words if __name__ == '__main__': target = geturl() header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3861.400 QQBrowser/10.7.4313.400"} for tar in target: req = requests.get(url=tar[0],headers = header) req.encoding = 'gbk' html = req.text bes = BeautifulSoup(html,"lxml") texts = bes.find("div", id = "content") texts_list = texts.text.split("\xa0"*4) with open("D:/novels/"+ tar[1] + ".txt","w") as file: #写入文件路径 + 章节名称 + 后缀 for line in texts_list: file.write(line+"\n")
批量爬取结果:
本次介绍主要是基于Python爬虫对于小说类文本的初步学习,主要是入门性学习,所以难度适中,希望能对爬虫小白们一些帮助哈哈哈。
并未涉及到“正则表达式”等深度内容,之后有时间也会继续更新,感谢各位大佬们的批评指正,Respect!!
学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!
包括:Python激活码+安装包、Python web开发,Python爬虫,Python数据分析,Python自动化测试学习等教程。带你从零基础系统性的学好Python!
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/838375
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。