赞
踩
不知道大家有没有过这样的经历,当你写论文搜索资料时,好不容易搜到一篇好文章准备往自己论文里复制时却发现复制不了,所以只能硬着头皮把那段话又一个字一个字敲出来(大多数百度文库就是这样)。这样其实很费时间的。那有没有什么好办法啊?我的答案是 当然有啊。要学以致用,接下来就给大家献上我的方法。小白的话可以直接看 第3个—小白福利
当然干这种事并不是那么简单的,还要做准备工作。记得我之前也写过一个爬虫,但是用我之前写得爬虫去爬取百度文库,所得非所见,就是我用爬虫拿到的网页代码跟我看到的网页内容是有所不一样的,这是因为该网页需要动态爬取,那么就的用到selenium模块,当然爬取下来的网页代码非常长,而且你需要的文本内容在人家代码里,也不好复制。我们在需要一个BeautifulSoup模块来简化提取网页内容。
关于安装selenium和BeautifulSoup这两个库我不想多讲。命令符输入pip install Beautifulsoup4等待安装完成后输入pip install selenium等待安装完成即可。
在这个方面我踩了好多坑,所以有必要提醒一下,安装chrome驱动时,一定要安装同版本的驱动这里我提供一个75.0377.90版本的chrome浏览器和75.0377.90的chromedriver浏览器驱动,大家下载后一定要记得安装chrome,驱动不用安装但要记得驱动的文件位置。
点击下载chrome浏览器 ,提取码:nw0i
接下来我就爬取一个百度文库付费文档来实战一下https://wenku.baidu.com/view/0ed77137814d2b160b4e767f5acfa1c7ab008239.html。点击进入查看
首先看看这个网页
代码实现
from bs4 import BeautifulSoup
from selenium import webdriver
import time
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。