Python使用webdriver爬取百度文库_python爬取百度文库源代码

作者：Guff_9hys | 2024-07-09 02:33:44

踩

python爬取百度文库源代码

文章目录

前言
1 准备工作
- 1.1 安装相关库
- 1.2 安装Chrome以及驱动
2 代码实现
3 小白福利
- 3.1 送上我写exe
总结

前言

不知道大家有没有过这样的经历，当你写论文搜索资料时，好不容易搜到一篇好文章准备往自己论文里复制时却发现复制不了，所以只能硬着头皮把那段话又一个字一个字敲出来（大多数百度文库就是这样）。这样其实很费时间的。那有没有什么好办法啊？我的答案是当然有啊。要学以致用，接下来就给大家献上我的方法。小白的话可以直接看第3个—小白福利

1 准备工作

当然干这种事并不是那么简单的，还要做准备工作。记得我之前也写过一个爬虫，但是用我之前写得爬虫去爬取百度文库，所得非所见，就是我用爬虫拿到的网页代码跟我看到的网页内容是有所不一样的，这是因为该网页需要动态爬取，那么就的用到selenium模块，当然爬取下来的网页代码非常长，而且你需要的文本内容在人家代码里，也不好复制。我们在需要一个BeautifulSoup模块来简化提取网页内容。

1.1 安装相关库

关于安装selenium和BeautifulSoup这两个库我不想多讲。命令符输入pip install Beautifulsoup4等待安装完成后输入pip install selenium等待安装完成即可。
在这里插入图片描述

1.2 安装Chrome以及驱动

在这个方面我踩了好多坑，所以有必要提醒一下，安装chrome驱动时，一定要安装同版本的驱动这里我提供一个75.0377.90版本的chrome浏览器和75.0377.90的chromedriver浏览器驱动，大家下载后一定要记得安装chrome，驱动不用安装但要记得驱动的文件位置。
点击下载chrome浏览器，提取码：nw0i

点击下载浏览器驱动，提取码：hbfd

2 代码实现

接下来我就爬取一个百度文库付费文档来实战一下https://wenku.baidu.com/view/0ed77137814d2b160b4e767f5acfa1c7ab008239.html。点击进入查看
首先看看这个网页
在这里插入图片描述

代码实现

from bs4 import  BeautifulSoup
from selenium import webdriver
import time
1
2
3

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Guff_9hys/article/detail/801161?site