当前位置:   article > 正文

Python使用webdriver爬取百度文库_python爬取百度文库源代码

python爬取百度文库源代码

前言

不知道大家有没有过这样的经历,当你写论文搜索资料时,好不容易搜到一篇好文章准备往自己论文里复制时却发现复制不了,所以只能硬着头皮把那段话又一个字一个字敲出来(大多数百度文库就是这样)。这样其实很费时间的。那有没有什么好办法啊?我的答案是 当然有啊。要学以致用,接下来就给大家献上我的方法。小白的话可以直接看 第3个—小白福利

1 准备工作

当然干这种事并不是那么简单的,还要做准备工作。记得我之前也写过一个爬虫,但是用我之前写得爬虫去爬取百度文库,所得非所见,就是我用爬虫拿到的网页代码跟我看到的网页内容是有所不一样的,这是因为该网页需要动态爬取,那么就的用到selenium模块,当然爬取下来的网页代码非常长,而且你需要的文本内容在人家代码里,也不好复制。我们在需要一个BeautifulSoup模块来简化提取网页内容。

1.1 安装相关库

关于安装selenium和BeautifulSoup这两个库我不想多讲。命令符输入pip install Beautifulsoup4等待安装完成后输入pip install selenium等待安装完成即可。
在这里插入图片描述

1.2 安装Chrome以及驱动

在这个方面我踩了好多坑,所以有必要提醒一下,安装chrome驱动时,一定要安装同版本的驱动这里我提供一个75.0377.90版本的chrome浏览器和75.0377.90的chromedriver浏览器驱动,大家下载后一定要记得安装chrome,驱动不用安装但要记得驱动的文件位置。
点击下载chrome浏览器 ,提取码:nw0i

点击下载浏览器驱动,提取码:hbfd

2 代码实现

接下来我就爬取一个百度文库付费文档来实战一下https://wenku.baidu.com/view/0ed77137814d2b160b4e767f5acfa1c7ab008239.html。点击进入查看
首先看看这个网页
在这里插入图片描述

代码实现

from bs4 import  BeautifulSoup
from selenium import webdriver
import time
  • 1
  • 2
  • 3
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Guff_9hys/article/detail/801161
推荐阅读
相关标签
  

闽ICP备14008679号