python抓取文献关键信息,python爬虫——使用selenium爬取知网文献相关信息

作者：你好赵伟 | 2024-07-18 04:18:38

踩

python爬虫相关选题论文

python爬虫——使用selenium爬取知网文献相关信息

写在前面：

本文章限于交流讨论，请不要使用文章的代码去攻击别人的服务器

如侵权联系作者删除

文中的错误已经修改过来了，谢谢各位爬友指出错误

在你复制本文章代码去运行的时候，请设置延迟，给自己留一条后路

转载请注明来源，谢谢

1. 先看爬取的效果

知网的反爬虫手段很强，反正我爬取pc端的时候，用selenium爬取获取不到源代码，真是气人，后来换成手机端就可以获取了，爬取手机端的操作如下。

3. 首先进入知网后，选择开发工具，建议放在右边，之后再点击图中红框的东东，然后刷新一下网页就切换到手机端了

4.进入手机端的界面如下图所示(注：记得刷新网页)：

5. 这是网址

6. 首先在调用selenium之前设置一些参数

from selenium import webdriver

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.common.by import By

import time

import json

import csv

# 设置谷歌驱动器的环境

options = webdriver.ChromeOptions()

# 设置chrome不加载图片，提高速度

options.add_experimental_option("prefs", {"profile.managed_default_content_settings.images": 2})

# 创建一个谷歌驱动器

browser = webdriver.Chrome(options=options)

url = 'http://wap.cnki.net/touch/web/guide'

7. 既然使用selenium，那么我们需要获取输入框的id来自动输入关键字，输入关键字之后再获取搜索的按钮，然后点击

8.代码如下(输入的关键字是python)：

# 请求url

browser.get(url)

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/你好赵伟/article/detail/843570