当前位置:   article > 正文

python抓取文献关键信息,python爬虫——使用selenium爬取知网文献相关信息

python爬虫相关选题论文

python爬虫——使用selenium爬取知网文献相关信息

写在前面:

本文章限于交流讨论,请不要使用文章的代码去攻击别人的服务器

如侵权联系作者删除

文中的错误已经修改过来了,谢谢各位爬友指出错误

在你复制本文章代码去运行的时候,请设置延迟,给自己留一条后路

转载请注明来源,谢谢

1. 先看爬取的效果

63f84b181e86ae525479c28ba3e2b6bf.png

2e455c9fc6b308864aea81ce69d5fc28.png

2.

知网的反爬虫手段很强,反正我爬取pc端的时候,用selenium爬取获取不到源代码,真是气人,后来换成手机端就可以获取了,爬取手机端的操作如下。

3. 首先进入知网后,选择开发工具,建议放在右边,之后再点击图中红框的东东,然后刷新一下网页就切换到手机端了

d03e7e14587e89d85c23f33265f67629.png

4.进入手机端的界面如下图所示(注:记得刷新网页):

679568b199a9e0c817de679bd65ec2cb.png

5. 这是网址

4a899925a38b1336242507cb2a55485e.png

6. 首先在调用selenium之前设置一些参数

from selenium import webdriver

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.common.by import By

import time

import json

import csv

# 设置谷歌驱动器的环境

options = webdriver.ChromeOptions()

# 设置chrome不加载图片,提高速度

options.add_experimental_option("prefs", {"profile.managed_default_content_settings.images": 2})

# 创建一个谷歌驱动器

browser = webdriver.Chrome(options=options)

url = 'http://wap.cnki.net/touch/web/guide'

7. 既然使用selenium,那么我们需要获取输入框的id来自动输入关键字,输入关键字之后再获取搜索的按钮,然后点击

a6c53be67da79871af65fac83e555d00.png

8.代码如下(输入的关键字是python):

# 请求url

browser.get(url)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/843570
推荐阅读
相关标签
  

闽ICP备14008679号