linkedin 爬虫_领英爬虫

作者：菜鸟追梦旅行 | 2024-06-14 03:38:47

踩

领英爬虫

linkedin网页爬虫难点:

网页进入：登录网页（个人账号登录）；API接口进入（需要进行一系列复杂且不懂的申请操作，且每次爬的数据量有限）；虚拟网址登入，用requests的Session维持登录状态（目前已不可行，https://www.linkedin.com/uas/login-submit）
爬虫难点：网页项目没有明确的#css可以爬，必须找到相应的class，且网页element处于更新中，这次爬了不代表下次能用相同的规则爬。

网页进入

用selenium驱动chrome： Rselenium package
我起初首先看的网址，对我有启蒙作用，然而有一些方法已经失效，aja渲染也没必要用，只能帮助进入，无法帮助爬虫，且在python环境下完成
 使用R软件的Rselenium包自动驱动；非常详细地告诉你R怎么配置chromedriver，需要用到java执行档
 更详细生动的python selenium的操作，selenium和Rselenium其实原理都相同，互通的。

#在cmd中执行： java -Dwebdriver.chrome.driver=D:\Chromedriver.exe -jar D:\selenium-server-standalone-3.141.59.jar
library(Rselenium)
remDr=remoteDriver(browserName='chrome')
#打开领英网页
remDr$open()
loginurl='https://www.linkedin.com/login?fromSignIn=true&trk=guest_homepage-basic_nav-header-signin'
remDr$navigate(loginurl)
# 用户名和密码；这里是通过代码输入了，实际上自己在监控网页上输入用户名密码即可，只要你不关闭chrome，就保持了cookie.
t0=remDr$findE1
2
3
4
5
6
7
8

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/716141

linkedin 爬虫_领英 爬虫

linkedin网页爬虫难点:

网页进入

linkedin 爬虫_领英爬虫