当前位置:   article > 正文

linkedin 爬虫_领英 爬虫

领英 爬虫

linkedin网页爬虫难点:

  1. 网页进入:登录网页(个人账号登录);API接口进入(需要进行一系列复杂且不懂的申请操作,且每次爬的数据量有限);虚拟网址登入,用requests的Session维持登录状态(目前已不可行,https://www.linkedin.com/uas/login-submit)
  2. 爬虫难点:网页项目没有明确的#css可以爬,必须找到相应的class,且网页element处于更新中,这次爬了不代表下次能用相同的规则爬。

网页进入

用selenium驱动chrome: Rselenium package
我起初首先看的网址,对我有启蒙作用,然而有一些方法已经失效,aja渲染也没必要用,只能帮助进入,无法帮助爬虫,且在python环境下完成
使用R软件的Rselenium包自动驱动;非常详细地告诉你R怎么配置chromedriver,需要用到java执行档
更详细生动的python selenium的操作,selenium和Rselenium其实原理都相同,互通的。

#在cmd中执行: java -Dwebdriver.chrome.driver=D:\Chromedriver.exe -jar D:\selenium-server-standalone-3.141.59.jar
library(Rselenium)
remDr=remoteDriver(browserName='chrome')
#打开领英网页
remDr$open()
loginurl='https://www.linkedin.com/login?fromSignIn=true&trk=guest_homepage-basic_nav-header-signin'
remDr$navigate(loginurl)
# 用户名和密码;这里是通过代码输入了,实际上自己在监控网页上输入用户名密码即可,只要你不关闭chrome,就保持了cookie.
t0=remDr$findE
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/716141
推荐阅读
相关标签
  

闽ICP备14008679号