当前位置:   article > 正文

Selenium爬取打卡记录并记录到表格_打卡鸭数据爬取

打卡鸭数据爬取

一篇学会爬取打卡记录,就不用一一就复制粘贴了

背景:老师要求要记录每天的打卡情况,然而人数有点多,不想一一点开记录.那怎么办呢,诶我们可以利用爬虫Selenium来爬取数据


一般是用request来爬取,但是这里利用cookie信息登入的时候有些问题,所以就利用Selenium了,这里就可以避免一些问题

这里以CTFd平台为例子

一、必备工具

首先下载 chromedriver,注意要和自己的谷歌浏览器版本要对应,谷歌什么版本,你就下载什么版本就可
工具地址
然后就安装selenium库

pip install selenium 
直接安装即可
  • 1
  • 2

安装完必备工具后,就可以使用了
然后在python环境中导入即可

from selenium import webdriver
diver=webdriver.Chrome(executable_path="D:\Chromdriver\chromedriver_win32\chromedriver3.exe")
  • 1
  • 2

二、获取cookie信息

要想实现直接登入,那末cookie信息事必不能少的.

我们先模拟登入F12 查看网页代码
请添加图片描述
定位到用户名密码,然后实现自动登入,send_keys()实现填入用户名密码

diver.find_element_by_id('name').send_keys('haisen')
diver.find_element_by_id('password').send_keys('12345678')
  • 1
  • 2

定位到提交按钮实现自动提交,用click()模拟点击

diver.find_element_by_id('_submit').click()
  • 1

然后打印cookie就行啦,总的代码如下

diver=webdriver.Chrome(executable_path="D:\Chromdriver\chromedriver_win32\chromedriver3.exe")
diver.get('http://URL:8000/login?next=%2Fchallenges%3F')
time.sleep(2)
diver.find_element_by_id('name').send_keys('haisen')
diver.find_element_by_id('password').send_keys('12345678')
time.sleep(2)
diver.find_element_by_id('_submit').click()
time.sleep(2)
print(diver.get_cookies())
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9

我们可以看到cookie信息已经打印出来
请添加图片描述
然后我们在添加cookie进去,就是先自动登入了

for item in cookie:
    diver.add_cookie(item)
  • 1
  • 2

三、获取要找的信息

实现登入以后,然后我们就找需要记录的信息了,这里我以名字为例
找到某个请添加图片描述
题目后点开,点开Sloves 就能发现要找的name了请添加图片描述
点开后url为

http://42.URL:8000/challenges#福尔摩斯-3
然后我们再点开Solves 就能看见name名

f12后找到sloves对应的类名
在这里插入图片描述
我们可以用diver.find_element_by_class_name(’’)来找到对应的元素,并实现点击

diver.find_element_by_class_name('challenge-solves').click()
  • 1

点开后我们就可以用xpath语法来将name 获取
在这里插入图片描述
这样就可以获取了
然后用diver打印出来即可
总的代码为

from selenium import webdriver

from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
import re
import time
diver=webdriver.Chrome(executable_path="D:\Chromdriver\chromedriver_win32\chromedriver3.exe")
diver.get('http://URL:8000/login?next=%2Fchallenges%3F')
time.sleep(2)
cookie=[{'domain': 'URL', 'expiry': 1642423459, 'httpOnly': True, 'name': 'session', 'path': '/', 'sameSite': 'Lax', 'secure': False, 'value': '7af6d510-a94e-4dbb-b7b2-50dee11811a6._CJfH_7ffk6NIa_aCXJmN63ZS-E'}]
for item in cookie:
    diver.add_cookie(item)

url='http://URL:8000/challenges#Base家族-19'
diver.get(url)
time.sleep(3)
diver.find_element_by_class_name('challenge-solves').click()
time.sleep(2)
daka_name=diver.find_element_by_xpath("//tbody[@id='challenge-solves-names']").text

print(daka_name)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22

简单的几行代码就可以实现捕获信息了.结果如图
在这里插入图片描述
然后利用正则提取汉字

hanzi= re.compile(r'[\u4E00-\u9FA5]+')
mingdan=re.findall(hanzi,daka_name)
count=0
for i in mingdan:
    print('第{0}名  {1} 打卡次数{2}'.format(str(count),i,1))
    count+=1
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

这里只是以一个challenge来说,我们可以利用列表来存取所有challenge然后for循环就实现了所有挑战的打卡信息,这里就不写了,感兴趣的可以自己实现一下

四、存储所读取的数据

import xlwt
book = xlwt.Workbook()
sheet = book.add_sheet('打卡')
for i in range(len(mingdan)):
    sheet.write(i,1,mingdan[i])
    sheet.write(i,2,'你统计的次数')

book.save('task.xls')
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

在这里插入图片描述
总的代码如下

from selenium import webdriver

from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
import re
import time
diver=webdriver.Chrome(executable_path="D:\Chromdriver\chromedriver_win32\chromedriver3.exe")
diver.get('http://url:8000/login?next=%2Fchallenges%3F')
time.sleep(2)
# diver.find_element_by_id('name').send_keys('haisen')
# diver.find_element_by_id('password').send_keys('12345678')
# time.sleep(2)
# diver.find_element_by_id('_submit').click()
# time.sleep(2)
# print(diver.get_cookies())
cookie=[{'domain': 'url', 'expiry': 1642423459, 'httpOnly': True, 'name': 'session', 'path': '/', 'sameSite': 'Lax', 'secure': False, 'value': '7af6d510-a94e-4dbb-b7b2-50dee11811a6._CJfH_7ffk6NIa_aCXJmN63ZS-E'}]
for item in cookie:
    diver.add_cookie(item)

url='http://url:8000/challenges#Base家族-19'
diver.get(url)
time.sleep(3)
diver.find_element_by_class_name('challenge-solves').click()
time.sleep(2)
daka_name=diver.find_element_by_xpath("//tbody[@id='challenge-solves-names']").text

print(daka_name)

hanzi= re.compile(r'[\u4E00-\u9FA5]+')
mingdan=re.findall(hanzi,daka_name)
count=0
for i in mingdan:
    print('第{0}名  {1} 打卡次数{2}'.format(str(count),i,1))
    count+=1
print(mingdan)
import xlwt
book = xlwt.Workbook()
sheet = book.add_sheet('打卡')
for i in range(len(mingdan)):
    sheet.write(i,1,mingdan[i])
    sheet.write(i,2,'你统计的次数')

book.save('task.xls')

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45

总结

可以使用Selenium,xlwt等模块将打卡name 进行表格统计.
后续还会更新更好的数据爬取.求个关注鸭

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/384305
推荐阅读
相关标签
  

闽ICP备14008679号