爬取拉钩网60条招聘信息并存入数据库_八爪鱼爬取拉勾网

作者：菜鸟追梦旅行 | 2024-05-31 23:01:51

踩

八爪鱼爬取拉勾网

信息提取说明：

1、将驱动放在python.exe同级目录下，模拟浏览器时不需要写驱动地址
2、查找搜索框元素，向其中传入keys
3、查找搜索按钮，用click方法模拟点击
4、sleep 8秒，确保异步加载的信息加载完毕
5、获取异步加载信息,page_source为str类型数据
6、模拟鼠标滚轮向下动作
7、brosver搜索加载更多按钮，并模拟点击
8、先循环加载更多，再统一寻找元素，统一提取信息，避免重复提取
1
2
3
4
5
6
7
8

信息插入说明：

一、使用Navicat for MySQL创建数据库：
1、管理员身份运行cmd，执行打开MySQL命令
2、使用Navicat for MySQL连接MySQL，并新建数据库（右击连接实例名，左击新建数据库，库名:ttAndtt）
3、cmd进入MySQL查看是否已建立（进入：mysql -u root -p
                            输入密码：******(自行补充)
                            显示已有数据库（注意结尾分号）：show databases;）
二、使用python创建数据库并导入数据：
4、创建数据库
5、python连接数据库
6、获取游标
7、创建表
    varchar(40) 可变长度字符串类型，一个汉字算两个字符
    注意区分sql语句中的    `   和单引号   '
8、插入多条数据
    通过格式化字符串传入值，对应一个存有60个元组数据的列表
9、关闭游标
10、提交事务
11、断开数据库连接
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

import re
from selenium import webdriver
import time
import pymysql

# 定义使用re提取信息函数(页面源码,空列表)
def getliInfo(html,appendList):
    for i in range(60):
        infoDict = {
   }
        infoDict['company'] = re.findall('class="item-title">(.*?)</h2>',html,re.S)[i]
        jobNameandAddress = re.findall('class="item-pos">(.*?)</span>',html,re.S)[i].strip()
        infoDict['jobName'] = re.findall(r'(.*?)[[]',jobNameandAddress1
2
3
4
5
6
7
8
9
10
11
12

声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：【wpsshop博客】