当前位置:   article > 正文

爬取拉钩网60条招聘信息并存入数据库_八爪鱼爬取拉勾网

八爪鱼爬取拉勾网
信息提取说明:
1、将驱动放在python.exe同级目录下,模拟浏览器时不需要写驱动地址
2、查找搜索框元素,向其中传入keys
3、查找搜索按钮,用click方法模拟点击
4、sleep 8秒,确保异步加载的信息加载完毕
5、获取异步加载信息,page_source为str类型数据
6、模拟鼠标滚轮向下动作
7、brosver搜索加载更多按钮,并模拟点击
8、先循环加载更多,再统一寻找元素,统一提取信息,避免重复提取
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
信息插入说明:
一、使用Navicat for MySQL创建数据库:
1、管理员身份运行cmd,执行打开MySQL命令
2、使用Navicat for MySQL连接MySQL,并新建数据库(右击连接实例名,左击新建数据库,库名:ttAndtt)
3、cmd进入MySQL查看是否已建立(进入:mysql -u root -p
                            输入密码:******(自行补充)
                            显示已有数据库(注意结尾分号):show databases;)
二、使用python创建数据库并导入数据:
4、创建数据库
5、python连接数据库
6、获取游标
7、创建表
    varchar(40) 可变长度字符串类型,一个汉字算两个字符
    注意区分sql语句中的    `   和单引号   '
8、插入多条数据
    通过格式化字符串传入值,对应一个存有60个元组数据的列表
9、关闭游标
10、提交事务
11、断开数据库连接
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
import re
from selenium import webdriver
import time
import pymysql

# 定义使用re提取信息函数(页面源码,空列表)
def getliInfo(html,appendList):
    for i in range(60):
        infoDict = {
   }
        infoDict['company'] = re.findall('class="item-title">(.*?)</h2>',html,re.S)[i]
        jobNameandAddress = re.findall('class="item-pos">(.*?)</span>',html,re.S)[i].strip()
        infoDict['jobName'] = re.findall(r'(.*?)[[]',jobNameandAddress
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号