赞
踩
1、将驱动放在python.exe同级目录下,模拟浏览器时不需要写驱动地址
2、查找搜索框元素,向其中传入keys
3、查找搜索按钮,用click方法模拟点击
4、sleep 8秒,确保异步加载的信息加载完毕
5、获取异步加载信息,page_source为str类型数据
6、模拟鼠标滚轮向下动作
7、brosver搜索加载更多按钮,并模拟点击
8、先循环加载更多,再统一寻找元素,统一提取信息,避免重复提取
一、使用Navicat for MySQL创建数据库: 1、管理员身份运行cmd,执行打开MySQL命令 2、使用Navicat for MySQL连接MySQL,并新建数据库(右击连接实例名,左击新建数据库,库名:ttAndtt) 3、cmd进入MySQL查看是否已建立(进入:mysql -u root -p 输入密码:******(自行补充) 显示已有数据库(注意结尾分号):show databases;) 二、使用python创建数据库并导入数据: 4、创建数据库 5、python连接数据库 6、获取游标 7、创建表 varchar(40) 可变长度字符串类型,一个汉字算两个字符 注意区分sql语句中的 ` 和单引号 ' 8、插入多条数据 通过格式化字符串传入值,对应一个存有60个元组数据的列表 9、关闭游标 10、提交事务 11、断开数据库连接
import re
from selenium import webdriver
import time
import pymysql
# 定义使用re提取信息函数(页面源码,空列表)
def getliInfo(html,appendList):
for i in range(60):
infoDict = {
}
infoDict['company'] = re.findall('class="item-title">(.*?)</h2>',html,re.S)[i]
jobNameandAddress = re.findall('class="item-pos">(.*?)</span>',html,re.S)[i].strip()
infoDict['jobName'] = re.findall(r'(.*?)[[]',jobNameandAddress
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。