赞
踩
文末附完整代码
本文为基于上一篇文章的多线程优化(完整独立),上一版本爬取时间为21000s左右,优化后仅3000s左右。上一版(未优化版)链接:
爬虫爬取京东商品详细数据 (品牌、售价、各类评论量(精确数量)、热评词及数量等)json解析部分数据
较原版所作改动:
1.添加多线程优化
2.运行结果显示优化
需要的前期准备:
1.需要预先爬取产品id(data-sku)
文章链接:(多线程优化)爬取京东笔记本电脑销量榜data-sku(商品id),并存入云服务器中的mysql库(爬取时间较上一版提升十多倍)
2.需先在存储产品id(data-sku)的数据库对应表中创建相应字段
详情可查看未优化版。
3.数据库ip及密码以***
替代
4.可能遇到的错误及解决方法
数据库设置最大连接数方法(使用ThreadPool多线程插入数据到数据库报错)
使用ThreadPool()中的pool.map()多线程运行selenium webdriver导致的内存占用巨大,内存溢出乃至电脑卡死解决方法
安装:
pip install threadpool
使用介绍:
(1)引入threadpool模块
from multiprocessing.dummy import Pool as ThreadPool
(2)创建线程 池pool = ThreadPool(n)
# n为线程数
pool = ThreadPool(8)
(3)多线程处理
pool.map(反复调用的函数(只需要函数名), 参数池(元组类型))
(3)结束
pool.close() #
pool.join() #
本次选用的内容和使用:
po = ThreadPool(12)
po.map(get_data, t
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。