当前位置:   article > 正文

(多线程优化版)爬虫爬取京东商品详细数据(品牌、售价、各类评论量(精确数量)、热评词及数量等) json解析部分数据_京东爬虫刷新频率

京东爬虫刷新频率

前言

文末附完整代码

本文为基于上一篇文章的多线程优化(完整独立),上一版本爬取时间为21000s左右,优化后仅3000s左右。上一版(未优化版)链接:
爬虫爬取京东商品详细数据 (品牌、售价、各类评论量(精确数量)、热评词及数量等)json解析部分数据

较原版所作改动:
1.添加多线程优化
2.运行结果显示优化

需要的前期准备:
1.需要预先爬取产品id(data-sku)
文章链接:(多线程优化)爬取京东笔记本电脑销量榜data-sku(商品id),并存入云服务器中的mysql库(爬取时间较上一版提升十多倍)
2.需先在存储产品id(data-sku)的数据库对应表中创建相应字段
详情可查看未优化版。

3.数据库ip及密码以***替代
4.可能遇到的错误及解决方法
数据库设置最大连接数方法(使用ThreadPool多线程插入数据到数据库报错)

使用ThreadPool()中的pool.map()多线程运行selenium webdriver导致的内存占用巨大,内存溢出乃至电脑卡死解决方法

正文

ThreadPool()中的pool.map()多线程优化

安装:

pip install threadpool
  • 1

使用介绍:

(1)引入threadpool模块

from multiprocessing.dummy import Pool as ThreadPool
  • 1

(2)创建线程 池pool = ThreadPool(n) # n为线程数

pool = ThreadPool(8)
  • 1

(3)多线程处理

pool.map(反复调用的函数(只需要函数名),  参数池(元组类型))
  • 1

(3)结束

pool.close() 	# 

pool.join()	#
  • 1
  • 2
  • 3

本次选用的内容和使用:

    po = ThreadPool(12)
    po.map(get_data, t
  • 1
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/74867
推荐阅读
相关标签
  

闽ICP备14008679号