当前位置:   article > 正文

提高爬虫效率之多线程、多进程的使用_爬取数据怎么开多线程

爬取数据怎么开多线程

爬虫之多线程

单线程爬虫的问题

  • 因为爬虫多为IO密集型的程序,而IO处理速度并不是很快,因此速度不会太快
  • 如果IO卡顿,直接影响速度 

 解决方案

考虑使用多线程、多进程

 原理

爬虫使用多线程来处理网络请求,使用线程来处理URL队列中的 url,然后将url返回的结果保存在另一个队列中,其它线程在读取这 个队列中的数据,然后写到文件中

 主要组成部分

URL队列和结果队列

将将要爬去的url放在一个队列中,这里使用标准库Queue。访问 url后的结果保存在结果队列中

初始化一个URL队列

  1. from queue import Queue
  2. urls_queue = Queue()
  3. out_queue = Queue()

类包装

使用多个线程,不停的取URL队列中的url,并进行处理:

  1. import threading
  2. class ThreadCrawl(threading.Thread):
  3. def __init__(self, queue, out_queue):
  4. threading.Thread.__init__(self)
  5. self.queue = queue
  6. self.out_queue = out_queue
  7. def run(self):
  8. while True:
  9. item = self.queue.get()

如果队列为空,线程就会被阻塞,直到队列不为空。处理队列中的 一条数据后,就需要通知队列已经处理完该条数据。

函数包装

  1. from threading import Thread
  2. def func(args)
  3. pass
  4. if __name__ == '__main__':
  5. info_html = Queue()
  6. t1 = Thread(target=func,args=
  7. (info_html,))

线程池

  1. # 简单往队列中传输线程数
  2. import threading
  3. import time
  4. import queue
  5. class Threadingpool():
  6. def __init__(self,max_num = 10):
  7. self.queue = queue.Queue(max_num)
  8. for i in range(max_num):
  9. self.queue.put(threading.Thread)
  10. def getthreading(self):
  11. return self.queue.get()
  12. def addthreading(self):
  13. self.queue.put(threading.Thread)
  14. def func(p,i):
  15. time.sleep(1)
  16. print(i)
  17. p.addthreading()
  18. if __name__ == "__main__":
  19. p = Threadingpool()
  20. for i in range(20):
  21. thread = p.getthreading()
  22. t = thread(target = func, args = (p,i))
  23. t.start()

Queue模块中的常用方法

Python的Queue模块中提供了同步的、线程安全的队列类,包括 FIFO(先入先出)队列Queue,LIFO(后入先出)队列LifoQueue, 和优先级队列PriorityQueue。这些队列都实现了锁原语,能够在多 线程中直接使用。可以使用队列来实现线程间的同步。

爬虫之多进程 

 multiprocessing是python的多进程管理包,和threading.Thread 类似

multiprocessing模块

multiprocessing模块可以让程序员在给定的机器上充分的利用CPU 在multiprocessing中,通过创建Process对象生成进程,然后调用 它的start()方法。

  1. from multiprocessing import Process
  2. def func(name):
  3. print('hello', name)
  4. if __name__ == "__main__":
  5. p = Process(target=func,args=('xxx',))
  6. p.start()
  7. p.join() # 等待进程执行完毕

Manager类,实现数据共享

在使用并发设计的时候最好尽可能的避免共享数据,尤其是在使用 多进程的时候。 如果你真有需要 要共享数据,可以使用由 Manager()返回的manager提供list, dict, Namespace, Lock, RLock, Semaphore, BoundedSemaphore, Condition, Event, Barrier, Queue, Value and Array类型的支持

  1. from multiprocessing import
  2. Process,Manager,Lock
  3. def print_num(info_queue,l,lo):
  4. with lo:
  5. for n in l:
  6. info_queue.put(n)
  7. def updata_num(info_queue,lo):
  8. with lo:
  9. while not info_queue.empty():
  10. print(info_queue.get())
  11. if __name__ == '__main__':
  12. manager = Manager()
  13. into_html = manager.Queue()
  14. lock = Lock()
  15. a = [1, 2, 3, 4, 5]
  16. b = [11, 12, 13, 14, 15]
  17. p1 = Process(target=print_num,args= (into_html,a,lock))
  18. p1.start()
  19. p2 = Process(target=print_num,args= (into_html,b,lock))
  20. p2.start()
  21. p3 = Process(target=updata_num,args= (into_html,lock))
  22. p3.start()
  23. p1.join()
  24. p2.join()
  25. p3.join()
  1. from multiprocessing import Process
  2. from multiprocessing import Manager
  3. import time
  4. from fake_useragent import UserAgent
  5. import requests
  6. from time import sleep
  7. def spider(url_queue):
  8. while not url_queue.empty():
  9. try:
  10. url = url_queue.get(timeout = 1)
  11. # headers = {'UserAgent':UserAgent().chrome}
  12. print(url)
  13. # resp = requests.get(url,headers = headers)
  14. # 处理响应结果
  15. # for d in resp.json().get('data'):
  16. # print(f'tid:{d.get("tid")} topic:{d.get("topicName")} content:{d.get("content")}')
  17. sleep(1)
  18. # if resp.status_code == 200:
  19. # print(f'成功获取第{i}页数据')
  20. except Exception as e:
  21. print(e)
  22. if __name__ == '__main__':
  23. url_queue = Manager().Queue()
  24. for i in range(1,11):
  25. url =
  26. f'https://www.hupu.com/home/v1/news?pageNo={i}&pageSize=50'
  27. url_queue.put(url)
  28. all_process = []
  29. for i in range(3):
  30. p1 = Process(target=spider,args= (url_queue,))
  31. p1.start()
  32. all_process.append(p1)
  33. [p.join() for p in all_process]

进程池的使用

  • 进程池内部维护一个进程序列,当使用时,则去进程池中获取一 个进程,如果进程池序列中没有可供使用的进进程,那么程序就 会等待,直到进程池中有可用进程为止。
  • 进程池中有两个方法:
    • apply同步执行-串行
    • apply_async异步执行-并行

  1. from multiprocessing import Pool,Manager
  2. def print_num(info_queue,l):
  3. for n in l:
  4. info_queue.put(n)
  5. def updata_num(info_queue):
  6. while not info_queue.empty():
  7. print(info_queue.get())
  8. if __name__ == '__main__':
  9. html_queue =Manager().Queue()
  10. a=[11,12,13,14,15]
  11. b=[1,2,3,4,5]
  12. pool = Pool(3)
  13. pool.apply_async(func=print_num,args=(html_queue,a))
  14. pool.apply_async(func=print_num,args=(html_queue,b))
  15. pool.apply_async(func=updata_num,args=(html_queue,))
  16. pool.close() #这里join一定是在close之后,且必须要加join,否则主进程不等待创建的子进程执行完毕
  17. pool.join() # 进程池中进程执行完毕后再关闭,如果注释,那么程序直接关闭
  1. from multiprocessing import Pool,Manager
  2. from time import sleep
  3. def spider(url_queue):
  4. while not url_queue.empty():
  5. try:
  6. url = url_queue.get(timeout = 1)
  7. print(url)
  8. sleep(1)
  9. except Exception as e:
  10. print(e)
  11. if __name__ == '__main__':
  12. url_queue = Manager().Queue()
  13. for i in range(1,11):
  14. url =f'https://www.hupu.com/home/v1/news?pageNo={i}&pageSize=50'
  15. url_queue.put(url)
  16. pool = Pool(3)
  17. pool.apply_async(func=spider,args=(url_queue,))
  18. pool.apply_async(func=spider,args=(url_queue,))
  19. pool.apply_async(func=spider,args=(url_queue,))
  20. pool.close()
  21. pool.join()

爬虫之协程

网络爬虫速度效率慢,多部分在于阻塞IO这块(网络/磁盘)。在阻塞 时,CPU的中内核是可以处理别的非IO操作。因此可以考虑使用协 程来提升爬虫效率,这种操作的技术就是协程。

协程一种轻量级线程,拥有自己的寄存器上下文和栈,本质是 一个进程 相对于多进程,无需线程上下文切换的开销,无需原子操作锁 定及同步的开销

简单的说就是让阻塞的子程序让出CPU给可以执行的子程序 一个进程包含多个线程

一个线程可以包含多个协程 多个线程相对独立,线程的切换受系统控制。 多个协程也相对 独立,但是其切换由程序自己控制

 安装

pip install aiohttp

常用方法

 代码

  1. import aiohttp
  2. import asyncio
  3. async def first():
  4. async with aiohttp.ClientSession() assession:
  5. async withsession.get('http://httpbin.org/get') as resp:
  6. rs = await resp.text()
  7. print(rs)
  8. headers = {'User-Agent':'aaaaaa123'}
  9. async def test_header():
  10. async withaiohttp.ClientSession(headers= headers) assession:
  11. async withsession.get('http://httpbin.org/get') as resp:
  12. rs = await resp.text()
  13. print(rs)
  14. async def test_params():
  15. async with aiohttp.ClientSession(headers= headers) as session:
  16. async with session.get('http://httpbin.org/get',params={'name':'xxx'}) as resp:
  17. rs = await resp.text()
  18. print(rs)
  19. async def test_cookie():
  20. async with aiohttp.ClientSession(headers= headers,cookies={'token':'xxx'}) as session:
  21. async with session.get('http://httpbin.org/get',params={'name':'xxx'}) as resp:
  22. rs = await resp.text()
  23. print(rs)
  24. async def test_proxy():
  25. async with aiohttp.ClientSession(headers=headers,cookies={'token':'xxx'}) as session:
  26. async with session.get('http://httpbin.org/get',params={'name':'xxx'},proxy = 'http://name:pwd@ip:port' ) as resp:
  27. rs = await resp.text()
  28. print(rs)
  29. if __name__ == '__main__':
  30. loop = asyncio.get_event_loop()
  31. loop.run_until_complete(test_cookie())

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/189689
推荐阅读
相关标签
  

闽ICP备14008679号