当前位置:   article > 正文

Django+Scrapy搭配使用_scrapy和django的结合

scrapy和django的结合

Django应用写好了,Scrapy的内容也写好了。

想要在Django中执行Scrapy爬虫么?直接在Django中运行command?不,这样会把Django阻塞的。下面介绍一种不阻塞Django依旧能调用Scrapy的方法。

本文主要讲述通过Scrapyd来进行Scrapy的调用。

目录

起步

配置Scrapy

Scrapyd操作

发布项目

调度爬虫

取消正在进行的任务

获取上传的项目

获取项目的版本

获取项目的爬虫列表

获取任务列表(Scrapyd 0.15版本以上)

删除项目版本

删除项目


起步

首先安装Scrapyd。

pip install Scrapyd

Scrapyd通常作为守护进程运行,它侦听运行爬虫的请求,并为每个请求生成一个进程,该进程基本上执行:scrapy crawl [myspider]。

Scrapyd还并行运行多个进程,将它们分配到max_proc和max_proc_per_cpu选项提供的固定数量的插槽中,启动尽可能多的进程来处理负载。

除了调度和管理进程之外,Scrapyd还提供了一个JSON web服务来上载新的项目版本(作为egg)和调度爬虫。

scrapyd的官方文档:Scrapyd — Scrapyd 1.2.0 documentation

安装完成后,进入到Scrapy项目的根目录下。执行

scrapyd

执行完成后,在浏览器输入

http://localhost:6800

可以看到这样的界面

接下来正式开始。

配置Scrapy

因为要和Django搭配使用,所以我们需要做一个小小的配置。记住,在scrapy项目的settings.py中修改!!!

  1. # scrapy项目的settings.py文件中加入下面内容
  2. import os
  3. import sys
  4. # DJANGO INTEGRATION
  5. # E:\code\django_scrapy\extra_apps\mySpider\mySpider/set
  6. # 注意这个路径修改成自己的Django项目所在的路径
  7. sys.path.append('../../../django_scrapy')
  8. # Do not forget the change Crawler part based on your mySpider name
  9. # 下面这行的django_scrapy修改为自己的Django项目名字
  10. os.environ['DJANGO_SETTINGS_MODULE'] = 'django_scrapy.settings'
  11. # This is required only if Django Version > 1.8
  12. import django
  13. django.setup()
  14. # DJANGO INTEGRATION

Scrapyd操作

官方提供了API,我们可以直接通过请求进行操作。

  • 发布项目

  1. url = "http://127.0.0.1:6800/addversion.json"
  2. data = {
  3. "project": "mySpider", # Scrapy的项目名字
  4. "version": 1, # 版本号
  5. "egg": '1.egg' # 打包成egg文件的名字
  6. }
  7. res = requests.post(url, data=data)
  • 调度爬虫

POST http://127.0.0.1:6800/schedule.json
参数:

  • project (string, required),项目名称。
  • spider (string, required),爬虫名称,即 Spider下的name属性指定的。即scrapy crawl [爬虫名称]运行时的名称。
  • setting (string, optional),运行时的设置文件,默认为项目下settings.py。
  • jobid (string, optional),任务id,不指定则为默认生成的UUID。
  • _version (string, optional),运行的项目的版本。
  • 任何其他的参数都被传递给爬虫的属性,即scrapy crawl [爬虫名称] -a accounts=testAdmin后面-a所带的参数,在Spider中可通过self.testAdmin来获取值。

  • 取消正在进行的任务

POST http://localhost:6800/cancel.json
参数:

  • project (string, required),项目名称。
  • job (string, required),任务id。

  • 获取上传的项目

Scrapyd可管理多个Scrapy项目,可通过此方法获取上传的项目。

GET http://127.0.0.1:6800/listprojects.json

  • 获取项目的版本

返回上传的项目的版本列表,最后一个为当前版本。

GET http://127.0.0.1:6800/listversions.json
参数:

  • project (string, required),项目名称。
  • 获取项目的爬虫列表

返回指定版本,如不指定则为最新版本的可用爬虫列表。

GET http://127.0.0.1:6800/listspiders.json
参数:

  • project (string, required),项目名称。
  • _version (string, optional),运行的项目的版本。

  • 获取任务列表(Scrapyd 0.15版本以上)

获取指定项目的将要执行的、正在运行的、已经结束的任务

GET http://127.0.0.1:6800/listjobs.json
参数:

  • project (string, required),项目名称。

  • 删除项目版本

删除指定项目的指定版本,注意:当项目没有其他版本可以使用时,项目也会被删除。

POST http://127.0.0.1:6800/delversion.json


参数:

  • project (string, required) 项目名称。
  • version (string, required) 要删除项目的版本

  • 删除项目

删除一个项目及所有上传的版本。

POST http://127.0.0.1:6800/delproject.json


参数:

  • project (string, required) 项目名称。

附代码一份:

可在django中调用,将此代码放到Scrapy目录下即可。

  1. import requests
  2. def get_status():
  3. # 获取状态
  4. url = "http://127.0.0.1:6800/daemonstatus.json"
  5. res = requests.get(url)
  6. return res.json()
  7. def get_project_list():
  8. # 获取项目列表
  9. url = "http://127.0.0.1:6800/listprojects.json"
  10. res = requests.get(url)
  11. return res.json()
  12. def get_spider_list(project):
  13. # 获取项目下已发布的爬虫列表
  14. url = "http://127.0.0.1:6800/listspiders.json?project={}".format(project)
  15. res = requests.get(url)
  16. return res.json()
  17. def spider_list_ver(project):
  18. # 获取项目下已发布的爬虫版本列表
  19. url = "http://127.0.0.1:6800/listversions.json?project={}".format(project)
  20. res = requests.get(url)
  21. return res.json()
  22. def get_spider_status(spider):
  23. # 获取爬虫运行状态
  24. url = "http://localhost:6800/listjobs.json?project={}".format(spider)
  25. res = requests.get(url)
  26. return res.json()
  27. def start_spider(project, spider, kwargs=None):
  28. # 运行一个爬虫
  29. url = "http://localhost:6800/schedule.json"
  30. data = {
  31. "project": project,
  32. "spider": spider,
  33. }
  34. if kwargs:
  35. data["data"] = kwargs
  36. res = requests.post(url, data=data)
  37. return res.json()
  38. def del_spider(project, version):
  39. # 删除某一版本爬虫
  40. url = "http://127.0.0.1:6800/delversion.json"
  41. data = {
  42. "project": project,
  43. "version": version,
  44. }
  45. res = requests.post(url, data=data)
  46. return res.json()
  47. def del_pro(project):
  48. # 删除项目。注意:删除之前需要停止爬虫,才可以再次删除
  49. url = "http://127.0.0.1:6800/delproject.json"
  50. data = {
  51. "project": project,
  52. }
  53. res = requests.post(url, data=data)
  54. return res.json()
  55. def get_jobs(project):
  56. # 获取jobs
  57. url = "http://127.0.0.1:6800/listjobs.json?project={}".format(project)
  58. res = requests.get(url)
  59. return res.json()
  60. def cancel(project, job_id):
  61. # 取消job
  62. url = "http://localhost:6800/cancel.json"
  63. data = {
  64. "project": project,
  65. "job": job_id
  66. }
  67. res = requests.post(url, data=data)
  68. return res.json()
  69. def publish():
  70. # 发布项目
  71. url = "http://127.0.0.1:6800/addversion.json"
  72. data = {
  73. "project": "mySpider",
  74. "version": 1,
  75. "egg": '1.egg'
  76. }
  77. res = requests.post(url, data=data)
  78. return res.json()

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/441565
推荐阅读
相关标签
  

闽ICP备14008679号