赞
踩
'''
爬取豆瓣电影排行榜
设计思路:
1、先获取电影类型的名字以及特有的编号
2、将编号向ajax发送get请求获取想要的数据
3、将数据存放进excel表格中
'''
环境部署:
软件安装:
模块安装(打开cmd或powershell进行下面的命令安装【前提需要有python】):
安装requests模块、lxml模块(发送请求,xpath获取数据)pip install requests #(主要用来发送请求,获取响应)
pip install lxml #(主要引用里面的etree里面的xpath方法)
安装xpathhelper插件(可以在网页中复制相应的节点xpath路径并查看)1、下载地址:https://pan.baidu.com/s/1UM94dcwgus4SgECuoJ-Jcg 密码:337b
2、window平台下:
· 把文件的后缀名crx改为rar,然后解压到同名文件夹中
· 打开谷歌的扩展程序 ——> 进入到管理管理扩展程序中
· 打开开发者模式,通过加载已解压的扩展程序,将插件导入
3、ios平台下:
· 直接将crx文件拖进扩展程序中
安装xlwt模块(将数据存放进excel表格)pip install xlwt
项目中需要引入的模块:
import requests
from lxml import etree
import xlwt
import time
使用流程:
在列表中填写所需要获取的电影类型名
输入开始时获取的start以及获取多少数据的limit
填写所要输出的excel表格的名字(代码中默认douban.xls)
程序运行结束后打开excel验证数据是否获取
观察自己所需的数据
完整代码:
# encoding=utf8
# 编程者 :Alvin
'''
爬取豆瓣电影排行榜
设计思路:
1、先获取电影类型的名字以及特有的编号
2、将编号向ajax发送get请求获取想要的数据
3、将数据存放进excel表格中
'''
import requests
from lxml import etree
import xlwt
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。