赞
踩
批量爬取当当网商品信息,保存为csv文件到本地。
软件:Pycharm
第三方库:requests,fake_useragent,lxml,csv
网站地址:http://search.dangdang.com/
打开网站页面,去搜索一种商品,比如豆豆鞋。
可以看到:
http://search.dangdang.com/?key=%B6%B9%B6%B9%D0%AC&act=input
key=商品名称
分析一下是否为静态网页。
F12打开开发者模式。
复制关键字,Ctrl+U查看源代码。粘贴过来,发现可以找到。
静态网页。
http://search.dangdang.com/?key=%B6%B9%B6%B9%D0%AC&act=input&page_index=1
http://search.dangdang.com/?key=%B6%B9%B6%B9%D0%AC&act=input&page_index=2
http://search.dangdang.com/?key=%B6%B9%B6%B9%D0%AC&act=input&page_index=3
发现page_index之后会变化。
同一个ip地址去多次访问会面临被封掉的风险,这里采用fake_useragent,产生随机的User-Agent请求头进行访问。
1.导入相对应的第三方库,定义一个class类继承object,定义init方法继承self,主函数main继承self。
import requests from fake_useragent import UserAgent from lxml import etree import csv class dangdang(object): def __init__(self): self.url = 'http://search.dangdang.com/?key={}&page_index={}' ua = UserAgent(verify_ssl=False) for i in range(1, 100): self.headers = { 'User-Agent': ua.random } def main(self): pass if __name__ == '__main__'
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。