当前位置:   article > 正文

爬虫项目实战十一:爬取当当网商品信息_爬虫当当网

爬虫当当网

目标

批量爬取当当网商品信息,保存为csv文件到本地。

项目准备

软件:Pycharm
第三方库:requests,fake_useragent,lxml,csv
网站地址:http://search.dangdang.com/

网站分析

打开网站页面,去搜索一种商品,比如豆豆鞋。
在这里插入图片描述
可以看到:

http://search.dangdang.com/?key=%B6%B9%B6%B9%D0%AC&act=input

key=商品名称
分析一下是否为静态网页。
F12打开开发者模式。
复制关键字,Ctrl+U查看源代码。粘贴过来,发现可以找到。
在这里插入图片描述
静态网页。

页码分析

http://search.dangdang.com/?key=%B6%B9%B6%B9%D0%AC&act=input&page_index=1
http://search.dangdang.com/?key=%B6%B9%B6%B9%D0%AC&act=input&page_index=2
http://search.dangdang.com/?key=%B6%B9%B6%B9%D0%AC&act=input&page_index=3

发现page_index之后会变化。

反爬分析

同一个ip地址去多次访问会面临被封掉的风险,这里采用fake_useragent,产生随机的User-Agent请求头进行访问。

代码实现

1.导入相对应的第三方库,定义一个class类继承object,定义init方法继承self,主函数main继承self。

import requests
from fake_useragent import UserAgent
from lxml import etree
import csv
class dangdang(object):
    def __init__(self):
        self.url = 'http://search.dangdang.com/?key={}&page_index={}'
        ua = UserAgent(verify_ssl=False)
        for i in range(1, 100):
            self.headers = {
   
                'User-Agent': ua.random
            }
    def main(self):
    	pass
if __name__ == '__main__'
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/825039
推荐阅读
相关标签
  

闽ICP备14008679号