赞
踩
- #-*-coding:utf-8-*-
- from urllib.request import urlopen, urlretrieve
- from bs4 import BeautifulSoup
- import re
- import os
-
-
- '''
- 抓取网站http://jyghf.com/中的“图片区”的第一页的所有图片
- 关于这个网站,大家不要太有纠结的情绪,作为一个泱泱大国的男士,第一个爬虫,必须要有作为,作为啊!!!
- '''
-
- '''
- 第一步,进入到图片类中:根据http://jyghf.com/的html分析:
- 在id='top_box'的div中,第一个class='menu'的div包含着所有的“图片区”分类。
- 这些分类的url都是以“/p”开头,如:/p01/index.html,全路径: http://jyghf.com/p01/index.html
- '''
-
- '''
- 第二步,进入到图片文件夹中:根据http://jyghf.com/p01/index.html的html分析
- 在class="typelist"的div中,图片路径都在“<li>”标签中,这些图片路径都是以“/htm/”开头
- 如:“/htm/2017/12/13/p01/393067.html”,全路径:“http://jyghf.com/htm/2017/12/13/p01/393067.html”
- '''
-
- '''
- 第三步,获取图片的下
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。