赞
踩
喵。最近新学爬虫,学半天笔记做半天给我学迷糊了,于是决定跨出第一步!先写一个吧~!(写这个就写了半天,应该没有比我更呆的人了。)
要用到的导入
from bs4 import BeautifulSoup #解析网页
import requests #URL用
首先进入当当网的主页~在主页搜索栏随便搜个啥,比如:美女
此时可以看到 链接里结尾是 &act=input:
然后再点击第2页~
发现结尾变成了 &act=input&page_index=2
再点回第一页!
发现结尾是 &act=input&page_index=1
于是发现URL的通用格式是:
index 后面输第几页就能去第几页
URL=“https://search.dangdang.com/?key=美女&act=input&page_index=”
因为想简单的爬书名~
所以善用网页前端的代码找书名在哪个标签里!先找到了所有的书名所在的大类:是class为bigimg 的 ul 标签里
对照打开第一个li标签,发现书名(title属性) 在 class为pic的 a标签里。只要能得到这个title属性就可以得到书名啦
实现o( ̄▽ ̄)ブ:
from bs4 import BeautifulSoup import requests URL="https://search.dangdang.com/?key=美女&act=input&page_index=" pagenum=1 while(pagenum<=2): html=requests.get(URL+str(pagenum)).text soup=BeautifulSoup(html,'lxml') text_ul=soup.find_all('ul',{"class":"bigimg"}) for ul in text_ul: texts=ul.find_all('a',{"class":"pic"}) for t in texts: print(t.get('title')) pagenum+=1
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。