赞
踩
图一
网站格式如上,我们主要爬取排名、学校名称、省市、总分4个数据。并做可视化分析。
我们使用request库将整个网页内容下载下来。过程非常的简单。
def getHTMLText(url):
try:
resp = request.urlopen(url)
html_data = resp.read().decode('utf-8')
return html_data
except:
return ""
pass
这里request.urlopen(url)
返回的是一个response
对象,再通过read()
方法就可以获得网页的内容了。
我们使用BeautifulSoup
来解析整个的网页内容。
通过观察网页源代码的方式我们可以发现
数据内容都存放在这个’tbody’元素中。
不难发现网页上的每一行数据都存放在一个’tr’元素中,每个’tr’元素下的前4个’td’元素就是我们要的数据。
def fillUnivList(ulist, html):
soup = BeautifulSoup(html, "html.parser")
for tr in soup.find('tbody').children: # 搜索'tbody'后面的子节点
if isinstance(tr, bs4.element.Tag):
tds = tr('td')
ulist.append([tds[0].string, tds[1].string, tds[2].string, tds[3].string]
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。