赞
踩
目标链接
http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html
实践环境
pycharm2018+python3.7
实践思路
首先进入目标链接,查看目标数据是否为动态变化。
确认非动态变化后,对页面进行解析,提取需要的相关数据信息。
将数据存入csv文件中并保存。
后对保存的数据进行简单的数据分析并可视化。
实践过程
一、 数据抓取
判断目标数据非动态变化后,可进行数据抓取。
代码如下:
(1)获取网站页面’’’
def getHTMLText(url): try: resp = request.urlopen(url) html_data = resp.read().decode('utf-8') return html_data except: return "" '''(2)处理页面,提取相关信息''' def fillUnivList(ulist, html): soup = BeautifulSoup(html, "html.parser") for tr in soup.find('tbody').children: # 搜索'tbody'后面的子节点 if isinstance(tr, bs4.element.Tag): tds = tr('td') ulist.append([tds[0].string, tds[1].st
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。