赞
踩
一、主题式网络爬虫设计方案(15分)
1.主题式网络爬虫名称:爬取微博热搜top50
2.主题式网络爬虫的内容与数据特征分析:排名 关键词 点击量
3.主题式网络爬虫设计方案概述:
先分析页面 对比源代码找出规律,然后对网页进行爬取,再对爬取的数据进行分析和可视化。
二、主题页面的结构特征分析(15分)
1.主题页面的结构特征分析:
2.Htmls页面解析:
右击查看网页源代码
3.节点(标签)查找方法与遍历方法:
(1)热搜的名字都在
的子节点 里(2)热搜的排名都在
里(置顶热搜没有排名)(3)热搜的访问量都在
的子节点 里三、网络爬虫程序设计
1.爬取数据
###导入模块
importrequestsfrom lxml importetree###网址
url="https:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。