赞
踩
网页抓取网易云音乐及评论数据分析
游贤
成都理工大学信息科学与技术学院
【摘
要】
摘要:为了分析网易云音乐中哪些歌曲是热门歌曲,哪些歌曲的评论
最多,从而了解到人们对于不同音乐类型的喜爱程度,采用成熟的
爬虫
框架,从歌手信息开始,抓取每个歌手的所有演唱曲目和对应评论信息,最后
对数据进行清洗处理,得出结论。
【期刊名称】
数码世界
【年
(
卷
),
期】
2018(000)009
【总页数】
1
【关键词】
网页采集
对称加密
1.
思路分析
抓取全站信息一般选择有规律的网页采用广度优先方法,考虑到如果从歌单页
面开始的话,会有很多歌曲重复,因为相同的歌曲可以划分到不同的歌单。因
此最终决定从歌手页面开始,作为种子页面,这样歌曲的重复量会小很多(如
果有多个歌手合唱,那么这首歌会出现在每个歌手的歌曲页面当中,他们的访
问地址是不一样的)
。
方法一:
从
http
:
//music.163.com/discover/artist
页面出发,可以找到所
有的音乐人,
如
图
所
示
,
每
个
歌
手
分
类
对
应
的
url
为
http
:
//music.163.com/discover/artist/cat
?
id=xxx
它
的
可
取
值
有
1001
,
1002
,
1003
,
2001
,
2002
,
2003
,
6001
,
6002
,
6003
,
7001
,
7002
,
7003
,
4001
,
4002
,
4003
。然后我没随便进入其中其一个页面
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。