当前位置:   article > 正文

python3爬取网易云歌单数据清洗_网页抓取网易云音乐及评论数据分析

爬虫音乐数据清洗代码

网页抓取网易云音乐及评论数据分析

游贤

成都理工大学信息科学与技术学院

【摘

要】

摘要:为了分析网易云音乐中哪些歌曲是热门歌曲,哪些歌曲的评论

最多,从而了解到人们对于不同音乐类型的喜爱程度,采用成熟的

scrapy

爬虫

框架,从歌手信息开始,抓取每个歌手的所有演唱曲目和对应评论信息,最后

对数据进行清洗处理,得出结论。

【期刊名称】

数码世界

【年

(

),

期】

2018(000)009

【总页数】

1

【关键词】

网页采集

对称加密

1.

思路分析

抓取全站信息一般选择有规律的网页采用广度优先方法,考虑到如果从歌单页

面开始的话,会有很多歌曲重复,因为相同的歌曲可以划分到不同的歌单。因

此最终决定从歌手页面开始,作为种子页面,这样歌曲的重复量会小很多(如

果有多个歌手合唱,那么这首歌会出现在每个歌手的歌曲页面当中,他们的访

问地址是不一样的)

方法一:

http

//music.163.com/discover/artist

页面出发,可以找到所

有的音乐人,

url

http

//music.163.com/discover/artist/cat

id=xxx

1001

1002

1003

2001

2002

2003

6001

6002

6003

7001

7002

7003

4001

4002

4003

。然后我没随便进入其中其一个页面

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/409119
推荐阅读
相关标签
  

闽ICP备14008679号