繁依Fanyi0

这个屌丝很懒，什么也没留下！

热门标签

python3爬取网易云歌单数据清洗_网页抓取网易云音乐及评论数据分析

作者：繁依Fanyi0 | 2024-04-12 04:19:28

踩

爬虫音乐数据清洗代码

网页抓取网易云音乐及评论数据分析

游贤

成都理工大学信息科学与技术学院

【摘

要】

摘要：为了分析网易云音乐中哪些歌曲是热门歌曲，哪些歌曲的评论

最多，从而了解到人们对于不同音乐类型的喜爱程度，采用成熟的

scrapy

爬虫

框架，从歌手信息开始，抓取每个歌手的所有演唱曲目和对应评论信息，最后

对数据进行清洗处理，得出结论。

【期刊名称】

数码世界

【年

(

卷

期】

2018(000)009

【总页数】

【关键词】

网页采集

对称加密

思路分析

抓取全站信息一般选择有规律的网页采用广度优先方法，考虑到如果从歌单页

面开始的话，会有很多歌曲重复，因为相同的歌曲可以划分到不同的歌单。因

此最终决定从歌手页面开始，作为种子页面，这样歌曲的重复量会小很多(如

果有多个歌手合唱，那么这首歌会出现在每个歌手的歌曲页面当中，他们的访

问地址是不一样的)

。

方法一：

从

http

：

//music.163.com/discover/artist

页面出发，可以找到所

有的音乐人，

如

图

所

示

，

每

个

歌

手

分

类

对

应

的

url

为

http

：

//music.163.com/discover/artist/cat

？

id=xxx

它

的

可

取

值

有

1001

，

1002

，

1003

，

2001

，

2002

，

2003

，

6001

，

6002

，

6003

，

7001

，

7002

，

7003

，

4001

，

4002

，

4003

。然后我没随便进入其中其一个页面

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/409119