当前位置:   article > 正文

【python实现网络爬虫(14)】python爬取酷狗中多类型音乐步骤详解(附全部源代码)_python爬取酷狗付费音乐

python爬取酷狗付费音乐

目标网址:酷狗音乐-赤伶,页面如下
在这里插入图片描述
爬虫逻辑:

【找到要获取特定音乐的url】>>>【找到该资源链接的url】>>>【封装获取音乐的函数】>>>【封装下载音乐的函数】

注意:
这两个获取url的顺序是和之前获取url的过程是反过来的,以往是获取外部页面的url后进入内部页面的url,然后再获取该页面的信息。

但是下载音乐(定向爬取数据),首先是要确定获取音乐的url(通过浏览器输入后点击可以直接播放–内部页面数据),然后再找其上一层的url(资源链接的url–外部页面数据)

1. 网页结构分析

1) 找到所要获取音乐的url

在目标页面鼠标右键选择’检查’,右上方菜单栏点击'Network',后进行网页刷新,接着查找右下区中php相关的文件,随后在'Preview'选项下点击'data',查找到'play_url',复制后面的内容使用浏览器打开后,就可以直接播放。图解如下
在这里插入图片描述
2) 找到资源链接的ur

在上述的界面点击'Preview'旁边的'Headers'菜单栏,这时候发现'General'下的第一个信息就是资源链接的url,如下
在这里插入图片描述
该页面下方还有一个信息,如下,可以对比url里面的内容和下面的信息
在这里插入图片描述
3) 简化资源链接的url

通过上面的对比,可以发现,url里面的内容除了主站域名外,其他的几乎都是有可确定的字段拼接而成的,可以尝试将字段进行删减,比如先去掉最后的&_=1584364814789数据,看看网页是否返回数据,其次再往上一个字段的数据进行尝试,直到无法返回数据为止。通过测试发现,当把hash对应的数据删除后,网站不返回请求数据了。因此简化的请求资源链接的url就如下

https://wwwapi.kugou.com/yy/index.php?r=play/getdata&callback=jQuery19103336613592709623_1584364814787&hash=07606F202459F44A462013202A2839BD
  • 1

–> 输出结果为:(至此两个url就获取完毕了)
在这里插入图片描述

2. 封装第一个函数

首先导入相关的库和设定相关的参数

import requests
import time
import math
import re
import os
import json
from bs4 import  BeautifulSoup
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

1) url参数的设置

要爬取资源的url基础元素就是主站域名加上查找数据返回的文件信息(index.php?),其中data里面的数据(url基础元素后面的搜索参数),就是上一步测试简化url所对应的数据,因为测试到删除hash字段数据对应的网址不再返回页面数据信息,所以需要保留,那么hash之前的字段数据自然也需要保留了。

url = 'https://wwwapi.kugou.com/yy/index.php?'

data = {
	'r': 'play/getdata',
	'callback': 'jQuery19108922952455208721_1584362904730',
	'hash': '07606F202459F44A462013202A2839BD'
}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

其中关于’callback’参数里面的1584362904730数据,是一个时间计时,可以对应time库里面的.time方法。由此可以自己创造一个时间计时(代表着访问时间)
在这里插入图片描述

2) 请求头设定

User-AgentReferer数据都可以在当前的页面进行找到,但是没有cookie信息
在这里插入图片描述
cookie信息的获取,可以随便的点击一个有关post请求信息的页面,如下
在这里插入图片描述
最后构建的请求头如下:

dic_headers = {
	'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36',
	'cookie': 'kg_mid=e9f7036c9e3f7b3b8e5f31d8c437a650; kg_dfid=1aF1fa3fRahL0i1GZz3RYp8h; _WCMID=1648cadf5e0f206e4bca9435; kg_dfid_collect=d41d8cd98f00b204e9800998ecf8427e; Hm_lvt_aedee6983d4cfc62f509129360d6bb3d=1584362882; Hm_lpvt_aedee6983d4cfc62f509129360d6bb3d=1584362905; kg_mid_temp=e9f7036c9e3f7b3b8e5f31d8c437a650',
	'Referer': 'https://www.kugou.com/song/'
}
  • 1
  • 2
  • 3
  • 4
  • 5

3) 函数封装

① 初步封装获取返回的文本数据

def get_musci():
	url = 'https://wwwapi.kugou.com/yy/index.php?'

	data = {
		'r': 'play/getdata',
		'callback': 'jQuery19108922952455208721_{}'.format(math.floor(time.time()*1000)),
		'hash': '07606F202459F44A462013202A2839BD'
	}

	dic_headers = {
		'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36',
		'cookie': 'kg_mid=e9f7036c9e3f7b3b8e5f31d8c437a650; kg_dfid=1aF1fa3fRahL0i1GZz3RYp8h; _WCMID=1648cadf5e0f206e4bca9435; kg_dfid_collect=d41d8cd98f00b204e9800998ecf8427e; Hm_lvt_aedee6983d4cfc62f509129360d6bb3d=1584362882; Hm_lpvt_aedee6983d4cfc62f509129360d6bb3d=1584362905; kg_mid_temp=e9f7036c9e3f7b3b8e5f31d8c437a650',
		'Referer': 'https://www.kugou.com/song/'
	}

	html = requests.get(url,params=data, headers = dic_headers)
	print(html.text)

get_musci()
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19

–> 输出结果为:(输出的结果也就是上面简化url测试时候网页返回的数据)

jQuery19108922952455208721_1584362904730({"status":1,"err_code":0,"data":
{"hash":"07606F202459F44A462013202A2839BD","timelength":266045,"filesize":4263645,
"audio_name":"HITA - \u8d64\u4f36","have_album":1,
"album_name":"\u8d64\u4f36","album_id":"14939533",
"img":"http:\/\/imge.kugou.com\/stdmusic\/20190130\/20190130172751733550.jpg",
"have_mv":1,"video_id":"1449487","author_name":"HITA",
"song_name":"\u8d64\u4f36",
......
"play_backup_url":"https:\/\/webfs.cloud.kugou.com\/20200316223\/dc5586939d67e36282f1fdf34d313860\/G093\/M04\/1E\/15\/_YYBAFu5_rmAfzpPAEEO3Q5ZQDY336.mp3"
}
});
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

② 文本数据清洗转化为可识别类型数据

输出结果发现和之前获取腾讯新闻返回的结果有点类似,需要将数据转化为可识别的类型,然后进行程序导入,这里如果还按照数数的方法就有点效率低下了,使用.index的方法进行

start = html.text.index('{')
end = html.text.index('})')+1
json_data = json.loads(html.text[start:end])
print(json_data)
  • 1
  • 2
  • 3
  • 4

–> 输出结果为:

{'status': 1, 'err_code': 0, 'data': 
{'hash': '07606F202459F44A462013202A2839BD', 'timelength': 266045, 
'filesize': 4263645, 'audio_name': 'HITA - 赤伶', 'have_album': 1, 
'album_name': '赤伶', 'album_id': '14939533', 
'img': 'http://imge.kugou.com/stdmusic/20190130/20190130172751733550.jpg',
'have_mv': 1, 'video_id': '1449487', 'author_name': 'HITA',
'song_name': '赤伶', 'lyrics': '\ufeff[id:$00000000]\r\n[ar:HITA]\r\n[ti:赤伶]\r\n[by:]\r\n[hash:07606f202459f44a462013202a2839bd]\r\n[al:]\r\n[sign:]\r\n[qq:]\r\n[total:266045]\r\n[offset:0]\r\n[00:00.78]HITA - 赤伶\r\n[00:01.74]作词:清彦\r\n[00:02.85]作曲:李建衡\r\n[00:04.33]编曲:何天程\r\n[00:05.70]昆曲念白:朱虹\r\n[00:06.91]混音:何天程\r\n[00:08.13]二胡:钟意\r\n[00:09.04]笛子:笛呆子囚牛\r\n[00:32.56]戏一折水袖起落\r\n[00:38.31]唱悲欢唱离合无关我\r\n[00:45.34]扇开合锣鼓响又默\r\n[00:51.26]戏中情戏外人凭谁说\r\n[00:57.68]惯将喜怒哀乐都融入粉墨\r\n[01:02.89]陈词唱穿又如何\r\n[01:06.28]白骨青灰皆我\r\n[01:10.52]乱世浮萍忍看烽火燃山河\r\n[01:15.88]位卑未敢忘忧国\r\n[01:18.96]哪怕无人知我\r\n[01:23.06]台下人走过不见旧颜色\r\n[01:29.43]台上人唱着心碎离别歌\r\n[01:36.06]情字难落墨\r\n[01:38.79]她唱须以血来和\r\n[01:42.83]戏幕起戏幕落谁是客\r\n[01:53.86]啊\r\n[01:54.82]浓情悔认真\r\n[01:59.85]回头皆幻景\r\n[02:06.73]对面是何人\r\n[02:19.54]戏一折水袖起落\r\n[02:25.04]唱悲欢唱离合无关我\r\n[02:32.38]扇开合锣鼓响又默\r\n[02:37.99]戏中情戏外人凭谁说\r\n[02:44.61]惯将喜怒哀乐都藏入粉墨\r\n[02:49.87]陈词唱穿又如何\r\n[02:53.20]白骨青灰皆我\r\n[02:57.55]乱世浮萍忍看烽火燃山河\r\n[03:02.66]位卑未敢忘忧国\r\n[03:06.00]哪怕无人知我\r\n[03:10.10]台下人走过不见旧颜色\r\n[03:16.52]台上人唱着心碎离别歌\r\n[03:23.04]情字难落墨\r\n[03:25.82]她唱须以血来和\r\n[03:29.86]戏幕起戏幕落终是客\r\n[03:39.16]你方唱罢我登场\r\n[03:45.89]莫嘲风月戏莫笑人荒唐\r\n[03:52.31]也曾问青黄\r\n[03:55.09]也曾铿锵唱兴亡\r\n[03:58.99]道无情道有情怎思量\r\n[04:08.76]道无情道有情费思量\r\n',
'author_id': '84981', 'privilege': 8, 'privilege2': '1000', 
'play_url': 'https://webfs.yun.kugou.com/202003162300/2842f18911bdac380c74dcc270a7ab21/G093/M04/1E/15/_YYBAFu5_rmAfzpPAEEO3Q5ZQDY336.mp3', 
'authors': [{'author_id': '84981', 'is_publish': '1', 'sizable_avatar': 'http://singerimg.kugou.com/uploadpic/softhead/{size}/20191128/20191128094941269.jpg', 'author_name': 'HITA', 'avatar': 'http://singerimg.kugou.com/uploadpic/softhead/400/20191128/20191128094941269.jpg'}], 
'is_free_part': 0, 'bitrate': 128, 'audio_id': '44024421',
'play_backup_url': 'https://webfs.cloud.kugou.com/202003162300/c30ab2260877af66297571054b9d03b2/G093/M04/1E/15/_YYBAFu5_rmAfzpPAEEO3Q5ZQDY336.mp3'}}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12

③ 获取音乐名称和具体的音乐url

song_name = json_data['data']['song_name']
song_author = json_data['data']['author_name']
song_url = json_data['data']['play_url']
name = song_name+ '-'+ song_author

print(song_url)
print(name)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

–> 输出结果为:(下面的网址对应:酷狗音乐-赤伶

https://webfs.yun.kugou.com/202003162306/138ff21bf052e04ec4a7ef07ebd2c514/G093/M04/1E/15/_YYBAFu5_rmAfzpPAEEO3Q5ZQDY336.mp3
赤伶-HITA
  • 1
  • 2
3. 封装第二个函数

获得音乐资源后,就可以直接将音乐下载到本地了

def download_music(url,name):
	print('正在下载音乐......')
	with open(f'{name}.mp3','wb') as f:
		f.write(requests.get(url).content)
	print('音乐下载完毕')
  • 1
  • 2
  • 3
  • 4
  • 5

最后在第一个函数中调用该函数即可输出到本地

download_music(song_url,name)
  • 1

–> 输出结果为:
在这里插入图片描述

4. 拓展

已经可以下载所选定的音乐了,那么可不可以创建一个音乐的下载器呢?那么会员就不用开了,直接白嫖了呢,再尝试一下其他的歌曲,比如我想白嫖周杰伦的晴天,还是相同的步骤

1) 单个音乐文件下载

只需要对比一下获取资源链接的url即可

#晴天资源的url
https://wwwapi.kugou.com/yy/index.php?r=play/getdata&callback=jQuery19105578760695965006_1584372571110&hash=3BD5C05B9F8D082BA3C9425A1A712394

#赤伶资源的url
https://wwwapi.kugou.com/yy/index.php?r=play/getdata&callback=jQuery19103336613592709623_1584364814787&hash=07606F202459F44A462013202A2839BD
  • 1
  • 2
  • 3
  • 4
  • 5

尝试只替换hash参数数据,其余的不变

data = {
	'r': 'play/getdata',
	'callback': 'jQuery19108922952455208721_{}'.format(math.floor(time.time()*1000)),
	'hash': '3BD5C05B9F8D082BA3C9425A1A712394'
}
  • 1
  • 2
  • 3
  • 4
  • 5

–> 输出结果为:(事实上证明还是要开会员的,获取的音乐资源只有一分钟的时长,但是对于一些网易云音乐没有版权的,但不是vip的音乐是可以批量下载的(赤伶就属于这一种))
在这里插入图片描述

2) 音乐文件批量下载

输出结果显示,只需要通过修改'hash'字段就可以实现音乐数据的下载,那么批量数据下载的前提就是找到每首歌对应的'hash'

第一种:直接在音乐名称的标签上可获得'hash'数据

比如在酷狗首页里面的任意一个歌单
在这里插入图片描述
这里选择每周推荐的歌单进行示例,首先确认歌曲标签中的'hash'数据(也就是data=后面的内容)
在这里插入图片描述
将上面红框的内容带到上面的程序中去,测试一下是否可以正常下载音乐文件,运行结果发现会报错,然后进入歌曲页面找到真正的’hash’数据,如下,对比发现,上面的标签数据最后面多了一些内容
在这里插入图片描述
尝试着把最后的多余部分去掉后再次运行,结果可以正常下载音乐
在这里插入图片描述
那么就可以封装第三个函数批量的获取某个推荐歌单的全部音乐了

def get_hash_data():
	url = 'https://www.kugou.com/yy/special/single/547134.html'
	html = requests.get(url)
	soup = BeautifulSoup(html.text,'lxml')
	hash_datas_a = soup.select('#songs li a')
	for hash_data_a in hash_datas_a[:5]:
		hash_data = hash_data_a['data'].split('|')[0]
		get_musci(hash_data)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

–> 输出结果为:(这里只切片了五首歌曲,进行演示)
在这里插入图片描述
第二种:在音乐名称的标签上不可获得'hash'数据

比如榜单中的音乐数据,这里以网络红歌榜为例,比如定位’桥边姑娘’这个音乐的标签信息,如下(可以发现标签信息上并没有’hash’数据)
在这里插入图片描述
这时候可以在标签信息窗口调用搜索窗口(ctrl + f),手动输入hash进行匹配,可以发现,所有音乐的’hash’都被放置在一起了,如下(刚好和右边的音乐数据量对应上)
在这里插入图片描述
封装第四个函数,这里就需要使用到正则表达式了

def get_hash_data1():
	url = 'https://www.kugou.com/yy/rank/home/1-23784.html?from=rank'
	html = requests.get(url)
	# print(html.text)
	hash_data_lst = re.findall(r'{"Hash":"(.*?)"', html.text)
	print(hash_data_lst)

get_hash_data1()
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

–> 输出结果为:(共22个'hash'数据)

['628EA5873E5EECC9563C7CA0B674A077', 'BB01737DD38BEABE31496E1088010AD2', 
'FB5FCE4EB17ABE6B7344035B25A0BBB7', '3337C18539D5BB00D8027D653D536A35',
'EABDDF85153719DA1991B20ABE5FB80D', 'D5F247E40952E83473C8CA9647C524E2',
'7927879CA5664B8E7B90E3688EE2AA29', '69CE89784C4B69D2D57888F4D1F4F2F2',
'ACCC0AD7997B3F48BD61C05AD5BC94FD', 'FAEDD01C425118BA343648B5AF35861F', 
'ED8DBD8AE97359912A8AEC71C61758D2', '7707BE115CF9131E3AEF782D294155D4',
'42FD96EE5BC779A686540E029813219A', 'F36AB94DA7FAF948248BE675E43C3EF5',
'0BCD762E2FA1984818B3CCCDB16A5424', 'B5C7BB5A00C84783C10259E21B7831B3',
'DF2E5B8C4F4C9CE4539875BFFF818163', 'F831122AA78D17AF1C67050CD6235917',
'B66DA0F3955DF61FF7899A9F62971509', '004B4AF5908B4322B9E80C6265AB3BBA', 
'04E4C1D0AFB9DEEF3B0834AA1F71B654', 'D8E40DA7F51C0486224E008A3B6ABD45']
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

接着就可以直接进行遍历输出,并进行音乐的下载,这里还是以下载5首歌曲进行演示

for hash_data in hash_data_lst[:5]:
		get_musci(hash_data)
  • 1
  • 2

–> 输出结果为:(至此工作全部完结)
在这里插入图片描述

5. 全部代码
import requests
import time
import math
import re
import os
import json
from bs4 import  BeautifulSoup

def get_musci(hash_data):
	url = 'https://wwwapi.kugou.com/yy/index.php?'

	data = {
		'r': 'play/getdata',
		'callback': 'jQuery19108922952455208721_{}'.format(math.floor(time.time()*1000)),
		'hash': hash_data
	}

	dic_headers = {
		'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36',
		'cookie': 'kg_mid=e9f7036c9e3f7b3b8e5f31d8c437a650; kg_dfid=1aF1fa3fRahL0i1GZz3RYp8h; _WCMID=1648cadf5e0f206e4bca9435; kg_dfid_collect=d41d8cd98f00b204e9800998ecf8427e; Hm_lvt_aedee6983d4cfc62f509129360d6bb3d=1584362882; Hm_lpvt_aedee6983d4cfc62f509129360d6bb3d=1584362905; kg_mid_temp=e9f7036c9e3f7b3b8e5f31d8c437a650',
		'Referer': 'https://www.kugou.com/song/'
	}

	html = requests.get(url,params=data, headers = dic_headers)
	#print(html.text)

	start = html.text.index('{')
	end = html.text.index('})')+1
	json_data = json.loads(html.text[start:end])
	
	song_name = json_data['data']['song_name']
	song_author = json_data['data']['author_name']
	song_url = json_data['data']['play_url']
	name = song_name+ '-'+ song_author

	print(song_url)
	print(name)
	download_music(song_url,name)


def download_music(url,name):
	print('正在下载音乐......')
	with open(f'{name}.mp3','wb') as f:
		f.write(requests.get(url).content)
	print('音乐下载完毕')


def get_hash_data():
	url = 'https://www.kugou.com/yy/special/single/547134.html'
	html = requests.get(url)
	soup = BeautifulSoup(html.text,'lxml')
	hash_datas_a = soup.select('#songs li a')
	for hash_data_a in hash_datas_a[:5]:
		hash_data = hash_data_a['data'].split('|')[0]
		get_musci(hash_data)

#get_hash_data()

def get_hash_data1():
	url = 'https://www.kugou.com/yy/rank/home/1-23784.html?from=rank'
	html = requests.get(url)
	# print(html.text)
	hash_data_lst = re.findall(r'{"Hash":"(.*?)"', html.text)
	#print(hash_data_lst)
	for hash_data in hash_data_lst[:5]:
		get_musci(hash_data)

get_hash_data1()
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57
  • 58
  • 59
  • 60
  • 61
  • 62
  • 63
  • 64
  • 65
  • 66
  • 67
  • 68
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/609008
推荐阅读
相关标签
  

闽ICP备14008679号