赞
踩
本文是基于JupyterNotebook做的一个基于Python的音乐推荐系统
目录
1、导入库,定义了一个变量data_home,赋值为'./'
导入系统需要依赖的包pandas,numpy,time,sqlites
- #导入库,定义了一个变量data_home,赋值为'./'
- import pandas as pd
- import numpy as np
- import time
- import sqlite3
-
- data_home='./'
读取原始数据文件train_triplets.txt,1,2步骤的代码如下,通过numpy的read_csv方法读取data_home路径下的train_triplets.txt文件,数据文件中只需要用户,歌曲,播放量三个指标;查看数据大小规模以及各指标格式,发现数据大小为(48373586,3),数据量为千万级别,查看info信息,占用1.1+GB内存,数据量非常庞大,查看大小以及指标代码如下
- triplet_dataset=pd.read_csv(filepath_or_buffer=data_home+'train_triplets.txt',
- sep='\t',header=None,
- names=['user','song','play_count'])
- triplet_dataset.shape
- triplet_dataset.info()
输出:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。