赞
踩
数据类型 | 说明 | 读取方法 |
---|---|---|
CSV. tsV. txt | 用逗号分隔、tab分割的纯文本文件 | pd.read_csv |
excel | xls、xlsx文件 | pd.read_excel |
mysql | 关系型数据库表 | pd.read_sql |
数据资料:https://grouplens.org/datasets/movielens/
读取CSV, 使用默认的标题行、逗号分隔符号
import pandas as pd
fpath = '/Users/python/Desktop/means/ml-25m/ratings.csv'
ratings = pd.read_csv(fpath)
读取txt, 自己指定分隔符,标题行
ratings = pd.read_csv(
fpath,
sep='\t', # 指定分隔符、列名
header=None, # 告诉pd文件没有标题行
names=['userId','movieId','rating','timestamp'] # 自己设置标题行
)
读取excel文件,使用默认的标题行、逗号分隔符
数据有自己的标题行
ratings = pd.read_excel(fpath)
读取MySQL数据库
import pymysql
conn = pymysql.connect(
host='',
user='',
password='',
database='demo',
charset='utf8'
)
ratings = pd.read_sql(sql='select * from sys_user', con=conn)
查看前几行数据
ratings.head()
userId movieId rating timestamp
0 1 296 5.0 1147880044
1 1 306 3.5 1147868817
2 1 307 5.0 1147868828
3 1 665 5.0 1147878820
4 1 899 3.5 1147868510
查看数据的形状,返回(行数、列数)
ratings.shape
(25000095, 4) 数据集:包含 25000095行 4列
查看列明列表
ratings.columns
输出位列的名字
Index(['userId', 'movieId', 'rating', 'timestamp'], dtype='object')
查看索引列
ratings.index
输出开始行数,结束行数
RangeIndex(start=0, stop=25000095, step=1)
查看每一列数据类型
ratings.dtypes
输出: 每一列的数据类型
userId int64
movieId int64
rating float64
timestamp int64
dtype: object
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。