赞
踩
如果个人时间充裕,可以去官网查看文档信息
官网链接:pandas - Python Data Analysis Library
pandas参考文档:pandas documentation — pandas 1.3.3 documentation
创建测试对象:
df为某个读入进来的数据帧。
需知:
axis的参数:0(index) 逐行
1 (column) 逐列
1.导入数据
pd.read_csv(filename):从CSV文件导入数据
pd.read_table(filename):从限定分隔符的文本文件导入数据
pd.read_excel(filename):从Excel文件导入数据
pd.read_sql(query, connection_object):从SQL表/库导入数据
pd.read_json(json_string):从JSON格式的字符串导入数据
pd.read_html(url):解析URL、字符串或者HTML文件,抽取其中的tables表格
pd.read_clipboard():从你的粘贴板获取内容,并传给read_table()
pd.DataFrame(dict):从字典对象导入数据,Key是列名,Value是数据
pd.ExcelFile(Filename): 从Excel中读取数据,sheet_names查看相应sheet, parse方法解析某个sheet
2.导出数据
3.查看、检查数据
4.数据选取
5.数据清理
6.数据处理:Filter、Sort、GroupBy、Map
7.数据合并
8.数据统计
9.时间处理
10.文本处理
10.其他设置类(Nonebook中)
1.pipe
将 f(g(h(df), arg1=a), arg2=b, arg3=c) 形式化为
- (df.pipe(h)
- ... .pipe(g, arg1=a)
- ... .pipe((f, 'arg2'), arg1=a, arg3=c)
- ... )
2.series转为dataframe
- s.to_frame() 将格式为series的s转为dataframe,索引不会发生变化;
- #该方法索引会发生变化
- dict_s = {"col1":s.index,"col2":s.values}
- df=pd.DataFrame(dict_s)
3.计算时间差
比如需要计算df中time1和time2的时间差
- #方法1(直接进行加减)
- df['diff']=(df['time2']-df['time1']).dt.days
- #方法2(apply)
- def time_diff(data,before,after):
- dt1=data[before]
- dt2=data[after]
- days=(dt2-dt1).days
- return days
- df['diff']=df.apply(time_diff,axis=1,args=("time1","time2")) #调用方式1
- #df['diff']=df.apply(time_diff,axis=1,before="time1",after="time2") #调用方式2
- #df['diff']=df.apply(time_diff,axis=1,**{before:"time1",after:"time2"}) #调用方式3
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。