当前位置:   article > 正文

Python pandas库操作 excel_python excel pandas

python excel pandas

Python pandas库操作 excel

特别提示:

pandas 库是基于numpy库 的软件库,因此安装Pandas 之前需要先安装numpy库。默认的pandas不能直接读写excel文件,需要安装读、写库即xlrd、xlwt才可以实现xls后缀的excel文件的读写,要想正常读写xlsx后缀的excel文件,还需要安装openpyxl库 。

数据读取

import pandas as pd
 
file = r'D:/xxx/demo1.xlsx'
df = pd.read_excel(file)
print(df)

# read_excel()方法将Excel文件读取到pandas DataFrame中
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

数据处理

获取列数据
df['column_name']
  • 1
获取多列

多列中,df[] 括号里边是一个列表

df[['columns_name1','columns_name2']]
  • 1
获取行数据

其中,Line_number是行号,column_name是列名,可缺省,列名缺省获取整行

df.loc[Line_number, ['column_name']]
  • 1
整体数据排序
df.sort_values(by='columns_name',ascending = False)
  • 1
数据去重

Panda DataFrame 对象提供了一个数据去重的函数 drop_duplicates(),即从数据帧中删除重复项

df.drop_duplicates()

# keep='first'保留第一次出现
df.drop_duplicates(keep='first')

# subset='列名'去重指定列
df.drop_duplicates(subset='棒号属性')

# inplace=False 删除重复项后返回副本
df.drop_duplicates(inplace=False)

# inplace=True 直接在原数据上删除重复项
df.drop_duplicates(inplace=True)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
保存到excel

to_excel()

import pandas as pd  # 导入模块
 
data = { '姓名': ['赵', '钱', '孙'], '年龄': [21, 22, 13], '性别': ['男', '女', '男']}
df = pd.DataFrame(data)
df.to_excel(r'D:\xxx\demo2.xlsx',index=False)
  • 1
  • 2
  • 3
  • 4
  • 5
缺省值填充 fillna()

单元格为空显示为NaN 为避免替换为空字符串

df = pd.read_excel(file)
df.fillna('', inplace=True)
  • 1
  • 2

或在read_excel()传参keep_default_na=False

df = pd.read_excel(file, keep_default_na=False)
  • 1

作者:陈超

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/614548
推荐阅读
相关标签
  

闽ICP备14008679号