当前位置:   article > 正文

Pandas03_18 - 聚合统计|修改列名 将上一题的列名(包括索引名)修改为中文

18 - 聚合统计|修改列名 将上一题的列名(包括索引名)修改为中文

目录

数据修改

修改列名

修改行索引

修改索引名(重置索引)rename_axis

修改值

修改类型

替换值

数据增加

新增列(固定值)

新增列(计算值)

新增列(比较值)

新增列(判断值)

增加多列

新增列(引用变量)

新增一行(末尾追加)

新增行(指定位置)

数据删除

删除指定行

删除条件行

删除列

删除列(按列号)

数据筛选

筛选列

通过列号

通过列名

条件(列号)

条件(列名包含指定值)

组合(行号+列名)

筛选行

通过行号

通过行号(多行)

固定间隔

判断语句

条件(指定行号)

筛选(指定值)

逆向筛选

多条件

条件求和(不适用groupby)

条件计数

组合筛选

筛选某行某列

筛选多行多列

组合(行号+列号)返回值

组合(行号+列号)返回值

条件返回值

query计算式条件查询

query(引用变量)

select_dtypes筛选数据类型

数据分组

分组取消索引

排序

频率value_counts/size

计数count

分组查看

查看各组信息groups

 查看指定条件信息get_group

分组规则

分组筛选统计

分组筛选计算包含总数

 通过字符长度分组

 通过字典进行分组

通过多列

分组转换transform

分组聚合统计agg

分组过滤filter

聚合统计

计算指标

通过agg修改列名

组合计算

多层统计

自定义函数

数据统计

均值、中位数、众数

agg统计部分信息

describe 统计完整信息

corr 相关系数统计信息

diff 计算行之间的差异

pct_change 计算差值变化率


数据修改

修改列名

将原 df 列名 Unnamed: 2Unnamed: 3Unnamed: 4 修改为 金牌数银牌数铜牌数

  1. import pandas as pd
  2. df = pd.read_csv('东京奥运会奖牌数据.csv')
  3. df.rename(columns={'Unnamed: 2':"金牌数",
  4. "Unnamed: 3":"银牌数",
  5. "Unnamed: 4":"铜牌数"},inplace=True)

修改行索引

将第一列(排名)设置为索引

df.set_index("排名",inplace=True)

修改索引名(重置索引)rename_axis

修改索引名为 金牌排名

df.rename_axis("金牌排名",inplace=True)

查询级别数

df.index.nlevels  # 标题

修改值

将 ROC(第一列第五行)修改为 俄奥委会

df.iloc[4,0] = '俄奥委会'

修改类型

将【金牌数】列类型修改为int

  1. # 打开时定义数据类型
  2. df = pd.read_csv('东京奥运会奖牌数据.csv', dtype = {'column_name' : str})
  3. # 自定义的DataFrame
  4. df = pd.DataFrame(a, dtype='float') #示例1
  5. df = pd.DataFrame(data=d, dtype=np.int8) #示例2
  6. # 单列修改为数值
  7. df['金牌数'] = pd.to_numeric(df['金牌数'])
  8. # astype强制转换(两列)
  9. df[['金牌数','银牌数']] = df[['金牌数','银牌数']].astype(int)

替换值

  1. # 单值替换:将金牌数列的数字 0 替换为 无
  2. df['金牌数'].replace(0,'无',inplace=True)
  3. # 多值替换:将 无 替换为 缺失值 ;将 0 替换为 None
  4. import numpy as np
  5. df.replace(['无',0],[np.nan,'None'],inplace=True)

数据增加

新增列(固定值)

新增一列 【比赛地点】,值为 东京

df['比赛地点'] = '东京'

新增列(计算值)

新增一列 【金银牌总数】列,值为该国家金银牌总数

  1. df = df.replace('None',0)
  2. df['金银牌总数']=df['金牌数'] + df['银牌数']

新增列(比较值)

新增一列 【最多奖牌数量】 列,值为该【金银牌】三列数量中最多的一个奖牌数量

例如中国金牌38,银牌32,铜牌18,最大值为38

  1. df['最多奖牌数量'] = df.bfill(1)[["金牌数", "银牌数",'铜牌数']].max(1)
  2. df['最多奖牌数量'] = df[["金牌数", "银牌数",'铜牌数']].max(1)

新增列(判断值)

新增一列 【金牌大于30】

如果一个国家的金牌数大于 30 则值为 是,反之为 否

  1. import numpy as np
  2. df['金牌大于30'] = np.where(df['金牌数']>30,'是','否')

增加多列

新增两列,分别是

  • 金铜牌总数(金牌数+铜牌数)

  • 银铜牌总数(银牌数+铜牌数)

df = df.assign(金铜牌总数=df.金牌数 + df.铜牌数,银铜牌总数=df.银牌数+df.铜牌数) 

新增列(引用变量)

新增一列金牌占比,为各国金牌数除以总金牌数(变量:gold_sum)

eval()方法:可以借助列名称进行运算,不占用内存,可将字符串形式的字典列表等转换成字典列表

  1. gold_sum = df['金牌数'].sum()
  2. df.eval(f'金牌占比 = 金牌数 / {gold_sum}',inplace=True)

 Pandas学习笔记十——高性能的eval和query方法_盐味橙汁的博客-CSDN博客

append 新增一行(末尾追加)

在 df 末尾追加一行,内容为 0,1,2,3… 一直到 df 的列长度

  1. df1 = pd.DataFrame([[i for i in range(len(df.columns))]], columns=df.columns)
  2. df_new = df.append(df1)

新增行(指定位置)

在第 2 行新增一行数据,即美国和中国之间。

  1. df1 = df.iloc[:1, :]
  2. df2 = df.iloc[1:, :] # 拼接上第二行后的数据
  3. df3 = pd.DataFrame([[i for i in range(len(df.columns))]], columns=df.columns)
  4. df_new = pd.concat([df1, df3, df2], ignore_index=True) # 时忽略原本的索引,从0开始重建索引。

drop数据删除

删除指定行

删除 df 第一行

df.drop(1)

删除条件行

df.drop(df[df.金牌数<20].index)

删除列

删除刚刚新增的 【比赛地点】 列

df.drop(columns=['比赛地点'],inplace=True)

删除列(按列号)

删除 df 的 7、8、9、10 列

df.drop(df.columns[[7,8,9,10]], axis=1,inplace=True)

数据筛选

iloc 筛选列

通过列号

提取第 1、2、3、4 列

df.iloc[:,[0,1,2,3]]

通过列名

提取 金牌数、银牌数、铜牌数 三列

df[['金牌数','银牌数','铜牌数']]

条件(列号)

筛选全部 奇数列

df.iloc[:,[i%2==1 for i in range(len(df.columns))]]

条件(列名包含指定值)

提取全部列名中包含“数”的列

  1. df.loc[:,df.columns.str.contains("牌")]
  2. df.loc[:,df.columns.str.endswith("数")] # 结尾包含“数”
  3. df.loc[:,df.columns.str.startswith("国")] # 开头包含“数”

组合(行号+列名)

提取倒数后三列的10-20行

df.loc[10:20, '总分':] 

loc 筛选行

通过行号

提取第10行

df.loc[9:9]

通过行号(多行)

提取第 10 行之后的全部行

df.loc[9:]

固定间隔

提取 0-50 行,间隔为 3

df[:50:3]

判断语句

  1. # 提取 【金牌数】 大于 30 的行
  2. df[df['金牌数'] > 30]
  3. # 提取 【金牌数】 等于 10 的行
  4. df[df['金牌数'] == 30]
  5. # 提取 【金牌数】 不等于 10 的行
  6. df[df['金牌数'] != 39]
  7. df.loc[~(df['金牌数'] == 39)]

条件(指定行号)

提取全部 奇数行

  1. df[[i%2==1 for i in range(len(df.index))]]
  2. df.loc[[i%2==1 for i in range(len(df.index))]]

isin 筛选(指定值)

提取 中国、美国、英国、日本、巴西五行数据

df[~df.'国家奥委会'.isin(['中国','美国'])]

~逆向筛选

提取除了中国和美国的其他行数据

df[~df.'国家奥委会'.isin(['中国','美国'])]

pandas.isin 用来清洗数据,过滤某些行,或者说选出你想要的某些行。

多条件

在上一题的条件下,新增一个条件:金牌数小于30

df.loc[(df['金牌数']<30)&df['国家奥委会'].isin(['中国','美国','英国','日本','巴西'])]

条件求和(不适用groupby)

当【是否外市户籍】列为【是】时求和【金额】列

  1. # 三种方法
  2. print(df[df['是否外市户籍']=='是']['金额'].sum())
  3. print(sum(df[df['是否外市户籍']=='是']['金额']))
  4. import numpy as np
  5. print(np.where(df['是否外市户籍']=='是', df['金额'],0).sum())

条件计数

求【是否外市户籍】列为【是】的次数

print(df[df['是否外市户籍']=='是']['是否外市户籍'].count().tolist()

组合筛选

筛选某行某列

提取第0行第2列

  1. df.iloc[0:1,1:2]
  2. df.iloc[0:1,[1]]

筛选多行多列

提取 第0-2行 第0-2列

  1. df.iloc[0:2,0:2] # : 连续范围
  2. df.iloc[0:2,[0,1]] # [] 可指定范围

组合(行号+列号)返回值

提取第4行,第4列的值

df.iloc[3,3]  # 返回21

at 组合(行号+列号)返回值

提取第4行,第4列的值

df.at[4,'金牌数']  # 返回20

条件返回值

提取 【国家奥委会】 为 【中国】 的金牌数

  1. df.loc[df['国家奥委会']=='中国'].loc[1].at['金牌数']
  2. # df['国家奥委会']=='中国'] 返回布尔值
  3. # loc[1] 返回第一行True值
  4. # loc[1].at['金牌数'] 获得行列

query 计算式条件查询

df.query(expr, inplace=False, **kwargs)

参数:
-expr:查询条件,表达式
-inplace :是否替换原数据,默认为false

query方法可用方法是基于DataFrame列的计算代数式,对于按照某列的规则进行过滤的操作。

字符串仅在列名没有任何空格时才有效。所以在应用该方法之前,列名中的空格被替换为“_”

df.query('金牌数+银牌数>15')

query(引用变量)

使用 query 提取 金牌数 大于 金牌均值的国家

  1. gold_mean = df['金牌数'].mean()
  2. df.query(f"金牌数>{gold_mean}")

select_dtypes筛选数据类型

select_dtypes 可以筛选数据类型的列

 筛选数值类型的列

df4.select_dtypes(include=['int64'])

 

 多类型筛选(数据类型为和浮点数)

df4.select_dtypes(include=['int64','float64'])

 逆向筛选

df4.select_dtypes(exclude=['int64','float64'])

groupby 数据分组

DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=NoDefault.no_default, observed=False, dropna=True)

根据一定的规则拆分为多个组合,并应用不同的函数进行计算

  1. df[['地区','薪资']].groupby(by='地区').mean()
  2. # 取【地区】和【薪资】两列,按地区分组邱平均

as_index 分组取消索引

df.groupby("district",as_index=False)['salary'].mean()

sort_values 排序

计算并提取平均薪资最高的地区

两列分组,先地区求平均值,排序

df[["district","salary"]].groupby(by='district').mean().sort_values('salary',ascending=False).head(1)

频率value_counts/size

计算不同行政区(district),不同规模公司(companySize)出现的次数

  1. pd.DataFrame(df.groupby('district')['companySize'].value_counts())
  2. pd.DataFrame(df.groupby(["district","companySize"]).size())
  3. # 效果一样

计数count

统计每个【区】出现的【公司】数量

等同于筛选district 计数 companySize

df.groupby("district")['companySize'].count()

分组查看

查看各组信息groups

 将数据按照 districtsalary 进行分组,并查看各分组内容

相当于筛选districtsalary

df.groupby(['district','salary']).groups

 查看指定条件信息get_group

将数据按照 districtsalary 进行分组,并查看西湖区薪资为 30000 的工作

等同于筛选【district=西湖区】【salary=30000】的值

df.groupby(["district",'salary']).get_group(("西湖区",30000))  # 接收元组

分组规则

分组筛选统计

根据【createTime 】列,计算每天不同 【district】 新增的岗位数量

等同于筛选两列计数

  1. # createTime列提取每天,根据【createTime】、【district】日期和行政区分组计算个数
  2. # 1
  3. pd.DataFrame(df.groupby([df.createTime.apply(lambda x :x.day)])["district"].value_counts()).rename_axis(['发布日','行政区'])
  4. # 2
  5. pd.DataFrame(df.groupby([df['createTime'].apply(lambda x :x.day)])["district"].value_counts()).rename_axis(['发布日','行政区'])

分组筛选计算包含总数

计算各行政区district的企业领域industryField包含【电商】的总数

两列分组,industryField

  1. # 统计每行中(apply)包含(contains) “电商” 字符 的数量
  2. pd.DataFrame(df.groupby(['district'])["industryField"].apply(lambda x:x.str.contains("电商").sum()))
  3. # 分组查看包含"电商"的行
  4. df[["district","industryField"]].loc[df['industryField'].str.contains("电商")]
  5. # 单列包含"电商"的次数
  6. df[["district"]].loc[df['industryField'].str.contains("电商")].count()

 通过字符长度分组

  通过 positionName 的长度进行分组,并计算不同长度岗位名称的薪资均值

pd.DataFrame(df.set_index("positionName").groupby(len)['salary'].mean())

 通过字典进行分组

将 data1和 data3分为组1,data2和 data4分为组2,同组求和

df.groupby({'data1':1,'data2':2,'data3':1,'data4':2},axis=1).sum()

将 score 和 matchScore 的和记为总分,与 salary 列同时进行分组,并查看结果

  1. # axis按列求和
  2. df.groupby({'salary':'薪资','score':'总分','matchScore':'总分'}, axis=1).sum()

通过多列

计算不同【工作年限】(workYear)和 【学历】(education)之间的【薪资】均值

pd.DataFrame(df['salary'].groupby([df['workYear'],df['education']]).mean())

分组转换transform

在原数据框 df 新增一列,数值为该区的平均薪资水平

df['该区平均工资'] = df[['district','salary']].groupby('district').transform('mean')

分组聚合统计agg

df.groupby("district")['salary'].agg("mean")

分组过滤filter

提取平均【工资】小于30000的行政区的全部数据

df.groupby('district').filter(lambda x:x['salary'].mean()<30000)

数据(列表)展开explode

explode :如果数据中包含列表,使用explode进行展开,将list拆分多行

 展开A列

df5.explode('A')

展开多列

  1. # pandas版本 >= 1.3 才可以完成
  2. df5.explode(list('AC'))

 

聚合统计

计算指标

分组计算不同行政区,薪水的最小值,最大值和平均值

  1. # 多个用列表 [ ]
  2. import numpy as np
  3. df.groupby('district')['salary'].agg([min,max,np.mean])

通过agg修改列名

修改列名和索引名

df.groupby('district').agg(最低工资=('salary','min'),最高工资=('salary','max'),平均工资=('salary','mean')).rename_axis(['行政区'])

组合计算

对不同岗位(positionName)进行分组,并统计其薪水(salary)中位数和得分(score)均值

  1. # 用花括号 { }
  2. df.groupby('positionName').agg({'salary':np.median,'score':np.mean})

多层统计

对不同【行政区】进行分组,并统计【薪水】的均值、中位数、方差,以及【得分】的均值

  1. df.groupby('district').agg(
  2. {'salary':[np.mean, np.median, np.std],'score':np.mean})

自定义函数

聚合计算时新增一列计算最大值与平均值的差值

  1. def myfunc(x):
  2. return x.max()-x.mean()
  3. df.groupby('district').agg(最低工资=('salary', 'min'), 最高工资=(
  4. 'salary', 'max'), 平均工资=('salary', 'mean'), 最大值与均值差值=('salary', myfunc)).rename_axis(["行政区"])

数据统计

均值、中位数、众数

  1. df.总分.mean() #均值
  2. df.总分.median() # 中位数
  3. df.总分.mode() # 众数:是一组数据中出现次数最多的数值

agg统计部分信息

计算 总分、高端人才得分、办学层次得分的最大最小值、中位数、均值

  1. df.agg({
  2. "总分": ["min", "max", "median", "mean"],
  3. "高端人才得分": ["min", "max", "median", "mean"],
  4. "办学层次得分":["min", "max", "median", "mean"]})

describe 统计完整信息

查看数值型数据的统计信息(均值、分位数等),并保留两位小数

df.describe().round(2).T

corr 相关系数统计信息

也就是相关系数矩阵,也就是每两列之间的相关性系数

df.corr() 

diff 计算行之间的差异

格式:DataFrame.diff(periods= 1,axis = 0)

参数释义
periods控制要移动的小数点,默认为1

 向上计算行之间的差异,第一行是NAN,因为之前没有要计算的值。从第二行开始,405-400=5,400-200=200

 periods=1向下计算行之间的差异

pct_change 计算差值变化率

pct_change是计算差值变化率,相当于第二个减去第一个,再除以第一个,就是第二的数据

格式:DataFrame.pct_change(periods=1, fill_method=‘pad’, limit=None, freq=None, **kwargs)

  1. df=pd.DataFrame({"one":[1,3,5,7,9],"two":[2,4,6,8,10]})
  2. df.pct_change()

直接填充第一个为0, 保留两位小数

  1. df.pct_change().fillna(0).applymap(lambda x :format(x,'.2f'))
  2. # 百分比保留两位数
  3. df.pct_change().applymap(lambda x: format(x, '.2%'))

cunsum累加计算

cumsum 可以对数据按照指定方式进行累加,计算公式如下

 按行/列累加

  1. df7[list('ABCD')].cumsum() #按列累加
  2. df7[list('ABCD')].cumsum(axis = 1) #按行累加

 分组累加

将 df7 按照 item 按不同组对第 A 列进行累加

  1. df7 = df7.sort_values(['item']).reset_index(drop=True)
  2. df7['cumsum'] = df7.groupby('item')['A'].cumsum(axis=0)

 

nunique 统计指定轴上不唯一的元素数量

 按列统计(B列1为重复值,剔除重复保留一个)

df6.nunique()

 按行统计

compare 比对两表数据(比较两个数据框之间的差异)

compare 用于比较两个数据框之间的差异

输出 df9 和 df10 的差异

保留数据框keep_shape

 保留值 keep_equal

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/AllinToyou/article/detail/642886
推荐阅读
相关标签
  

闽ICP备14008679号