当前位置: article > 正文

Pandas入门篇（二）-------Dataframe篇4（进阶）（Dataframe的进阶用法）（机器学习前置技术栈）

作者：从前慢现在也慢 | 2024-05-02 22:07:34

踩

概述

经过前几篇的基础语法的学习，您已经掌握了Dataframe的基础操作。在掌握基础操作后，进一步探索其进阶用法能够让你更高效地处理和分析数据。
DataFrame的进阶用法涵盖了数据处理、探索、可视化和集成等多个方面。通过深入学习和实践，你将能够更充分地利用DataFrame的功能和优势，提升数据处理和分析的能力，为数据驱动的决策提供有力支持。（可视化将在matpoltlib中详细介绍）

一、复合索引

在 Pandas 中，DataFrame 的复合索引（也称为多级索引或层次化索引）允许在多个维度上对数据进行索引。这通常通过使用 MultiIndex 来实现，它可以通过多种方式创建，包括从多个列或数组、从元组列表等。复合索引特别有用于在数据集中表示多个分类变量，并允许进行高级的数据选择和聚合。

下面是一些关于如何在 Pandas 中使用 DataFrame 的复合索引的示例和解释：

（一）创建具有复合索引的 DataFrame

可以通过几种方式创建具有复合索引的 DataFrame：

1. 使用 set_index 方法：

可以从一个现有的 DataFrame 的列中创建复合索引。
代码实现：

import pandas as pd  
  
# 创建一个简单的 DataFrame  
df = pd.DataFrame({  
    'A': ['foo', 'foo', 'foo', 'bar', 'bar'],  
    'B': ['one', 'one', 'two', 'two', 'one'],  
    'C': ['small', 'large', 'large', 'small', 'small'],  
    'D': [1, 2, 2, 3, 3],  
    'E': [2, 4, 5, 5, 6]  
})  
  
# 从列 'A' 和 'B' 创建复合索引  
df_multiindex = df.set_index(['A', 'B'])  
df_multiindex
1
2
3
4
5
6
7
8
9
10
11
12
13
14

运行结果：
在这里插入图片描述

2.在创建 DataFrame 时直接指定索引：

在创建 DataFrame 时直接传递一个 MultiIndex。

# 创建多级索引  
index = pd.MultiIndex.from_tuples([('foo', 'one'), ('foo', 'two'), ('bar', 'one'), ('bar', 'two')])  
  
# 创建一个简单的 DataFrame，并使用多级索引  
df_multiindex = pd.DataFrame({  
    'C': ['small', 'large', 'large', 'small'],  
    'D': [1, 2, 2, 3],  
    'E': [2, 4, 5, 6]  
}, index=index)  
df_multiindex
1
2
3
4
5
6
7
8
9
10

运行结果：
在这里插入图片描述

（二）使用复合索引进行数据选择和切片

有了复合索引，可以使用它们来方便地选择数据。

# 选择索引为 ('foo', 'one') 的行  
print(df_multiindex.loc[('foo', 'one')])  
  
# 选择所有 'foo' 行的 'D' 列  
print(df_multiindex.loc['foo']['D'])  
  
# 选择 'foo' 下 'one' 和 'two' 的所有行  
print(df_multiindex.loc[('foo', slice(None))])
1
2
3
4
5
6
7
8

运行结果：
在这里插入图片描述

（三）重置索引

如果不再需要复合索引，或者想要将其转换回普通的列，可以使用 reset_index 方法。

# 重置索引，将复合索引的级别作为普通列添加回 DataFrame  
df_reset = df_multiindex.reset_index()  
df_reset
1
2
3

运行结果：
在这里插入图片描述

（四）复合索引与分组操作

复合索引与 groupby 方法结合使用时特别强大，因为它允许基于多个键对数据进行分组。

# 使用复合索引进行分组并计算每组的平均值  
grouped = df_multiindex.groupby(level=[0, 1]).mean()  
grouped
1
2
3

运行结果：
在这里插入图片描述

（五）unstack()函数

unstack()函数是用于将一个多级索引（multi-index）的DataFrame或Series从一个层级转换到列中，或者从列中转换到另一个层级。这通常用于数据重塑，使得数据的展现形式更符合分析的需要。
当DataFrame或Series具有一个或多个层级索引时，unstack()函数可以将低层级的索引转换为列标题，同时保持高层级索引作为行索引。反之，如果unstack()函数用于具有多层列标题的DataFrame，则可以将低层级的列标题转换为行索引。

1.参数

level：整数或字符串，可选参数。指定要解包的层级。如果省略此参数，将解包所有分层。通过指定level，你可以控制将哪一层级的索引横向展开，而其余层级的索引保持不变。
fill_value：可选参数。用于替换缺失值的值。在解包索引的过程中，可能会出现某些位置没有对应数据的情况，此时可以使用fill_value参数来指定一个默认值填充这些缺失位置。
dropna：布尔值，可选参数。指定是否删除那些只包含缺失值的列。当解包索引后，有些列可能全部为缺失值，通过设置dropna=True，可以自动删除这些列，使数据更加整洁。

2. 将多层索引转换为列

# 创建一个具有多层索引的 DataFrame  
index = pd.MultiIndex.from_product([['A', 'B'], ['one', 'two'], ['x', 'y', 'z']])  

data = pd.Series(np.random.randn(12), index=index)  
print(data)
df = data.unstack([0, 1])  
  
df
1
2
3
4
5
6
7
8

在这个示例中，我们创建了一个具有三层索引的Series对象，并使用unstack([0, 1])将前两层索引转换为列标题。
在这里插入图片描述

2. 将列转换为行索引

df
#%%
# 创建一个具有多层索引的DataFrame  
arrays = [np.array(['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux']),  
          np.array(['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two']),  
          np.array(['small', 'large', 'large', 'small', 'small', 'large', 'large', 'small'])]  
  
# 将这些数组转换为MultiIndex  
index = pd.MultiIndex.from_arrays(arrays, names=('first', 'second', 'third'))  
  
# 创建一个简单的DataFrame  
df = pd.DataFrame(np.random.randn(8, 2), index=index, columns=['A', 'B'])  
  
print("原始DataFrame:")  
print(df)  
  
# 使用unstack将'third'层级的索引转换为列  
df_unstacked = df.unstack('third')  
  
print("\n使用unstack后的DataFrame:")  
df_unstacked
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

运行结果：
在这里插入图片描述
在这个示例中，我们创建了一个具有三层索引的DataFrame，并使用unstack(‘third’)将第三层索引（‘third’）转换为列。

3. 分组聚合中的使用

unstack() 可以用来将分组后的结果从层级索引的形式转换为更宽格式的表格。

# 创建一个示例 DataFrame  
data = {  
    'A': ['foo', 'foo', 'foo', 'bar', 'bar'],  
    'B': ['one', 'one', 'two', 'two', 'one'],  
    'C': ['small', 'large', 'large', 'small', 'small'],  
    'D': [1, 2, 2, 3, 3],  
    'E': [2, 4, 5, 5, 6]  
}  
df = pd.DataFrame(data)  
  
# 根据 A 和 B 列进行分组，并对 D 列求和  
grouped = df.groupby(['A', 'B']).sum()  
  
print("分组聚合后的结果:")  
print(grouped)  
  
# 使用 unstack() 将 B 列的层级索引转换为列  
unstacked = grouped.unstack('B')  
  
print("\n使用 unstack() 后的结果:")  
print(unstacked)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

代码实现：
在这里插入图片描述

注意事项：

unstack()函数不会修改原始DataFrame或Series，而是返回一个新的对象。
如果level参数指定的层级不存在，会引发KeyError。
如果解包后的数据结构中存在重复的列标题，Pandas会保留所有的数据，并使用多级列标题来区分。

二、Dataframe分组语法进阶

（一）分组聚合多种写法

首先我们先导入数据

import numpy as np
data = pd.read_csv('/export/data/pandas_data/gapminder.tsv',sep='\t')
data
1
2
3

数据样式：
在这里插入图片描述

1. 写法一：中括号形式, df[列名]

# 求不同洲的平均寿命
data.groupby('continent')['lifeExp'].mean()
1
2

运行结果：
在这里插入图片描述

2. 写法二：df.列名直接实现.

# 写法2: df.列名 直接实现.
data.groupby('continent').lifeExp.mean()
1
2

运行结果：
在这里插入图片描述

3. 写法三：结合 agg() 或者 aggregate()函数实现

这两个函数完全一样, 并无任何区别.

# 写法3: 结合 agg() 或者 aggregate()函数实现, 这两个函数完全一样, 并无任何区别.
data.groupby('continent').lifeExp.agg('mean')         # 这个mean是 Pandas中的mean()函数, 要加: 引号包裹
data.groupby('continent').lifeExp.aggregate('mean')   

# 上述格式变形写法: {要操作的列1: 聚合函数, 要操作的列2: 聚合函数...}
data.groupby('continent').agg({'lifeExp':'mean'})        
data.groupby('continent').aggregate({'lifeExp':'mean'}) 
1
2
3
4
5
6
7

4. 写法四：还可以直接传入 numpy包下的函数.

# 写法4: 还可以直接传入 numpy包下的 函数.
data.groupby('continent').lifeExp.agg(np.mean)            # 这里的np.mean是 Numpy中的mean()函数对象, 不要加引号
data.groupby('continent').agg({'lifeExp': np.mean}) 
1
2
3

5. 传入自定义函数

# 写法5: 传入自定义函数, 实现: 计算平均值. 
# 1. 自定义函数, 用于计算 某列值 的平均值.
def my_mean(col):
    # 该列平均值 = 该列数据和 / 该列数据个数 
    return col.sum() / col.size         # Series中: sum()函数, size: 属性

# 2. groupby分组聚合时, 可以传入: 自定义函数.
data.groupby('continent').lifeExp.agg(my_mean)            # 这里传入的是: 自定义函数对象, 不加引号.
data.groupby('continent').agg({'lifeExp': my_mean})    
1
2
3
4
5
6
7
8
9

运行结果：

6.agg 进行不同的聚合计算.

# 写法7: 分组后, 可以针对于 多列数据, 进行不同的聚合计算. 
# 需求: 根据年份分组, 计算: lifeExp(预期寿命)的平均值, pop(平均人口)的 最大值, gdpPercap(平均GDP) 的 中位数.
data.groupby('year').agg({'lifeExp': 'mean', 'pop': 'max', 'gdpPercap': 'median'})
1
2
3

运行结果：
在这里插入图片描述

（二）分组转换（开窗+具体操作）

transform()方法在Pandas库中是一个强大的工具，尤其在分组计算时。当对数据进行分组操作后，transform()方法允许对每个分组应用一个函数，并返回与原始DataFrame形状相同的结果。这对于在分组后进行标准化、填充缺失值、计算分组统计量等操作非常有用。

1. 语法：

当与groupby()结合使用时，transform()的语法基本保持不变：

grouped.transform(func, *args, **kwargs)
1

其中，grouped是一个通过groupby()方法得到的分组对象，func是你想要应用于每个分组的函数。

2.常见用途

标准化：在每个分组内计算均值和标准差，然后用原始值减去均值并除以标准差，从而得到标准化的数据。
填充缺失值：在每个分组内计算非缺失值的均值或中位数，并用这个值填充该分组内的缺失值。
计算分组统计量：计算每个分组的均值、总和、最大值、最小值等，并将这些统计量广播回原始形状。
示例：
假设我们有一个包含销售数据的DataFrame，其中包含产品类别、销售额和利润等列，我们想要计算每个产品类别的销售额均值，并将这个均值填充到该类别下的每一行中：

# 创建一个简单的DataFrame  
df = pd.DataFrame({  
    'category': ['A', 'A', 'B', 'B', 'C', 'C'],  
    'sales': [100, 150, 75, 125, 50, 70],  
    'profit': [20, 30, 15, 25, 10, 14]  
})  
print('原表：')
print(df)
# 使用groupby和transform计算每组的销售额均值，并将结果广播回原始形状  
df['sales_mean_per_category'] = df.groupby('category')['sales'].transform('mean')  
print('转换之后的表：')
df
1
2
3
4
5
6
7
8
9
10
11
12

运行结果：
在这里插入图片描述

输出将是一个新的DataFrame，其中包含一个额外的列sales_mean_per_category，该列包含了每个产品类别的销售额均值，并且这个均值被填充到了该类别下的每一行中。

通过transform()方法，你可以轻松地在分组后对数据进行各种转换和操作，而无需改变原始数据的形状或结构。这使得它在数据清洗、预处理和特征工程等任务中非常有用。

（三）分组过滤

首先我们创建一个Dataframe

# 示例DataFrame  
import pandas as pd

df = pd.DataFrame({  
    'A': ['foo', 'foo', 'foo', 'bar', 'bar'],  
    'B': ['one', 'one', 'two', 'two', 'one'],  
    'C': ['small', 'large', 'large', 'small', 'small'],  
    'D': [1, 2, 2, 3, 3],  
    'E': [2, 4, 5, 5, 6]  
})  
df
1
2
3
4
5
6
7
8
9
10
11

运行结果：
在这里插入图片描述

1.普通过滤：

常见的是使用query或布尔索引来直接过滤DataFrame。

使用query方法过滤：

# 选择列'D'的值大于2的行  
filtered_df = df.query('D > 2')  
filtered_df
1
2
3

运行结果：
在这里插入图片描述

使用布尔索引过滤

# 选择列'D'的值大于2的行  
filtered_df = df[df['D'] > 2]  
filtered_df
1
2
3

运行结果：
在这里插入图片描述

2. 分组后过滤

分组后过滤组可用filter函数传入一个lambda函数或自定义函数，进行组的过滤

传入lambda函数

# 查看按A分组的组内Dde平均值
c = df.groupby('A')[['D']].mean()
print(c)
# 过滤出按A分组的组内的平均值大于2的
df.groupby('A')['D'].filter(lambda x:x.mean()>2 )
1
2
3
4
5

运行结果：
在这里插入图片描述

传入自定义函数
注意，这里使用自定义函数的时候一定要return一个bool值，否则会报错

# 定义一个自定义函数，功能是guol出平均值大于2的
def my_func(col):
    if col.mean()>2:
        return True
    return False
df.groupby('A')['D'].filter(my_func) 
1
2
3
4
5
6

运行结果：
在这里插入图片描述
注意：
无论是apply函数还是transform函数还是filter函数，在传入一个自定函数的时候，只需要传入函数名，而非函数名+（）

四、透视表

pivot_table函数是用于创建数据透视表（pivot table）的强大工具。数据透视表是一种可以对数据进行汇总、分析、探索和呈现的有效方式，它允许用户根据一个或多个键对数据进行重排，并对结果进行聚合运算。功能的同于excel的数据透视表相同。

（一）语法

pandas.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All')
1

（二）参数

data: DataFrame
要进行透视的数据源。通常是一个DataFrame对象。
values: list-like, optional
要进行聚合计算的列名。如果不提供此参数，那么会使用所有数值型列。
index: list-like, optional
用作透视表行索引的列名或列名列表。
columns: list-like, optional
用作透视表列标签的列名或列名列表。
aggfunc: function, str, list, or dict, default ‘mean’
聚合函数或函数列表，用于计算每个组（由index和columns定义）的聚合值。可以是’mean’, ‘sum’, ‘count’, ‘min’, ‘max’, ‘var’, 'std’等字符串，或者是一个自定义函数。如果传入一个函数列表，那么会返回一个多层级的列标签。
fill_value: scalar, default None
用于填充缺失值的值。如果数据中没有缺失值，则此参数无效。
margins: bool, default False
是否添加所有行/列的小计和总计。如果为True，则会在透视表的底部和右侧添加额外的行和列，显示聚合后的总计值。
dropna: bool, default True
是否删除包含缺失值的行。如果为True，则任何在index或columns中包含缺失值的行都会被排除在外。
margins_name: str, default ‘All’
边际（小计和总计）的名称。当margins=True时，此参数定义了总计行和列的名称。

（三）代码实现

创建Dataframe表

import pandas as pd  
  
data = {  
    'year': [2020, 2020, 2021, 2021, 2021],  
    'product': ['A', 'B', 'A', 'B', 'C'],  
    'region': ['North', 'North', 'South', 'South', 'East'],  
    'sales': [100, 200, 150, 300, 50]  
}  
df = pd.DataFrame(data)
df
1
2
3
4
5
6
7
8
9
10

数据样式：
在这里插入图片描述

基本透视表

# 每个商品每年的总的销售数量
pivot_table = df.pivot_table(values='sales', index='year', columns='product', aggfunc='sum')  
pivot_table
1
2
3

运行结果：
在这里插入图片描述

使用多层索引和列

# 每个商品每年在每个地区的销售总量
pivot_table = df.pivot_table(values='sales', index=['year', 'region'], columns='product', aggfunc='sum')  
pivot_table 
1
2
3

运行结果：
在这里插入图片描述
在这个例子中，我们添加了region作为第二层索引。

使用多个聚合函数

# 求每个产品，每年的销售总量和平均销售量
pivot_table = df.pivot_table(values='sales', index='year', columns='product', aggfunc=['sum', 'mean'])  
pivot_table
1
2
3

运行结果：
在这里插入图片描述
这里我们使用了两个聚合函数：sum和mean。这将产生一个多层级的列标签。

填充缺失值

# 将缺失值填充为0
pivot_table = df.pivot_table(values='sales', index='year', columns='product', aggfunc='sum', fill_value=0)  
pivot_table
1
2
3

运行结果：
在这里插入图片描述
如果某些组合在数据中没有出现，则可以使用fill_value参数为这些缺失的组合填充一个默认值。

添加边际
margins=True会在透视表的底部和右侧添加所有行和列的小计。

pivot_table = df.pivot_table(values='sales', index='year', columns='product', aggfunc='sum', margins=True)  
pivot_table
1
2

运行结果：
在这里插入图片描述
通过调整index、columns和aggfunc等参数，你可以创建出各种复杂的数据透视表，以满足不同的数据分析需求。

下篇内容

Pandas的时间转换

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/526323

Pandas入门篇（二）-------Dataframe篇4（进阶）（Dataframe的进阶用法）（机器学习前置技术栈）

目录

概述

一、复合索引

（一）创建具有复合索引的 DataFrame

1. 使用 set_index 方法：

2.在创建 DataFrame 时直接指定索引：

（二）使用复合索引进行数据选择和切片

（三）重置索引

（四）复合索引与分组操作

（五）unstack()函数

1.参数

2. 将多层索引转换为列

2. 将列转换为行索引

3. 分组聚合中的使用

注意事项：

二 、Dataframe分组语法进阶

（一）分组聚合多种写法

1. 写法一：中括号形式, df[列名]

2. 写法二：df.列名 直接实现.

3. 写法三：结合 agg() 或者 aggregate()函数实现

4. 写法四：还可以直接传入 numpy包下的 函数.

5. 传入自定义函数

6.agg 进行不同的聚合计算.

（二）分组转换（开窗+具体操作）

1. 语法：

2.常见用途

（三）分组过滤

1.普通过滤：

2. 分组后过滤

四、透视表

（一）语法

（二）参数

（三）代码实现

下篇内容

二、Dataframe分组语法进阶

2. 写法二：df.列名直接实现.

4. 写法四：还可以直接传入 numpy包下的函数.