当前位置:   article > 正文

Python中Pandas库提供的函数——pd.DataFrame的基本用法

pd.dataframe

一、DataFrame 的基本概念

pd.DataFrame是 Pandas 库中的一个类,用于创建和操作数据框(DataFrame)。DataFrame 是 Pandas 的核心数据结构,用于以表格形式和处理数据,类似提供电子表格或数据库表格。类了创建pd.DataFrame数据框、访问数据、进行数据操作和分析的方法和属性。

二、DataFrame 的重要特点

  1. 表格形式:DataFrame是一个二维表格,其中包含了多行和多列的数据。每个列可以有不同的数据类型,例如整数、浮点数、字符串等。

  2. 标签:DataFrame的行和列都有标签(Label),行标签称为索引(Index),列标签通常是字段名或特征名。

  3. 数据操作:DataFrame提供了丰富的数据操作方法,包括数据筛选、切片、合并、分组、聚合、排序等。

  4. 数据查看:您可以使用.head()方法来查看DataFrame的前几行数据,以了解数据的结构和内容。

  5. 数据统计:DataFrame提供了.describe()方法,用于生成数据的统计摘要信息,包括均值、标准差、简单、顶点等。

  6. 数据过滤:你可以使用条件表达式来过滤数据,例如选择满足特定条件的行。

  7. 数据可视化:Pandas 与其他数据可视化库(如 Matplotlib 和 Seaborn)结合使用,可以轻松创建各种图表和可视化,以探索和传输数据。

  8. 数据导入和导出:DataFrame可以从各种数据源导入数据,如CSV文件、Excel表格、SQL数据库等,并且可以将数据导出为不同格式的文件。

  9. 数据恢复处理:DataFrame提供了处理数据中的恢复值的方法,如删除恢复值或恢复恢复值。

  10. 数据索引:DataFrame可以使用行索引和列标签来访问特定的数据元素。

  11. 数据转换:您可以对DataFrame进行各种数据转换操作,如数据类型转换、列重命名、数据透视表等。

三、DataFrame 的具体代码操作

 1.创建空的数据框:

  1. import pandas as pd
  2. df = pd.DataFrame()
  3. print(df)
  4. # 运行结果
  5. '''
  6. Empty DataFrame
  7. Columns: []
  8. Index: []
  9. '''

这将创建一个空的数据框,可以在后续添加数据。

2.从创建列表数据框:

  1. import pandas as pd
  2. data = [['Alice', 25], ['Bob', 30], ['Charlie', 35]]
  3. df = pd.DataFrame(data, columns=['Name', 'Age'])
  4. print(df)
  5. # 运行结果
  6. '''
  7. Name Age
  8. 0 Alice 25
  9. 1 Bob 30
  10. 2 Charlie 35
  11. '''

这将创建一个包含姓名和年龄列的数据框。

3.从字典创建数据框:

  1. import pandas as pd
  2. data = {'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35]}
  3. df = pd.DataFrame(data)
  4. print(df)
  5. # 运行结果
  6. '''
  7. Name Age
  8. 0 Alice 25
  9. 1 Bob 30
  10. 2 Charlie 35
  11. '''

这将创建一个与上述示例相同的数据框。

4.访问数据

  1. import pandas as pd
  2. data = {'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35]}
  3. df = pd.DataFrame(data)
  4. a = df['Name'] # 获取 'Name' 列的数据
  5. b = df.loc[0] # 获取第一行的数据
  6. print(a)
  7. print(b)
  8. # 运行结果
  9. '''
  10. 0 Alice
  11. 1 Bob
  12. 2 Charlie
  13. Name: Name, dtype: object
  14. Name Alice
  15. Age 25
  16. Name: 0, dtype: object
  17. '''

5.数据操作:

  1. import pandas as pd
  2. data = {'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35]}
  3. df = pd.DataFrame(data)
  4. a = df['Age'].mean() # 计算 'Age' 列的平均值
  5. b = df.sort_values(by='Age', ascending=False) # 按 'Age' 列排序,ascending=True是从小到大,ascending=False是从大到小
  6. print(a)
  7. print(b)
  8. # 运行结果
  9. '''
  10. 30.0
  11. Name Age
  12. 2 Charlie 35
  13. 1 Bob 30
  14. 0 Alice 25
  15. '''

 6.数据查看:

  1. import pandas as pd
  2. data = {'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35]}
  3. df = pd.DataFrame(data)
  4. a = df.head(2) # 查看前几行数据,df.head()默认为前5行
  5. b = df.tail(2) # 查看后3行数据
  6. print(a)
  7. print(b)
  8. # 运行结果
  9. '''
  10. Name Age
  11. 0 Alice 25
  12. 1 Bob 30
  13. Name Age
  14. 1 Bob 30
  15. 2 Charlie 35
  16. '''

7.数据统计:

  1. import pandas as pd
  2. data = {'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35]}
  3. df = pd.DataFrame(data)
  4. c=df.describe() # 生成数据的统计摘要信
  5. print(c)
  6. # 运行结果
  7. '''
  8. Age
  9. count 3.0
  10. mean 30.0
  11. std 5.0
  12. min 25.0
  13. 25% 27.5
  14. 50% 30.0
  15. 75% 32.5
  16. max 35.0
  17. '''

这些是一些常见的最有效pd.DataFrame示例,Pandas 提供了丰富的高效方法和功能,使你能够进行数据处理和分析。数据科学、机器学习、统计分析等领域中经常使用 Pandas 数据框来处理和分析数据。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/153059
推荐阅读
相关标签
  

闽ICP备14008679号