赞
踩
学习Panda一些最重要的特性,用于对数据进行探索、清洗、转换、可视化以及从数据中学习。
Pandas库是当今使用Python进行工作的数据科学家和分析师所使用的最重要的工具。强大的机器学习和迷人的可视化工具可能会吸引大家关注,但是,Pandas是大多数数据项目的基础。
[pandas]源自术语“panel data”,这是计量经济学中用于描述数据集的术语,这些数据集是对一些个体在多个时间段内的观察结果。—维基百科
如果你正考虑将数据科学视为一种职业,那么当务之急就是要做的第一件事就是学习Pandas。在本文中,我们将介绍有关Pandas的基本信息,包括如何安装,如何使用以及如何与其他常见的Python数据分析包(例如matplotlib和scikit-learn)一起使用。
Pandas是用来干什么的?
Pandas有很多用途,把它不能做的事情列出来,而不是它能做的事情,也许是有意义的。此工具实际上是你数据的家。通过Pandas,您可以通过清理,转换和分析数据来了解数据。例如,假设您要浏览计算机上以CSV格式存储的数据集。Pandas将从CSV中提取数据到一个DataFrame(基本上是一个表)中,然后让您执行以下操作:
在进入建模或复杂的可视化之前,您需要对数据集的性质有充分的了解,而Pandas是实现此目的的最佳途径。
Pandas如何算得上数据科学工具包?
Pandas不仅是数据科学工具包的重要组成部分,而且与该包中的其它库一起使用。
Pandas基于Numpy库构建,这意味着NumPy的许多结构都在Pandas中被使用或复制。Pandas中的数据通常用于SciPy中的统计分析,Matplotlib中的绘图功能以及Scikit-learn中的机器学习算法。
Jupyter Notebook提供了一个使用Pandas进行数据探索和建模的良好环境,但是Pandas也可以轻松地用于文本编辑器中。Jupyter Notebooks使我们能够在特定的单元格中执行代码,而不是运行整个文件。使用大型数据集和复杂转换时,这可以节省大量时间。Notebook还提供了一种简便的方法来可视化Pandas的数据框和图表。
Pandas的基本功能–数据科学家使用的4个主要功能mp.weixin.qq.com你应该什么时候使用Pandas?
如果您没有使用Python进行编码的经验,那么您应该避免学习Pandas,直到您开始学习为止。您不必一定是软件工程师,但是您应该擅长Python编程的基础知识,例如列表,元组,字典,函数和迭代。另外,由于上述相似之处,我还建议您熟悉NumPy。
此外,对于那些希望进行数据科学训练营或其他一些加速数据科学教育计划的人,强烈建议您在开始该程序之前先自己学习Pandas。
即使集中训练可以教您Pandas,但事先具备更好的技能意味着您将能够最大限度地利用时间来学习和掌握更复杂的材料。
Pandas第一步
安装并导入
Pandas是易于安装的软件包。打开您的终端程序(对于Mac用户)或命令行(对于PC用户),然后使用以下任一命令进行安装:
conda install pandas
或者
pip install pandas
或者,如果您当前正在Jupyter笔记本中查看本文,则可以运行以下单元格:
!pip install pandas
在开处“!”,表示在终端一样运行单元格。要导入Pandas,我们通常使用较短的名称来导入Pandas,因为它使用了很多:
import pandas as pd
现在介绍Pandas的基本构成。
pandas库的核心部分: Series和DataFrames
Pandas的主要两个组成部分是Series和DataFrame。Series本质上是一列,而DataFrame是由Series集合组成的多维表。
15个Pandas最佳特性,是什么让Pandas如何特别?mp.weixin.qq.comDataFrame和Series非常相似,因为您可以对一个进行许多操作,而对另一个进行其他操作,例如填充空值和计算均值。当我们开始使用以下数据进行工作时,您将看到这两个核心组件的用法。
JupyterLab最全详解,如果你还在使用Notebook,那你就out了!mp.weixin.qq.com从头开始创建DataFrames
在Python中创建DataFrames是一个很好的知识,并且在测试您在pandas文档中发现的新方法和函数时非常有用。
有很多方法可以从头开始创建DataFrame,但是一个不错的选择是只使用一个简单的dict。
假设我们有一个卖苹果和橙子的水果摊。我们希望每个水果都有一列,每个客户购买都有一行。要将其组织为pandas字典,我们可以执行以下操作:
- data = {
- 'apples': [3, 2, 0, 1],
- 'oranges': [0, 3, 7, 2]
- }
然后将其传递给pandas DataFrame构造函数:
- purchases = pd.DataFrame(data)
- purchases
这是怎么回事呢?
数据中的每个(键,值)对都对应于结果DataFrame中的一列。
该数据框的索引是在创建时以数字0-3的形式提供给我们的,但是在初始化数据框时也可以创建自己的索引。让我们以客户名称作为索引:
- purchases = pd.DataFrame(data, index=['June', 'Robert', 'Lily', 'David'])
- purchases
因此,现在我们可以使用客户名称来查找客户的订单:
- >>> purchases.loc['June']
- apples 3
- oranges 0
- Name: June, dtype: int64
稍后将有更多关于从DataFrame定位和提取数据的信息,但是现在您应该能够使用任何随机数据创建一个DataFrame进行学习。
让我们继续学习一些从其他各种来源快速创建DataFrame的方法。
如何读取数据
将各种文件格式的数据加载到DataFrame中非常简单。在以下示例中,我们将继续使用苹果和橘子数据,但这一次它来自各种文件。
史上最全的Python基础语法知识清单mp.weixin.qq.com从CSV读取数据
使用CSV文件,您只需要一行即可加载数据:
- df = pd.read_csv('purchases.csv')
- df
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。