当前位置:   article > 正文

pandas的自带数据集_Pandas教程:初学者入门必备,很全面,很详细!

pandas 中的数据集

feb2a54a540972ded4d077222b1b3704.png
Pandas教程:初学者入门必备,很全面,很详解!​mp.weixin.qq.com
337575f88e48cfdc79a77aa7024ddbc8.png

学习Panda一些最重要的特性,用于对数据进行探索、清洗、转换、可视化以及从数据中学习。

Pandas库是当今使用Python进行工作的数据科学家和分析师所使用的最重要的工具。强大的机器学习和迷人的可视化工具可能会吸引大家关注,但是,Pandas是大多数数据项目的基础。

[pandas]源自术语“panel data”,这是计量经济学中用于描述数据集的术语,这些数据集是对一些个体在多个时间段内的观察结果。—维基百科

如果你正考虑将数据科学视为一种职业,那么当务之急就是要做的第一件事就是学习Pandas。在本文中,我们将介绍有关Pandas的基本信息,包括如何安装,如何使用以及如何与其他常见的Python数据分析包(例如matplotlib和scikit-learn)一起使用。

Pandas是用来干什么的?

Pandas有很多用途,把它不能做的事情列出来,而不是它能做的事情,也许是有意义的。此工具实际上是你数据的家。通过Pandas,您可以通过清理,转换和分析数据来了解数据。例如,假设您要浏览计算机上以CSV格式存储的数据集。Pandas将从CSV中提取数据到一个DataFrame(基本上是一个表)中,然后让您执行以下操作:

  • 计算统计数据并回答有关数据的问题,例如
  1. 每列的平均值,中位数,最大值或最小值是多少?
  2. A列与B列相关吗?
  3. C列中的数据分布是什么样的?
通过执行一些操作来清除数据,例如删除缺失值并按某些条件过滤行或列在Matplotlib的帮助下可视化数据。绘制条形图,线条,直方图,气泡等。将清理后的转换数据存储回CSV,其他文件或数据库 Pandas 10大应用领域,哪些行业在使用Pandas?​mp.weixin.qq.com
238d7f1058770b3ef77361a1ac7317ae.png

在进入建模或复杂的可视化之前,您需要对数据集的性质有充分的了解,而Pandas是实现此目的的最佳途径。

9c7eccaaa443a66499bb902a24edf753.png

Pandas如何算得上数据科学工具包?

Pandas不仅是数据科学工具包的重要组成部分,而且与该包中的其它库一起使用。

Pandas基于Numpy库构建,这意味着NumPy的许多结构都在Pandas中被使用或复制。Pandas中的数据通常用于SciPy中的统计分析,Matplotlib中的绘图功能以及Scikit-learn中的机器学习算法。

Jupyter Notebook提供了一个使用Pandas进行数据探索和建模的良好环境,但是Pandas也可以轻松地用于文本编辑器中。Jupyter Notebooks使我们能够在特定的单元格中执行代码,而不是运行整个文件。使用大型数据集和复杂转换时,这可以节省大量时间。Notebook还提供了一种简便的方法来可视化Pandas的数据框和图表。

Pandas的基本功能–数据科学家使用的4个主要功能​mp.weixin.qq.com
da481fe6dd37c0f00af3eaa439499955.png

你应该什么时候使用Pandas?

如果您没有使用Python进行编码的经验,那么您应该避免学习Pandas,直到您开始学习为止。您不必一定是软件工程师,但是您应该擅长Python编程的基础知识,例如列表,元组,字典,函数和迭代。另外,由于上述相似之处,我还建议您熟悉NumPy。

此外,对于那些希望进行数据科学训练营或其他一些加速数据科学教育计划的人,强烈建议您在开始该程序之前先自己学习Pandas。

即使集中训练可以教您Pandas,但事先具备更好的技能意味着您将能够最大限度地利用时间来学习和掌握更复杂的材料。

Pandas第一步

安装并导入

Pandas是易于安装的软件包。打开您的终端程序(对于Mac用户)或命令行(对于PC用户),然后使用以下任一命令进行安装:

conda install pandas

或者

pip install pandas

或者,如果您当前正在Jupyter笔记本中查看本文,则可以运行以下单元格:

!pip install pandas

在开处“!”,表示在终端一样运行单元格。要导入Pandas,我们通常使用较短的名称来导入Pandas,因为它使用了很多:

import pandas as pd

现在介绍Pandas的基本构成。

pandas库的核心部分: Series和DataFrames

Pandas的主要两个组成部分是Series和DataFrame。Series本质上是一列,而DataFrame是由Series集合组成的多维表。

15个Pandas最佳特性,是什么让Pandas如何特别?​mp.weixin.qq.com
7c78842b7532f11880aaeb302f39af0b.png

d1aed0632a66edcea844787e9562a185.png

DataFrame和Series非常相似,因为您可以对一个进行许多操作,而对另一个进行其他操作,例如填充空值和计算均值。当我们开始使用以下数据进行工作时,您将看到这两个核心组件的用法。

JupyterLab最全详解,如果你还在使用Notebook,那你就out了!​mp.weixin.qq.com
a71b8c425688c178050a3eb06537deb0.png

从头开始创建DataFrames

在Python中创建DataFrames是一个很好的知识,并且在测试您在pandas文档中发现的新方法和函数时非常有用。

有很多方法可以从头开始创建DataFrame,但是一个不错的选择是只使用一个简单的dict。

假设我们有一个卖苹果和橙子的水果摊。我们希望每个水果都有一列,每个客户购买都有一行。要将其组织为pandas字典,我们可以执行以下操作:

  1. data = {
  2. 'apples': [3, 2, 0, 1],
  3. 'oranges': [0, 3, 7, 2]
  4. }

然后将其传递给pandas DataFrame构造函数:

  1. purchases = pd.DataFrame(data)
  2. purchases

b5291ad5d26c4869e381c33a8853a646.png

这是怎么回事呢?

数据中的每个(键,值)对都对应于结果DataFrame中的一列。

该数据框的索引是在创建时以数字0-3的形式提供给我们的,但是在初始化数据框时也可以创建自己的索引。让我们以客户名称作为索引:

  1. purchases = pd.DataFrame(data, index=['June', 'Robert', 'Lily', 'David'])
  2. purchases

ba970db541c65ceb4cc58e611a33b571.png

因此,现在我们可以使用客户名称来查找客户的订单:

  1. >>> purchases.loc['June']
  2. apples 3
  3. oranges 0
  4. Name: June, dtype: int64

稍后将有更多关于从DataFrame定位和提取数据的信息,但是现在您应该能够使用任何随机数据创建一个DataFrame进行学习。

让我们继续学习一些从其他各种来源快速创建DataFrame的方法。

如何读取数据

将各种文件格式的数据加载到DataFrame中非常简单。在以下示例中,我们将继续使用苹果和橘子数据,但这一次它来自各种文件。

史上最全的Python基础语法知识清单​mp.weixin.qq.com
12b6a7dd1a15379c12ec8200df211125.png

从CSV读取数据

使用CSV文件,您只需要一行即可加载数据:

  1. df = pd.read_csv('purchases.csv')
  2. df

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/193588
推荐阅读
相关标签
  

闽ICP备14008679号