当前位置:   article > 正文

Python之Pandas详解_python pandas

python pandas

PandasPython语言的一个扩展程序库,用于数据分析。

Pandas是一个开放源码、BSD许可的库,提供高性能、易于使用的数据结构和数据分析工具

Pandas名字衍生自术语 “panel data”(面板数据)和 “Python data analysis”(Python数据分析)。

Pandas一个强大的分析结构化数据的工具集,基础是NumPy(提供高性能的矩阵运算)。

Pandas可以从各种文件格式比如CSVJSONSQLMicrosoft Excel 导入数据。

Pandas可以对各种数据进行运算操作,比如归并、再成形、选择,还有数据清洗和数据加工特征。

Pandas广泛应用在学术、金融、统计学等各个数据分析领域。

Pandas主要包括以下几个特点:

  • 它提供了一个简单、高效、带有默认标签(也可以自定义标签)的DataFrame对象。
  • 能够快速从不同格式的文件中加载数据(比如 ExcelCSVSQL文件),然后转换为可处理的对象;
  • 能够按数据的行、列标签进行分组,并对分组后的对象执行聚合和转换操作;
  • 能够很方便地实现数据归一化操作和缺失值处理;
  • 能够很方便地对DataFrame的数据列进行增加、修改或者删除的操作;
  • 能够处理不同格式的数据集,比如矩阵数据、异构数据表、时间序列等;
  • 提供了多种处理数据集的方式,比如构建子集、切片、过滤、分组以及重新排序等。

Pandas数据结构

Pandas的主要数据结构是Series(一维数据)与DataFrame(二维数据),这两种数据结构足以处理金融、统计、社会科学、工程等领域里的大多数典型用例。

Series是一种类似于一维数组的对象,它由一组数据(各种Numpy数据类型)以及一组与之相关的数据标签(即索引)组成。

DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典(共同用一个索引)。

⛄Pandas Series

Pandas Series类似表格中的一个列(column),类似于一维数组,由一组数据值(value)和一组标签组成,其中标签与数据值之间是一一对应的关系。Series可以保存任何数据类型,比如整数、字符串、浮点数、Python对象等,它的标签默认为整数,从0开始依次递增。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/运维做开发/article/detail/876721

推荐阅读
相关标签