pandas:强大的Python数据分析工具包

PDF版本

已压缩的HTML

日期:2016年12月24日版本:0.19.2

二进制安装: http://pypi.python.org/pypi/pandas

源代码仓库: http://github.com/pydata/pandas

问题&想法: https://github.com/pydata/pandas/issues

Q&A支持: http://stackoverflow.com/questions/tagged/pandas

开发人员邮件列表: http://groups.google.com/group/pydata

pandas是一个提供快速,灵活和表达性数据结构的Python包,旨在使“关系”或“标记”数据变得简单直观。它旨在成为在Python中进行实用的真实世界数据分析的基本高级构建块。此外,它的更广泛的目标是成为最强大和最灵活的任何语言的开源数据分析/操作工具。它已经很好地朝着这个目标前进了。

pandas非常适合许多不同类型的数据:

  • 具有非均匀类型列的表格数据,如在SQL表或Excel电子表格中
  • 有序和无序(不一定是固定频率)时间序列数据。
  • 带有行和列标签的任意矩阵数据(均匀类型或异质)
  • 任何其他形式的观测/统计数据集。数据实际上不需要被标记就可以被放置到Pandas的数据结构中

pandas的两个主要数据结构Series(一维)和DataFrame(二维)处理了金融,统计,社会中的绝大多数典型用例科学,以及许多工程领域。对于R用户,DataFrame提供R的data.frame所有功能及其他功能。pandas建立在NumPy之上,旨在包含更多其他第三方库并与之集成为优秀的科学计算环境。

这里只是几个pandas做得很好的事情:

  • 轻松处理浮点数据中的缺失数据(表示为NaN)以及非浮点数据
  • 大小可变性:列可以从DataFrame和更高维度的对象中插入和删除
  • 自动和显式数据对齐:对象可以显式地对齐到一组标签,或者用户可以简单地忽略标签,让SeriesDataFrame 在计算中为您自动对齐数据
  • 功能强大,灵活的分组功能对数据集执行拆分应用组合操作,以聚合和转换数据
  • 使易于将其他Python和NumPy数据结构中的粗糙,不同索引的数据转换为DataFrame对象
  • 基于智能标签的切片花式索引子集化大数据集
  • 直观的合并连接数据集
  • 灵活的重塑和数据集的旋转
  • 轴的分层标签(每个标记可能有多个标签)
  • 用于从平面文件(CSV和定界),Excel文件,数据库加载数据并保存/加载超快速HDF5格式的数据的强大IO工具
  • 时间序列 - 特定功能:日期范围生成和频率转换,移动窗口统计,移动窗口线性回归,日期移动和滞后等。

许多此处原则是为了解决在使用其他语言/科学研究环境时常常所遇到的不足。对于数据科学家,处理数据通常分为多个阶段:清理和清理数据,分析/建模,然后将分析的结果组织成适合于绘图或表格显示的形式。pandas是处理所有这些任务的理想工具。

其他一些注释

  • pandas是快速的许多低级算法位已在Cython代码中广泛调整。然而,通用化的代价是牺牲性能,这是一种普遍现象。因此,如果您专注于应用程序的一个功能,您可以创建一个更快的专业工具。
  • pandas是statsmodels的依赖项,使其成为Python中统计计算生态系统的重要组成部分。
  • pandas已广泛用于金融应用的产品。

注意

本文档假定你熟悉NumPy。如果你还没有熟练使用NumPy或者根本没用过numpy,请先花一些时间学习NumPy

有关库中的内容的更多详细信息,请参阅软件包概述。

Scroll To Top