当前位置：首页 > news >正文

算法金 | 来了，pandas 2.0

news 来源：原创 2024/9/21 10:58:58

大侠幸会，在下全网同名「算法金」 0 基础转 AI 上岸，多个算法赛 Top 「日更万日，让更多人享受智能乐趣」

今日 210+/10000

Pandas 是一个强大的数据分析库，广泛应用于科学研究、金融分析、商业智能等领域。它提供了高效的数据结构和数据分析工具，使得处理和分析数据变得更加简单和高效。Pandas 的核心数据结构是 DataFrame，它可以方便地进行数据清洗、变换、合并和聚合操作，这使得 Pandas 成为数据科学家和分析师的必备工具。

数据清洗：Pandas 提供了丰富的功能来处理缺失值、重复数据和数据类型转换。
数据变换：可以轻松地对数据进行排序、过滤、分组和变换操作。
数据合并：支持多种方式的数据合并和连接，如 merge、join 和 concat。
数据聚合：通过 groupby 操作，可以对数据进行高效的聚合和汇总。

Pandas 的易用性和强大功能，使得它在数据分析中占据了重要地位。

Pandas 2.0 的发布背景和主要目标

随着数据量的不断增长和数据分析需求的增加，Pandas 的性能和功能也需要不断提升。Pandas 2.0 的发布背景主要包括以下几点：

性能优化需求：大规模数据的处理对性能提出了更高的要求，Pandas 2.0 通过引入 Arrow Array 等技术，显著提升了数据处理的效率。
统一的空值处理：在数据分析过程中，空值处理是一个常见且重要的问题。Pandas 2.0 引入了 pd.NA 统一表示空值，简化了空值处理的逻辑。
类型提示的改进：为了提高代码的可读性和开发效率，Pandas 2.0 提供了更好的类型提示支持，帮助开发者进行类型检查和自动补全。
扩展接口的需求：随着用户需求的多样化，Pandas 2.0 提供了更多的可扩展接口，使得开发者可以更方便地扩展和定制 Pandas 的功能。

Pandas 2.0 的主要目标是提升性能、增强数据处理能力和改进开发者体验，使得 Pandas 在处理大规模数据和复杂数据分析任务时更加高效和便捷。

Pandas 2.0 的新特性

2.1 Arrow Array

2.0 最大的亮点是增加了对pyarrow的支持，甚至被定义为一场革命（revolution）。

Apache Arrow 是一个用于内存中的跨平台数据表示格式，旨在提高数据处理的速度和效率。它通过定义一种列式内存格式，使数据在不同的计算引擎之间可以高效共享，减少数据的序列化和反序列化开销，从而提升性能。

Arrow 的主要特点包括：

列式存储：数据按列存储，适合高效的压缩和向量化操作。
跨平台兼容：支持多种编程语言和计算引擎，如 Python、R、Java、Spark 等。
高性能：优化了内存访问模式，提高了数据处理的速度。

Arrow Array 的优点和使用场景

Pandas 2.0 引入了 Arrow Array 作为新的数据结构，带来了许多优点：

高效的内存使用：Arrow Array 使用列式存储，减少了内存占用。
快速的数据访问：优化的内存访问模式和向量化操作，提高了数据处理的速度。
跨平台数据共享：可以在不同的计算引擎之间高效地共享数据，减少数据复制和转换的开销。

使用场景包括：

大规模数据处理：在处理大量数据时，Arrow Array 提供了更高的性能和效率。
数据分析和机器学习：需要高效的数据处理和内存管理的场景。
跨平台数据处理：需要在不同计算引擎之间共享数据的应用。

import pandas as pd
import pyarrow as pa# 使用 Arrow Array 创建 DataFrame
data = pa.table({'column1': [1, 2, 3], 'column2': ['a', 'b', 'c']})
df = pd.DataFrame(data)
print(df)

2.2 改进的空值处理

统一的空值表示 pd.NA

Pandas 2.0 引入了 pd.NA 来统一表示空值，解决了过去不同数据类型空值表示不一致的问题。pd.NA 是一个新的标识符，用于表示缺失值，无论数据类型如何。

空值处理的最佳实践

使用 pd.NA 进行空值处理的一些最佳实践包括：

统一表示空值：使用 pd.NA 统一表示所有数据类型的空值，简化空值处理逻辑。
检查空值：使用 isna() 和 notna() 函数检查空值。
处理空值：使用 fillna() 函数填充空值，或使用 dropna() 函数删除包含空值的行或列。

df = pd.DataFrame({'column1': [1, pd.NA, 3], 'column2': ['a', 'b', pd.NA]})
print(df)

2.3 性能提升

groupby 和 merge 操作的优化

Pandas 2.0 对 groupby 和 merge 操作进行了显著的性能优化，提升了大数据量处理的效率。

# 示例：更快的 groupby 操作
df = pd.DataFrame({'group': ['A', 'B', 'A', 'B'],'value': [10, 20, 30, 40]
})
grouped = df.groupby('group').sum()
print(grouped)

实际应用中的性能对比

通过实际应用中的性能对比测试，可以看到 Pandas 2.0 在处理大数据集时的显著性能提升。例如，在合并两个大数据集时，Pandas 2.0 的速度明显快于之前的版本。

2.4 改进的类型提示

类型提示的重要性

类型提示是提高代码可读性和开发效率的重要工具。它可以帮助开发者进行类型检查、自动补全和错误检测，减少代码中的潜在错误。

Pandas 2.0 对类型提示的支持

Pandas 2.0 提供了更好的类型提示支持，帮助开发者在编写代码时进行类型检查和自动补全。

from typing import Optional
import pandas as pddef process_data(df: pd.DataFrame) -> pd.DataFrame:# 进行数据处理return df

2.5 可扩展的接口

自定义聚合函数

Pandas 2.0 增加了许多可扩展的接口，使得开发者可以更容易地扩展 Pandas 的功能。例如，可以自定义聚合函数来进行数据聚合。

# 示例：自定义聚合函数
def custom_aggregation(series):return series.sum()df = pd.DataFrame({'group': ['A', 'B', 'A', 'B'],'value': [10, 20, 30, 40]
})
grouped = df.groupby('group').agg(custom_aggregation)
print(grouped)

扩展方法的实现和应用

Pandas 2.0 允许开发者通过注册扩展方法来扩展 DataFrame 和 Series 的功能。

# 示例：自定义扩展方法
@pd.api.extensions.register_dataframe_accessor("custom")
class CustomAccessor:def __init__(self, pandas_obj):self._obj = pandas_objdef custom_method(self):return self._obj.mean()df = pd.DataFrame({'column1': [1, 2, 3], 'column2': [4, 5, 6]})
print(df.custom.custom_method())