Pandas Groupby：在Python中汇总、聚合和分组数据

发布人：shili8 发布时间：2025-01-31 08:58 阅读次数：0

**Pandas Groupby：在Python中汇总、聚合和分组数据**

在数据分析和科学计算中，处理大型数据集是非常常见的。Pandas库为我们提供了一个强大的工具来操作和分析这些数据。在本文中，我们将重点讨论Pandas中的`Groupby`功能，这使我们能够对数据进行汇总、聚合和分组。

**什么是Groupby？**

`Groupby`是一个用于分组数据的函数，它允许我们根据一个或多个列来分组数据，然后对每个分组执行某些操作，如求平均值、计数等。它类似于SQL中的GROUP BY语句，但更强大和灵活。

**使用Groupby**

要使用`Groupby`，我们首先需要导入Pandas库：

import pandas as pd

假设我们有一个包含学生信息的数据框，如下所示：

markdown| 学号 | 名字 | 年龄 | 分数 |
| --- | --- | --- | --- |
|1 | 小明 |18 |85 |
|2 | 小红 |19 |90 |
|3 | 小刚 |18 |78 |
|4 | 小丽 |19 |92 |

我们可以使用`Groupby`来对数据进行分组，然后执行某些操作，如求平均值：

# 创建一个示例数据框data = {
 '学号': [1,2,3,4],
 '名字': ['小明', '小红', '小刚', '小丽'],
 '年龄': [18,19,18,19],
 '分数': [85,90,78,92]
}
df = pd.DataFrame(data)

# 使用Groupby对数据进行分组，然后求平均值grouped_df = df.groupby('年龄')['分数'].mean()

print(grouped_df)

输出结果：

markdown年龄1881.51991.0Name: 分数, dtype: float64

在这个例子中，我们使用`groupby`函数对数据进行分组，然后使用`mean`函数来求平均值。结果是一个新的Series，其中每个元素代表一个年龄组的平均分数。

**Groupby的其他功能**

除了求平均值之外，`Groupby`还支持许多其他功能，如：

* `count()`: 计算每个分组中的数据条目数量。
* `sum()`: 对每个分组中的数据进行求和运算。
* `max()` 和 `min()`: 找到每个分组中最大值或最小值。
* `std()` 和 `var()`: 计算每个分组中的标准差或方差。

这些功能可以通过在`groupby`对象上调用相应的函数来实现。例如：

# 使用Groupby对数据进行分组，然后计算每个分组中的数据条目数量grouped_df = df.groupby('年龄')['分数'].count()

print(grouped_df)

输出结果：

markdown年龄182192Name: 分数, dtype: int64

在这个例子中，我们使用`groupby`函数对数据进行分组，然后使用`count`函数来计算每个分组中的数据条目数量。

**总结**

Pandas的`Groupby`功能是一个强大的工具，允许我们对数据进行汇总、聚合和分组。通过使用`Groupby`，我们可以根据一个或多个列来分组数据，然后对每个分组执行某些操作，如求平均值、计数等。在本文中，我们讨论了如何使用`Groupby`，以及它支持的其他功能。

上一条：Baichuan-13B 介绍及微调

下一条：RTL8380MI/RTL8382MI管理型交换机系统软件操作指南七：ERPS以太环网保护切换协议