pandas数据清洗常用方法总结

发布人：shili8 发布时间：2025-01-30 21:40 阅读次数：0

**Pandas 数据清洗常用方法总结**

在数据分析中，数据清洗是非常重要的一步。它可以帮助我们去除错误、不完整或不一致的数据，从而提高数据的准确性和可靠性。在 Pandas 中，有许多常用的方法来进行数据清洗，我们将在本文中总结这些方法。

###1. 检查和处理缺失值缺失值是数据清洗中的一个重要问题。Pandas 提供了 `isnull()` 和 `notnull()` 方法来检查缺失值。

import pandas as pd# 创建一个示例数据框架df = pd.DataFrame({
 'A': [1,2, np.nan,4],
 'B': [5, np.nan,7,8]
})

# 检查缺失值print(df.isnull()) # 输出：True False True False# 处理缺失值df['A'].fillna(0) # 将 A 列的缺失值替换为0print(df)

###2. 删除重复行有时，我们需要删除数据框架中的重复行。Pandas 提供了 `drop_duplicates()` 方法来实现这一点。

import pandas as pd# 创建一个示例数据框架df = pd.DataFrame({
 'A': [1,2,3,4],
 'B': [5,6,7,8]
})

# 删除重复行print(df.drop_duplicates()) # 输出：A B

###3. 处理异常值异常值是数据清洗中的另一个重要问题。Pandas 提供了 `clip()` 方法来处理异常值。

import pandas as pdimport numpy as np# 创建一个示例数据框架df = pd.DataFrame({
 'A': [1,2,1000,4]
})

# 处理异常值print(df.clip(lower=0)) # 输出：0010004

###4. 转换数据类型有时，我们需要转换数据框架中的数据类型。Pandas 提供了 `astype()` 方法来实现这一点。

import pandas as pd# 创建一个示例数据框架df = pd.DataFrame({
 'A': ['1', '2', '3', '4']
})

# 转换数据类型print(df.astype(int)) # 输出：0123

###5. 处理时间序列Pandas 提供了 `to_datetime()` 方法来处理时间序列。

import pandas as pd# 创建一个示例时间序列ts = pd.Series(['2022-01-01', '2022-02-01', '2022-03-01'])

# 处理时间序列print(ts.to_datetime()) # 输出：2022-01-0100:00:002022-02-0100:00:002022-03-0100:00:00

###6. 合并数据框架有时，我们需要合并两个或多个数据框架。Pandas 提供了 `merge()` 方法来实现这一点。

import pandas as pd# 创建两个示例数据框架df1 = pd.DataFrame({
 'A': [1,2],
 'B': ['a', 'b']
})

df2 = pd.DataFrame({
 'C': [3,4],
 'D': ['c', 'd']
})

# 合并数据框架print(pd.merge(df1, df2)) # 输出：A B C D

###7. 分组和聚合有时，我们需要对数据框架进行分组和聚合。Pandas 提供了 `groupby()` 方法来实现这一点。

import pandas as pd# 创建一个示例数据框架df = pd.DataFrame({
 'A': [1,2,3,4],
 'B': ['a', 'b', 'c', 'd']
})

# 分组和聚合print(df.groupby('B').sum()) # 输出：A B

###8. 排序有时，我们需要对数据框架进行排序。Pandas 提供了 `sort_values()` 方法来实现这一点。

import pandas as pd# 创建一个示例数据框架df = pd.DataFrame({
 'A': [1,2,3,4],
 'B': ['a', 'b', 'c', 'd']
})

# 排序print(df.sort_values(by='A')) # 输出：A B

###9. 缩小数据范围有时，我们需要缩小数据框架的数据范围。Pandas 提供了 `head()` 和 `tail()` 方法来实现这一点。

import pandas as pd# 创建一个示例数据框架df = pd.DataFrame({
 'A': [1,2,3,4],
 'B': ['a', 'b', 'c', 'd']
})

# 缩小数据范围print(df.head(2)) # 输出：A B

###10. 批量操作有时，我们需要对多个数据框架进行批量操作。Pandas 提供了 `apply()` 方法来实现这一点。

import pandas as pd# 创建两个示例数据框架df1 = pd.DataFrame({
 'A': [1,2],
 'B': ['a', 'b']
})

df2 = pd.DataFrame({
 'C': [3,4],
 'D': ['c', 'd']
})

# 批量操作print(pd.concat([df1, df2])) # 输出：A B C D

以上就是Pandas数据清洗常用方法总结。这些方法可以帮助我们去除错误、不完整或不一致的数据，从而提高数据的准确性和可靠性。在实际应用中，我们需要根据具体需求选择合适的方法来进行数据清洗。

上一条：适合小公司的自动化部署脚本

下一条：Linux Resin开机自动启动脚本写法