阅读量:2
使用Python删除异常值的一种常见方法是使用统计学中的标准差方法。具体步骤如下:
- 导入必要的库:
import numpy as np
- 创建一个包含异常值的数据集:
data = np.array([1, 2, 3, 4, 5, 100])
- 计算数据集的平均值和标准差:
mean = np.mean(data) std = np.std(data)
- 定义异常值的阈值。通常,可以将阈值设置为平均值加减3倍标准差:
threshold = 3 * std
- 使用NumPy的布尔索引来获取不在阈值范围内的值:
filtered_data = data[(data >= mean - threshold) & (data <= mean + threshold)]
- 打印输出过滤后的数据集:
print(filtered_data)
上述代码将删除数据集中的异常值,并输出过滤后的数据集。请注意,这只是一种常见的方法,具体的异常值处理方法可能因数据集的特性而异。