duplicated()函数在Pandas库中的具体用法是什么

avatar
作者
筋斗云
阅读量:0

duplicated() 函数在 Pandas 库中用于检查 DataFrame 或 Series 中的重复项

以下是 duplicated() 函数的基本用法:

  1. 对于一个 Pandas Series:
import pandas as pd  data = pd.Series(['A', 'B', 'A', 'C', 'B']) duplicates = data.duplicated()  print(duplicates) 

输出结果将会是:

0    False 1    False 2     True 3    False 4     True dtype: bool 
  1. 对于一个 Pandas DataFrame:
import pandas as pd  data = {'Column1': ['A', 'B', 'A', 'C', 'B'],         'Column2': [1, 2, 1, 3, 2]}  df = pd.DataFrame(data) duplicates = df.duplicated()  print(duplicates) 

输出结果将会是:

0    False 1    False 2     True 3    False 4     True dtype: bool 

你还可以使用 duplicated() 函数的参数来自定义重复项检测的行为。例如,你可以设置 keep 参数来指定保留哪个重复项。默认情况下,keep 参数设置为 'first',表示保留第一个出现的重复项,并将其他重复项标记为 True。你还可以将 keep 设置为 'last',这样最后一个出现的重复项将被保留。此外,你还可以将 keep 设置为 False,这样所有重复项都将被标记为 True

例如:

import pandas as pd  data = {'Column1': ['A', 'B', 'A', 'C', 'B'],         'Column2': [1, 2, 1, 3, 2]}  df = pd.DataFrame(data) duplicates = df.duplicated(keep='last')  print(duplicates) 

输出结果将会是:

0     True 1     True 2    False 3    False 4    False dtype: bool 

广告一刻

为您即时展示最新活动产品广告消息,让您随时掌握产品活动新动态!