pandas根据列去重的方法是什么

avatar
作者
筋斗云
阅读量:0

pandas根据列去重的方法是使用drop_duplicates()函数。该函数能够返回一个新的DataFrame,其中的重复值已经被删除。

具体用法如下:

df.drop_duplicates(subset=[列名], keep='first', inplace=True) 
  • subset参数用于指定要检查重复的列名或列名列表。默认情况下,该参数为None,表示检查所有列。
  • keep参数用于指定保留哪一个重复值。可选值有firstlastFalse。默认为first,表示保留第一个出现的重复值;last表示保留最后一个出现的重复值;False表示删除所有重复值。
  • inplace参数用于指定是否在原DataFrame上进行修改。默认为False,表示返回删除重复值后的新DataFrame;若设置为True,则在原DataFrame上进行修改,并返回None

示例:

import pandas as pd  # 创建一个包含重复值的DataFrame data = {'A': [1, 2, 2, 3, 4, 4],         'B': ['a', 'b', 'b', 'c', 'd', 'd']} df = pd.DataFrame(data)  # 根据列'A'去重 df.drop_duplicates(subset=['A'], keep='first', inplace=True) print(df) 

输出结果:

   A  B 0  1  a 1  2  b 3  3  c 4  4  d 

在上述示例中,根据列’A’去重后,保留了第一个出现的重复值。

广告一刻

为您即时展示最新活动产品广告消息,让您随时掌握产品活动新动态!