在Python的Pandas库中怎样模拟CASE WHEN功能

avatar
作者
筋斗云
阅读量:0

在Python的Pandas库中,可以使用np.where()函数或者pd.cut()函数来模拟CASE WHEN功能。

  1. 使用np.where()函数:

np.where()函数可以根据指定的条件返回不同的值。其语法格式为:np.where(condition, value_if_true, value_if_false)。其中,condition是要测试的条件,value_if_true是条件为真时返回的值,value_if_false是条件为假时返回的值。

例如,下面的代码将根据列A中的值生成一个新列B,如果A的值大于10,则B的值为"大于10",否则为"小于等于10":

import pandas as pd import numpy as np  # 创建一个示例DataFrame df = pd.DataFrame({'A': [5, 12, 7, 15, 3]})  # 使用np.where()函数模拟CASE WHEN功能 df['B'] = np.where(df['A'] > 10, '大于10', '小于等于10')  print(df) 
  1. 使用pd.cut()函数:

pd.cut()函数可以将连续型数据划分为多个区间,并返回每个数据属于哪个区间。其语法格式为:pd.cut(x, bins, labels=None, right=True, include_lowest=False)。其中,x是要划分的数据列,bins是划分区间的列表,labels是每个区间的标签(可选),right表示区间的右侧是否包含(默认为True),include_lowest表示是否将最小值包含在第一个区间内(默认为False)。

虽然pd.cut()函数主要用于划分区间,但可以通过一些技巧来模拟CASE WHEN功能。例如,下面的代码将根据列A中的值生成一个新列B,如果A的值大于10,则B的值为"大于10",否则为"小于等于10":

import pandas as pd  # 创建一个示例DataFrame df = pd.DataFrame({'A': [5, 12, 7, 15, 3]})  # 使用pd.cut()函数模拟CASE WHEN功能 df['B'] = pd.cut(df['A'], bins=[0, 10, np.inf], labels=['小于等于10', '大于10'])  print(df) 

请注意,pd.cut()函数返回的是区间标签,而不是具体的值。如果需要返回具体的值,可以使用map()函数将区间标签映射到具体的值。例如,可以将上面的代码修改为:

import pandas as pd  # 创建一个示例DataFrame df = pd.DataFrame({'A': [5, 12, 7, 15, 3]})  # 使用pd.cut()函数获取区间标签 labels = pd.cut(df['A'], bins=[0, 10, np.inf], labels=['小于等于10', '大于10'])  # 使用map()函数将区间标签映射到具体的值 df['B'] = labels.map({'小于等于10': '小于等于10', '大于10': '大于10'})  print(df) 

广告一刻

为您即时展示最新活动产品广告消息,让您随时掌握产品活动新动态!