网站首页 > 技术文章正文

机器学习中的目标编码目标编号

btikc 2024-10-18 04:46:28 技术文章 13 ℃ 0 评论

目标编码（Target Encoding）也被称为似然编码（likelihood encoding）或平均数编码（mean encoding）。它是从现有特征和目标变量中创建一个新特征。

让我们通过几个小例子来理解这个概念。

示例1：二元分类任务

我们有一个名为data_df的Pandas DataFrame，它包含如下数据。

特征2是我们想要在目标的帮助下进行编码的分类变量。

因为，如果特性2的值是“A”，我们在相应的目标列中有4个1和1个0。值“A”的平均数编码为4/5 = 0.8。

类似地，特征2为“B”的平均数编码是2/3 = 0.667。

我们可以用下面的代码为data_df中的数据创建平均数编码

mean_encoding = data_df.groupby(['Feature-2']).agg({'Target':['mean']}).reset_index()
data_df = data_df.merge(mean_encoding,on='Feature-2',how='left')

这里（Target，mean）是新编码的特征

示例2：回归任务

让我们看一下Target是一个连续值的例子。我们的新DataFrame数据如下：

与第一个示例相同，Feature-2是我们想要在Target的帮助下编码的分类变量。

由于Target是连续的，因此我们可以更灵活地生成新的目标编码功能。例如，我们可以采用均值，模式，标准差或百分位数来创建新特征。

让我们使用Feature-2中每个值的Target值的标准偏差来创建一个新特征。

std_encoding=data.groupby(['Feature-2']).agg({'Target':['std']}).reset_index()
data_df = data_df.merge(std_encoding,on='Feature-2',how='left')

这里产生的新特征是（Target，std）

这种特征编码的思想也可以扩展到多类分类。特别地，对于基于树的方法，该方法似乎最有效，因为数据获得关于编码的分类特征的其他值的结构的附加信息。

注意事项

在使用这些编码技术时，有一些事情需要注意，因为我们不希望目标变量泄漏出现在新的编码特征中。

如果在训练和验证数据分离之前执行了目标编码，那么它可能仅仅是与验证数据相匹配，结果可能不可靠。因此，应该在训练和验证数据分离后进行编码。
这种方法在特性可能具有数据中罕见的值的情况下可能会失败。

我们可以使用一些正则化方法来克服目标编码中的缺陷。

通过使用目标编码，我们可以超越one-hot编码，将分类变量输入到机器学习模型中。

网站首页 > 技术文章正文

机器学习中的目标编码目标编号

示例1：二元分类任务

示例2：回归任务

注意事项

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 技术文章 正文

机器学习中的目标编码 目标编号

示例1：二元分类任务

示例2：回归任务

注意事项

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 技术文章正文

机器学习中的目标编码目标编号

取消回复欢迎你发表评论: