计算机系统应用教程网站

网站首页 > 技术文章 正文

今日话题:数据预处理之独热编码(OneHotCode)

btikc 2024-10-12 13:22:07 技术文章 18 ℃ 0 评论

在AI实际应用场景中,对于数据的预处理直接影响建模的效果和准确性。一般来说,建模采集到的数据都是不能直接用于机器学习的,都要经过数据预处理。

本文讲解一种数据预处理方法呢--独热编码(OneHotCode)。该方法可以用于标称数据转换成数值数据,也可以用于缺失值数据的处理。其实方法的原理特别简单,将原数据映射出二进制向量的形式,举两个应用场景大家就清楚了。

1)标称型数据转数值型数据

如 职称等级(初级;中级;高级)

编码结果 : 初级->(1,0,0)

中级->(0,1,0)

高级->(0,0,1)

2) 缺失值处理

缺失值有几种处理方式,如 定值替换;均值替换;插值替换等等。但是有些时候我们也要考虑业务场景,比如医学数据,对于缺失值我们不能主管的选择一种处理方式来填充缺失值。这时候独热编码就发挥优势了。

特别是对于连续型的缺失值数据,又不能用值替换的补充方式来替换,也可以通过结合业务场景,将数值型数据 通过区间的方法 先转换成标称数据,这样就可以用上述方法处理缺失数据了。

如:语文分数(99,94,95,87,45,缺失值;缺失值;...) 连续型

转成标称数据-->

语文分数(100-80;80-60;<60;缺失值)变成4类

再用独热编码-->

语文分数 (1,0,0,0) (0,1,0,0) (0,0,1,0) (0,0,0,1)

当然将连续性数据转成标称数据时,可以根据模型效果和业务场景选择合适的属性区间,才能训练出最优的并且符合业务解释的模型。



如果大家希望了解更多关于人工智能领域的知识,可以关注我们的头条号,如果大家有关于AI人工智能领域的相关问题或开发接入需求的,也可以直接私信我们。

AI技术联盟,致力于为用户提供最新、最好的AI学习知识,并为用户提供私有化AI领域相关专业化开发外包服务。

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表