网站首页 > 技术文章 正文
在AI实际应用场景中,对于数据的预处理直接影响建模的效果和准确性。一般来说,建模采集到的数据都是不能直接用于机器学习的,都要经过数据预处理。
本文讲解一种数据预处理方法呢--独热编码(OneHotCode)。该方法可以用于标称数据转换成数值数据,也可以用于缺失值数据的处理。其实方法的原理特别简单,将原数据映射出二进制向量的形式,举两个应用场景大家就清楚了。
1)标称型数据转数值型数据
如 职称等级(初级;中级;高级)
编码结果 : 初级->(1,0,0)
中级->(0,1,0)
高级->(0,0,1)
2) 缺失值处理
缺失值有几种处理方式,如 定值替换;均值替换;插值替换等等。但是有些时候我们也要考虑业务场景,比如医学数据,对于缺失值我们不能主管的选择一种处理方式来填充缺失值。这时候独热编码就发挥优势了。
特别是对于连续型的缺失值数据,又不能用值替换的补充方式来替换,也可以通过结合业务场景,将数值型数据 通过区间的方法 先转换成标称数据,这样就可以用上述方法处理缺失数据了。
如:语文分数(99,94,95,87,45,缺失值;缺失值;...) 连续型
转成标称数据-->
语文分数(100-80;80-60;<60;缺失值)变成4类
再用独热编码-->
语文分数 (1,0,0,0) (0,1,0,0) (0,0,1,0) (0,0,0,1)
当然将连续性数据转成标称数据时,可以根据模型效果和业务场景选择合适的属性区间,才能训练出最优的并且符合业务解释的模型。
如果大家希望了解更多关于人工智能领域的知识,可以关注我们的头条号,如果大家有关于AI人工智能领域的相关问题或开发接入需求的,也可以直接私信我们。
AI技术联盟,致力于为用户提供最新、最好的AI学习知识,并为用户提供私有化AI领域相关专业化开发外包服务。
- 上一篇: 大数据人才,到底应具备哪些技能?
- 下一篇: 08-人人都懂的人工智能:高维的one-hot编码
猜你喜欢
- 2024-10-12 数据预处理-分类变量数据编码 分类变量数据分析
- 2024-10-12 程序员深夜用Python跑神经网络,只为用中二动作关掉台灯
- 2024-10-12 Pandas第十三课:特征工程与数据预处理
- 2024-10-12 CVPR2019 | 面对高度不均衡数据如何提高精度?这篇文章有妙招
- 2024-10-12 数据特征常用构建方法详解及实例 数据特征包括哪些?
- 2024-10-12 “千克”和“毫升”:单位不同就不能做朋友了吗?
- 2024-10-12 a和one的区别 a与one区别
- 2024-10-12 手把手教你做客户挽留模型【纯技术】
- 2024-10-12 机器学习中的独热编码,你知道多少?
- 2024-10-12 One Hot Encoder 在机器学习分类模型中的重要性
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)