数据增强为了解决什么问题?
机器学习、深度学习等一众AI技术中,数据增强技术已成为一种长江技术。在分析模型在测试数据集中表现不好的时候,经常会提及数据集不够导致模型泛化能力不佳。解决模型泛化能力不佳中,增加数据多样性是一种比较有效的方法。
现实情况中,限制于打标数据不足等问题,增加真实数据难度较大。为解决真实数据不足的难题,数据增强技术应运而生。通常,数据增强技术是通过修改原始数据,实现模拟真实场景,从而生产新的数据。
数据增强的本质是为了丰富数据多样性,提高模型的泛化能力。
数据增强用在哪里场景中?
数据增强技术的本质,是为了解决因真实数据缺少而导致的模型的泛化能力不足问题。目前数据增强技术在CV,NLP中使用较多,但该技术也不是随意使用。既然数据增加的本质是模拟真实场景,那么生产的数据真实性就显得尤为重要。数据增强技术在CV和NLP中大放光彩最本质的原因是,其生产的数据可以人工评价,从而保障数据的真实性。同时,在CV和NLP中常用的数据增强技术也是固定的集中,经过长期实践的几种,如图片旋转、剪裁、增加噪声数据等。
数据增强用不建议在哪里场景中?
首先,数据增强技术是为了提高模型的泛化能力。在使用数据增强技术前,要查看模型在训练数据中的准确性,保证模型已充分学习训练数据。泛化能力不足的本质是模型过拟合。倘如模型在训练数据中尚且没有达到相关精度,就更谈不上减少模型的过拟合。
其次,在数据挖掘中不建议使用数据增强技术。其最根本的原因是,数据挖掘面临的数据是多领域的,且不同领域间数据区别较大。已知的SMOTE等数据增强方法产生的数据,无法进行评价其与真实数据的差距。盲目使用数据增强技术造数据进行模型训练,可能导致模型走向不可控,后续优化无迹可寻。
除数据增强技术外,还有其他可以选择吗?
数据增强技术目的是解决模型泛化不足问题,根本原因是打标后的训练数据不足。
模型训练的主要矛盾是,日益增长的随时间变化的无标签数据数量与陈旧的有标签数据数量不均衡。翻译过来就是,随着时间变化,新产生的数据越来越多,且相关数据特征产生微妙变化。尤其是风控领域的猫和老鼠游戏,老鼠为规避猫的抓捕通常会反侦察猫的行为从而进行规避。久而久之就会产生数据特征变换,也就是decay。
针对数据的decay,数据增强技术是无解的。因为数据增强的本质是稍微改变真实数据,从而明白模型分割边界,提高模型的泛化能力。但是,数据decay是真实数据已产生的变化,增强后的数据是无法新增新数据的特征。
旧的数据多样性不够,新的数据未打标,如何提高模型泛化能力?
小步快跑加半监督学习是一种有效的方法。
通过半监督学习技术,将未打标的数据引入到模型训练中,可以提升模型的泛化能力。究其原因,半监督学习是通过旧数据训练后的模型,对未达标的数据进行打标。其打标的依据是,新的数据并未完全失去旧数据的特点但又具有新数据特点,通过旧数据的特点打入标签,从而实现在标签中引入新数据。
但是通过半监督学习引入数据,又是一种具有较大风险行为。半监督学习在引入新数据的过程中,有可能将模型带偏。加上现在模型的学习能力较强,从而诱发模型不可控。
通过小步快跑,引入部分未打标签数据,周期性迭代线上模型也可以摆托数据增强,提高模型泛化能力。
但其中又有很多小技巧需要使用,我们就留在后续的文章中吧。
本文暂时没有评论,来添加一个吧(●'◡'●)