机器学习中如何选择合适的算法?
选择实际可用的算法必须考虑下面两个问题:
·一、使用机器学习算法的目的。想要算法完成何种任务,比如是预测明天下雨的概率,还是对投票者按照兴趣分组。
·二、需要分析或收集的数据是什么?首先考虑使用机器学习算法的目的。
→如果想要预测目标变量的值,则可以选择监督学习算法,否则可以选择无监督学习算法。
→确定选择监督学习算法之后,需要进一步确定目标变量类型。
→如果目标变量是离散型,如是/否、1/2/3、ABC或者红/黄/黑等,则可以选择分类算法。
→如果目标变量是连续型的数值,如0.0-100.00、-999~999等,则需要选择回归算法。
→如果不想预测目标变量的值,则可以选择无监督学习算法,进一步分析是否需要将数据划分为离散的组。
→如果这是唯一的需求,则使用聚类算法。
→如果还需要估计数据与每个分组的相似程度,则需要使用密度估算法。
在大多数情况下,上面给出的选择方法都能帮助你选择恰当的机器学习算法。
·之后需要考虑的是数据问题,应该非常充分了解数据的以下特性:特征值是离散型变量还是连续型变量?特征值中是否存在缺失的值?何种原因造成缺失值?数据中是否存在异常值?某个特征发生的频率如何?(是否罕见得如同哈雷彗星)等等。充分了解上面提到的这些数据特性可以缩短选择机器学习算法的时间。
喜欢就请关注哦!
本文暂时没有评论,来添加一个吧(●'◡'●)