计算机系统应用教程网站

网站首页 > 技术文章 正文

sklearn分类模型汇总 sklearn svm分类

btikc 2024-10-11 11:21:47 技术文章 3 ℃ 0 评论

sklearn分类模型汇总

Support Vector Machine algorithms

svm.LinearSVC函数参数:

  • penalty:{‘l1’, ‘l2’}, default=’l2’,正则化方法。
  • loss:{‘hinge’, ‘squared_hinge’}, default=’squared_hinge’,loss函数。
  • dual:“auto” or bool, default=True,选择算法来解决对偶或原始优化问题。
  • tol:default=1e-4,tolerance for stopping criteria。
  • C:float, default=1.0,正则化大小。
  • multi_class:{‘ovr’, ‘crammer_singer’}, default=’ovr’
  • fit_intercept:bool, default=True
  • intercept_scaling:float, default=1.0,”b“的大小。
  • class_weight:dict or ‘balanced’, default=None,标签权重列表。
  • verbose:default=0,启用详细输出。
  • random_state:随机数种子, default=None
  • max_iterint:default=1000,要运行的最大迭代次数。

svm.NuSVC函数参数:

  • nu:default=0.5,边际误差分数的上限和支持向量分数的下限,应在区间 (0, 1] 内。
  • kernel:{‘linear’, ‘poly’, ‘rbf’, ‘sigmoid’, ‘precomputed’} or callable, default=’rbf’,核函数。
  • degree:default=3,多项式核函数的次数(‘poly’),必须是非负数。其他内核忽略。
  • coef0:default=0.0,核函数中的独立项。它仅在“poly”和“sigmoid”中有意义。
  • shrinking:default=True,是否使用收缩启发式。
  • probability:default=False,是否启用概率估计。
  • cache_size:default=200,指定内核缓存的大小(以 MB 为单位)。
  • tol:default=1e-4,tolerance for stopping criteria。
  • class_weight:dict or ‘balanced’, default=None,标签权重列表。
  • verbose:default=0,启用详细输出。
  • random_state:随机数种子, default=None
  • max_iterint:default=1000,要运行的最大迭代次数。
  • decision_function_shape:{‘ovo’, ‘ovr’}, default=’ovr’。

svm.SVC函数参数:

  • C:float, default=1.0,正则化大小。
  • kernel:{‘linear’, ‘poly’, ‘rbf’, ‘sigmoid’, ‘precomputed’} or callable, default=’rbf’,核函数。
  • degree:default=3,多项式核函数的次数(‘poly’),必须是非负数。其他内核忽略。
  • gamma:{‘scale’, ‘auto’} or float, default=’scale’,“rbf”、“poly”和“sigmoid”的核系数。
  • coef0:default=0.0,核函数中的独立项。它仅在“poly”和“sigmoid”中有意义。
  • shrinking:default=True,是否使用收缩启发式。
  • probability:default=False,是否启用概率估计。
  • cache_size:default=200,指定内核缓存的大小(以 MB 为单位)。
  • tol:default=1e-4,tolerance for stopping criteria。
  • class_weight:dict or ‘balanced’, default=None,标签权重列表。
  • verbose:default=0,启用详细输出。
  • random_state:随机数种子, default=None
  • max_iterint:default=1000,要运行的最大迭代次数。
  • decision_function_shape:{‘ovo’, ‘ovr’}, default=’ovr’。

Decision tree-based models

tree.DecisionTreeClassifier函数参数:

  • criterion:{“gini”, “entropy”, “log_loss”}, default=”gini”,衡量分割质量的函数。
  • splitter:{“best”, “random”}, default=”best”,用于在每个节点选择分裂的策略。
  • min_samples_split:int or float, default=2,分裂内部节点所需的最小样本数。
  • min_samples_leaf:int or float, default=1,叶节点所需的最小样本数。任何深度的分割点只有在左右分支中至少留下 min_samples_leaf 训练样本时才会被考虑。这可能具有平滑模型的效果,尤其是在回归中。
  • min_weight_fraction_leaf:default=0.0,叶节点处所需的(所有输入样本的)权重总和的最小加权分数。当未提供sample_weight时,样本具有相同的权重。
  • max_features:int, float or {“sqrt”, “log2”}, default=None,寻找最佳分割时要考虑的特征数量。
  • random_state:随机数种子, default=None。
  • max_leaf_nodes:int, default=None。
  • min_impurity_decrease:float, default=0.0,如果分裂导致杂质减少大于或等于该值,则节点将被分裂。
  • class_weight:dict or ‘balanced’, default=None,标签权重列表。
  • ccp_alpha:non-negative float, default=0.0,用于最小成本复杂性修剪的复杂性参数。将选择成本复杂度最大且小于 ccp_alpha 的子树。默认情况下,不执行修剪。
  • monotonic_cst:array-like of int of shape (n_features), default=None,表示对每个特征执行的单调性约束。

tree.ExtraTreeClassifier函数参数:

  • criterion:{“gini”, “entropy”, “log_loss”}, default=”gini”,衡量分割质量的函数。
  • splitter:{“best”, “random”}, default=”best”,用于在每个节点选择分裂的策略。
  • max_depthint, default=None,树的最大深度。如果没有,则扩展节点,直到所有叶子都是纯的或直到所有叶子包含少于 min_samples_split 样本。
  • min_samples_split:int or float, default=2,分裂内部节点所需的最小样本数。
  • min_samples_leaf:int or float, default=1,叶节点所需的最小样本数。任何深度的分割点只有在左右分支中至少留下 min_samples_leaf 训练样本时才会被考虑。这可能具有平滑模型的效果,尤其是在回归中。
  • min_weight_fraction_leaf:default=0.0,叶节点处所需的(所有输入样本的)权重总和的最小加权分数。当未提供sample_weight时,样本具有相同的权重。
  • max_features:int, float or {“sqrt”, “log2”}, default=None,寻找最佳分割时要考虑的特征数量。
  • random_state:随机数种子, default=None。
  • max_leaf_nodes:int, default=None。
  • min_impurity_decrease:float, default=0.0,如果分裂导致杂质减少大于或等于该值,则节点将被分裂。
  • class_weight:dict or ‘balanced’, default=None,标签权重列表。
  • ccp_alpha:non-negative float, default=0.0,用于最小成本复杂性修剪的复杂性参数。将选择成本复杂度最大且小于 ccp_alpha 的子树。默认情况下,不执行修剪。
  • monotonic_cst:array-like of int of shape (n_features), default=None,表示对每个特征执行的单调性约束。

Neural network models

neural_network.BernoulliRBM函数参数:

  • n_components:int, default=256,二进制隐藏单元的数量。
  • learning_rate:float, default=0.1。
  • batch_size:int, default=10。
  • n_iter:int, default=10。
  • verbose:int, default=0。
  • random_state:int, RandomState instance or None, default=None。

neural_network.MLPClassifier函数参数:

  • hidden_layer_sizes:array-like of shape(n_layers - 2,), default=(100,)。
  • activation:{‘identity’, ‘logistic’, ‘tanh’, ‘relu’}, default=’relu’,隐藏层的激活函数。
  • solver:{‘lbfgs’, ‘sgd’, ‘adam’}, default=’adam’,用于权重优化的求解器。
  • alpha:float, default=0.0001,L2 正则化项的强度。添加到损失时,L2 正则化项除以样本大小。
  • batch_size:int, default=’auto’。
  • learning_rate:{‘constant’, ‘invscaling’, ‘adaptive’}, default=’constant’。
  • learning_rate_init:float, default=0.001。
  • power_t:float, default=0.5,逆缩放学习率的指数。当learning_rate设置为“invscaling”时,它用于更新有效学习率。仅当solver=’sgd’时使用。
  • max_iter:int, default=200。
  • shuffle:bool, default=True,是否在每次迭代中对样本进行打乱。仅当solver=’sgd’或’adam’时使用。
  • random_state:int, RandomState instance or None, default=None。
  • tol:float, default=1e-4,优化的容忍度。如果连续迭代 n_iter_no_change,损失或得分都没有至少提高 tol,除非 learning_rate 设置为 "自适应",否则就会认为已经达到收敛,并停止训练。
  • verbose:bool, default=False
  • warm_start:bool, default=False,当设置为 True 时,重用先前调用的解来拟合作为初始化,否则,只需擦除先前的解。
  • momentum:float, default=0.9,梯度下降更新的动量。应介于 0 和 1 之间。仅当solver=’sgd’时使用。
  • nesterovs_momentum:bool, default=True,是否使用涅斯捷罗夫动量。仅在求解器='sgd'且动量大于 0 时使用。
  • early_stopping:bool, default=False。
  • validation_fraction:float, default=0.1,留作早期停止验证集的训练数据比例。必须介于 0 和 1 之间。仅在 Early_stopping 为 True 时使用。
  • beta_1:float, default=0.9。
  • beta_2:float, default=0.999。
  • epsilon:float, default=1e-8。
  • n_iter_no_change:int, default=10。
  • max_fun:int, default=15000,仅当solver=’lbfgs’时使用。损失函数调用的最大次数。求解器迭代直至收敛(由“tol”确定)、迭代次数达到 max_iter 或损失函数调用次数。请注意,损失函数调用的次数将大于或等于 MLPClassifier 的迭代次数。

Naive Bayes

naive_bayes.CategoricalNB函数参数:

  • alpha:float, default=1.0,加性 (Laplace/Lidstone) 平滑参数(设置 alpha=0 且force_alpha=True,不进行平滑)。
  • force_alpha:bool, default=True,如果为 False 并且 alpha 小于 1e-10,则将 alpha 设置为 1e-10。如果为 True,则 alpha 将保持不变。如果 alpha 太接近 0,这可能会导致数值错误。
  • fit_prior:bool, default=True,是否学习类先验概率。如果为 false,则将使用统一先验。
  • class_prior:array-like of shape (n_classes,), default=None,类别的先验概率。如果指定,则不会根据数据调整先验。
  • min_categories:int or array-like of shape (n_features,),每个特征的最少类别数。

naive_bayes.GaussianNB函数参数:

  • priors:array-like of shape (n_classes,), default=None,类别的先验概率。如果指定,则不会根据数据调整先验。
  • var_smoothing:float, default=1e-9,为了计算稳定性而添加到方差中的所有特征的最大方差的部分。

k-nearest neighbors algorithm

neighbors.KNeighborsClassifier函数参数:

  • n_neighbors:int, default=5。
  • weights:{‘uniform’, ‘distance’}, callable or None, default=’uniform’。
  • weights:{‘uniform’, ‘distance’}, callable or None, default=’uniform’。
  • leaf_size:int, default=30,叶子大小传递给 BallTree 或 KDTree。这会影响构建和查询的速度以及存储树所需的内存。最佳值取决于问题的性质。
  • p:float, default=2,闵可夫斯基度量的功效参数。当 p = 1 时,这相当于使用 manhattan_distance (l1),而 p = 2 时则使用 euclidean_distance (l2)。对于任意 p,使用 minkowski_distance (l_p)。该参数预计为正。
  • metric:str or callable,default=’minkowski’,用于距离计算的度量。默认值为“minkowski”,当 p = 2 时,这会产生标准欧几里得距离。
  • metric_params:dict, default=None,度量函数的附加关键字参数。
  • n_jobs:int, default=None。
    neighbors.RadiusNeighborsClassifier函数参数:
  • radius:float, default=1.0,radius_neighbors 查询默认使用的参数空间范围。
  • weights:{‘uniform’, ‘distance’}, callable or None, default=’uniform’。
  • weights:{‘uniform’, ‘distance’}, callable or None, default=’uniform’。
  • leaf_size:int, default=30,叶子大小传递给 BallTree 或 KDTree。这会影响构建和查询的速度以及存储树所需的内存。最佳值取决于问题的性质。
  • p:float, default=2,闵可夫斯基度量的功效参数。当 p = 1 时,这相当于使用 manhattan_distance (l1),而 p = 2 时则使用 euclidean_distance (l2)。对于任意 p,使用 minkowski_distance (l_p)。该参数预计为正。
  • metric:str or callable,default=’minkowski’,用于距离计算的度量。默认值为“minkowski”,当 p = 2 时,这会产生标准欧几里得距离。
    outlier_label:{manual label, ‘most_frequent’}, default=None,离群样本的标签(给定半径内没有邻居的样本)。
  • metric_params:dict, default=None,度量函数的附加关键字参数。
  • n_jobs:int, default=None。

Linear Models

linear_model.LogisticRegression函数参数:

  • penalty:{‘l1’, ‘l2’, ‘elasticnet’, None}, default=’l2’。
  • dual:bool, default=False,对偶(约束)或原始公式。对偶公式仅适用于使用liblinear求解器的 l2 惩罚。当 n_samples > n_features 时,首选 Dual=False。
  • tol:float, default=1e-4。
  • C:float, default=1.0,正则化强度的倒数;必须是正浮动。与支持向量机一样,较小的值指定更强的正则化。
  • fit_intercept:bool, default=True,指定是否应将常数(也称为偏差或截距)添加到决策函数中。
  • intercept_scaling:float, default=1,仅当使用求解器“liblinear”且 self.fit_intercept 设置为 True 时才有用。在这种情况下,x 变为 [x, self.intercept_scaling],即,将常数值等于截距缩放的“合成”特征附加到实例向量。截距变为intercept_scaling * synthetic_feature_weight。
  • class_weight:dict or ‘balanced’, default=None。
  • random_state:int, RandomState instance, default=None。
  • solver:{‘lbfgs’, ‘liblinear’, ‘newton-cg’, ‘newton-cholesky’, ‘sag’, ‘saga’}, default=’lbfgs’,在优化问题中使用的算法。

linear_model.PassiveAggressiveClassifier函数参数:

  • C:float, default=1.0,正则化强度的倒数;必须是正浮动。与支持向量机一样,较小的值指定更强的正则化。
  • fit_intercept:bool, default=True,指定是否应将常数(也称为偏差或截距)添加到决策函数中。
  • max_iter:int, default=1000。
  • tol:float, default=1e-3。
  • early_stopping:bool, default=False,当验证分数没有提高时是否使用提前停止来终止训练。如果设置为 True,它将自动留出训练数据的分层部分作为验证,并在 n_iter_no_change 连续 epoch 的验证分数未提高至少 tol 时终止训练。
  • validation_fraction:float, default=0.1,留作早期停止验证集的训练数据比例。必须介于 0 和 1 之间。仅在 Early_stopping 为 True 时使用。
  • n_iter_no_change:int, default=5,在提前停止之前等待没有改进的迭代次数。
  • shuffle:bool, default=True
  • verbose:int, default=0
  • loss:str, default=”hinge”,要使用的损失函数:hinge:相当于参考论文中的PA-I。 squared_hinge:相当于参考论文中的PA-II。
  • n_jobs:int or None, default=None
  • random_state:int, RandomState instance, default=None
  • warm_start:bool, default=False,当设置为 True 时,重用先前调用的解来拟合作为初始化,否则,只需擦除先前的解。
  • average:bool or int, default=False,设置为 True 时,计算平均 SGD 权重并将结果存储在 coef_ 属性中。如果设置为大于 1 的整数,则一旦看到的样本总数达到平均值,就会开始求平均值。因此,average=10 将在查看 10 个样本后开始求平均值。

linear_model.Perceptron函数参数:

  • penalty:{‘l1’, ‘l2’, ‘elasticnet’, None}, default=’l2’。
  • alpha:float, default=0.0001,如果使用正则化,则与正则化项相乘的常数。
  • l1_ratio:float, default=0.15,Elastic Net混合参数,0 <= l1_ratio <= 1。l1_ratio=0对应L2惩罚,l1_ratio=1对应L1。仅当penalty='elasticnet'时使用。
  • fit_intercept:bool, default=True,指定是否应将常数(也称为偏差或截距)添加到决策函数中。
  • max_iter:int, default=1000。
  • tol:float, default=1e-3。
  • shuffle:bool, default=True
  • verbose:int, default=0
  • eta0:float, default=1,更新所乘的常数。
  • n_jobs:int or None, default=None
  • random_state:int, RandomState instance, default=None
  • early_stopping:bool, default=False,当验证分数没有提高时是否使用提前停止来终止训练。如果设置为 True,它将自动留出训练数据的分层部分作为验证,并在 n_iter_no_change 连续 epoch 的验证分数未提高至少 tol 时终止训练。
  • validation_fraction:float, default=0.1,留作早期停止验证集的训练数据比例。必须介于 0 和 1 之间。仅在 Early_stopping 为 True 时使用。
  • n_iter_no_change:int, default=5,在提前停止之前等待没有改进的迭代次数。
  • class_weight:dict, {class_label: weight} or “balanced” or None, default=None
  • warm_start:bool, default=False,当设置为 True 时,重用先前调用的解来拟合作为初始化,否则,只需擦除先前的解。

linear_model.RidgeClassifier函数参数:

  • alpha:float, default=1.0,如果使用正则化,则与正则化项相乘的常数。
  • fit_intercept:bool, default=True,是否计算该模型的截距。如果设置为 false,则在计算中不会使用截距(例如,数据预计已居中)。
  • copy_X:bool, default=True,如果为 True,则 X 将被复制;否则,它可能会被覆盖。
  • max_iter:int, default=None
  • tol:float, default=1e-4,解的精度 (coef_) 由 tol 确定,它为每个求解器指定不同的收敛标准。
  • class_weight:dict, {class_label: weight} or “balanced” or None, default=None
  • solver:{‘lbfgs’, ‘liblinear’, ‘newton-cg’, ‘newton-cholesky’, ‘sag’, ‘saga’}, default=’lbfgs’,在优化问题中使用的算法。
  • positive:bool, default=False,设置为 True 时,强制系数为正。在这种情况下,仅支持“lbfgs”求解器。
  • random_state:int, RandomState instance, default=None

linear_model.SGDClassifier函数参数:

  • loss:{‘hinge’, ‘log_loss’, ‘modified_huber’, ‘squared_hinge’, ‘perceptron’, ‘squared_error’, ‘huber’, ‘epsilon_insensitive’, ‘squared_epsilon_insensitive’}, default=’hinge’
  • penalty:{‘l2’, ‘l1’, ‘elasticnet’, None}, default=’l2’
  • alpha:float, default=0.0001,如果使用正则化,则与正则化项相乘的常数。
  • l1_ratio:float, default=0.15,Elastic Net混合参数,0 <= l1_ratio <= 1。l1_ratio=0对应L2惩罚,l1_ratio=1对应L1。仅当penalty='elasticnet'时使用。
  • fit_intercept:bool, default=True,是否计算该模型的截距。如果设置为 false,则在计算中不会使用截距(例如,数据预计已居中)。
  • max_iter:int, default=1000
  • tol:float, default=1e-3,停止标准。如果不是 None,则当 n_iter_no_change 连续 epoch 的 (loss > best_loss - tol) 时,训练将停止。根据 Early_stopping 参数,根据训练损失或验证损失检查收敛性。值必须在 [0.0, inf) 范围内。
  • shuffle:bool, default=True
  • verbose:int, default=0
  • epsilon:float, default=0.1,对 epsilon 不敏感的损失函数中的 Epsilon;仅当损失为“huber”、“epsilon_insensitive”或“squared_epsilon_insensitive”时。对于“huber”,确定阈值,在该阈值下,获得准确预测变得不那么重要。对于 epsilon 不敏感,如果当前预测和正确标签之间的任何差异小于此阈值,则忽略它们。值必须在 [0.0, inf) 范围内。
  • n_jobs:int, default=None
  • random_state:int, RandomState instance, default=None
  • learning_rate:str, {‘constant’,‘optimal’,‘invscaling’,‘adaptive’},default=’optimal’。
  • eta0:float, default=0.0,“恒定”、“逆缩放”或“自适应”计划的初始学习率。默认值为 0.0,因为默认计划“最佳”不使用 eta0。值必须在 [0.0, inf) 范围内。
  • power_t:float, default=0.5,逆缩放学习率的指数。值必须在 (-inf, inf) 范围内。
  • early_stopping:bool, default=False,当验证分数没有提高时是否使用提前停止来终止训练。如果设置为 True,它将自动留出训练数据的分层部分作为验证,并在 n_iter_no_change 连续 epoch 的验证分数未提高至少 tol 时终止训练。
  • validation_fraction:float, default=0.1,留作早期停止验证集的训练数据比例。必须介于 0 和 1 之间。仅在 Early_stopping 为 True 时使用。
  • n_iter_no_change:int, default=5,在提前停止之前等待没有改进的迭代次数。
  • class_weight:dict, {class_label: weight} or “balanced” or None, default=None
  • warm_start:bool, default=False,当设置为 True 时,重用先前调用的解来拟合作为初始化,否则,只需擦除先前的解。
  • average:bool or int, default=False,当设置为 True 时,计算所有更新的平均 SGD 权重并将结果存储在 coef_ 属性中。如果设置为大于 1 的整数,则一旦看到的样本总数达到平均值,就会开始求平均值。因此,average=10 将在查看 10 个样本后开始求平均值。整数值必须在 [1, n_samples] 范围内。

linear_model.SGDOneClassSVM函数参数:

  • nu:float, default=0.5,One Class SVM 的 nu 参数:训练误差分数的上限和支持向量分数的下限。应在区间 (0, 1] 内。默认为 0.5。
  • fit_intercept:bool, default=True,是否计算该模型的截距。如果设置为 false,则在计算中不会使用截距(例如,数据预计已居中)。
  • max_iter:int, default=1000
  • tol:float, default=1e-3,停止标准。如果不是 None,则当 n_iter_no_change 连续 epoch 的 (loss > best_loss - tol) 时,训练将停止。根据 Early_stopping 参数,根据训练损失或验证损失检查收敛性。值必须在 [0.0, inf) 范围内。
  • shuffle:bool, default=True
  • verbose:int, default=0
  • random_state:int, RandomState instance, default=None
  • learning_rate:str, {‘constant’,‘optimal’,‘invscaling’,‘adaptive’},default=’optimal’。
  • eta0:float, default=0.0,“恒定”、“逆缩放”或“自适应”计划的初始学习率。默认值为 0.0,因为默认计划“最佳”不使用 eta0。值必须在 [0.0, inf) 范围内。
  • power_t:float, default=0.5,逆缩放学习率的指数。值必须在 (-inf, inf) 范围内。
  • warm_start:bool, default=False,当设置为 True 时,重用先前调用的解来拟合作为初始化,否则,只需擦除先前的解。
  • average:bool or int, default=False,当设置为 True 时,计算所有更新的平均 SGD 权重并将结果存储在 coef_ 属性中。如果设置为大于 1 的整数,则一旦看到的样本总数达到平均值,就会开始求平均值。因此,average=10 将在查看 10 个样本后开始求平均值。整数值必须在 [1, n_samples] 范围内。

Gaussian Processes

gaussian_process.GaussianProcessClassifier函数参数:

  • kernel:kernel instance, default=None,指定 GP 协方差函数的内核。如果没有传递,则默认使用内核“1.0 * RBF(1.0)”。请注意,内核的超参数在拟合过程中进行了优化。此外,内核不能是CompoundKernel。
  • optimizer:‘fmin_l_bfgs_b’, callable or None, default=’fmin_l_bfgs_b’,可以是用于优化内核参数的内部支持的优化器之一(由字符串指定),也可以是作为可调用传递的外部定义的优化器。
  • n_restarts_optimizer:int, default=0,优化器重新启动的次数,以查找最大化对数边际似然的内核参数。优化器的第一次运行是根据内核的初始参数执行的,其余参数(如果有)从允许的 θ 值空间中随机采样对数均匀的 θ。如果大于 0,则所有界限都必须是有限的。请注意,n_restarts_optimizer=0 意味着执行一次运行。
  • max_iter_predict:int, default=100,牛顿法在预测过程中逼近后验的最大迭代次数。较小的值会减少计算时间,但代价是结果更差。
  • warm_start:bool, default=False,如果启用热启动,则后验模式的拉普拉斯近似的最后一次牛顿迭代的解将用作下一次调用 _posterior_mode() 的初始化。当针对超参数优化中的类似问题多次调用 _posterior_mode 时,这可以加快收敛速度?。
  • copy_X_train:bool, default=True,如果为 True,则训练数据的持久副本将存储在对象中。否则,仅存储对训练数据的引用,如果外部修改数据,则可能会导致预测发生变化。
  • random_state:int, RandomState instance or None, default=None
  • multi_class:{‘one_vs_rest’, ‘one_vs_one’},default=’one_vs_rest’,指定如何处理多类分类问题。支持“one_vs_rest”和“one_vs_one”。在“one_vs_rest”中,为每个类别安装一个二元高斯过程分类器,该分类器经过训练以将此类与其余类别分开。在“one_vs_one”中,为每一对类安装一个二元高斯过程分类器,该分类器经过训练以分离这两个类。这些二元预测器的预测被组合成多类预测。请注意,“one_vs_one”不支持预测概率估计。
  • n_jobs:int, default=None

Ensemble Methods

ensemble.AdaBoostClassifier函数参数:

  • estimator:object, default=None,构建增强整体的基本估计器。需要支持样本权重,以及适当的classes_和n_classes_属性。如果无,则基本估计器是使用 max_depth=1 初始化的 DecisionTreeClassifier。
  • n_estimators:int, default=50,终止 boosting 的估计器的最大数量。如果完美契合,学习过程就会提前停止。值必须在 [1, inf) 范围内。
  • learning_rate:float, default=1.0,在每次提升迭代时应用于每个分类器的权重。较高的学习率会增加每个分类器的贡献。 Learning_rate 和 n_estimators 参数之间存在权衡。值必须在 (0.0, inf) 范围内。
  • algorithm:{‘SAMME’, ‘SAMME.R’}, default=’SAMME.R’,如果“SAMME.R”,则使用 SAMME.R 真实增强算法。估计器必须支持类概率的计算。如果“SAMME”,则使用 SAMME 离散增强算法。 SAMME.R 算法通常比 SAMME 收敛得更快,从而通过更少的提升迭代实现更低的测试误差。
  • random_state:int, RandomState instance or None, default=None

ensemble.BaggingClassifier函数参数:

  • estimator:object, default=None,用于拟合数据集的随机子集的基本估计器。如果没有,则基本估计器是 DecisionTreeClassifier。
  • n_estimators:int, default=10,集成中基本估计器的数量。
  • max_samples:int or float, default=1.0,从 X 中抽取用于训练每个基本估计器的样本数量(默认情况下进行替换,更多详细信息请参阅 bootstrap)。
  • max_features:int or float, default=1.0,从 X 中提取的用于训练每个基本估计器的特征数量(默认情况下不进行替换,请参阅 bootstrap_features 了解更多详细信息)。
  • bootstrap:bool, default=True,是否进行放回抽样。如果为 False,则执行不放回抽样。
  • bootstrap_features:bool, default=False,是否通过替换来绘制特征。
  • oob_score:bool, default=False,是否使用袋外样本来估计泛化误差。仅当 bootstrap=True 时才可用。
  • warm_start:bool, default=False
  • n_jobs:int, default=None
  • random_state:int, RandomState instance, default=None
  • verbose:int, default=0

ensemble.ExtraTreesClassifier函数参数:

  • n_estimators:int, default=100,森林中树的数量。
  • criterion:{“gini”, “entropy”, “log_loss”}, default=”gini”.
  • max_depth:int, default=None,树的最大深度。如果没有,则扩展节点,直到所有叶子都是纯的或直到所有叶子包含少于 min_samples_split 样本。
  • min_samples_split:int or float, default=2,分裂内部节点所需的最小样本数。
  • min_samples_leaf:int or float, default=1,叶节点所需的最小样本数。任何深度的分割点只有在左右分支中至少留下 min_samples_leaf 训练样本时才会被考虑。这可能具有平滑模型的效果,尤其是在回归中。
  • min_weight_fraction_leaf:float, default=0.0,叶节点处所需的(所有输入样本的)权重总和的最小加权分数。当未提供sample_weight时,样本具有相同的权重。
  • max_features:{“sqrt”, “log2”, None}, int or float, default=”sqrt”,寻找最佳分割时要考虑的特征数量。
  • max_leaf_nodes:int, default=None,以最佳优先的方式使用 max_leaf_nodes 来种植树。最佳节点定义为杂质的相对减少。如果没有,则叶节点数量不受限制。
  • min_impurity_decrease:float, default=0.0,如果分裂导致杂质减少大于或等于该值,则节点将被分裂。
  • bootstrap:bool, default=False,构建树时是否使用引导样本。如果为 False,则使用整个数据集来构建每棵树。
  • oob_score:bool or callable, default=False,是否使用袋外样本来估计泛化分数。默认情况下,使用accuracy_score。提供带有签名指标 (y_true, y_pred) 的可调用函数以使用自定义指标。仅当 bootstrap=True 时才可用。
  • n_jobs:int, default=None
  • random_state:int, RandomState instance or None, default=None
  • verbose:int, default=0
  • warm_start:bool, default=False
  • class_weight:{“balanced”, “balanced_subsample”}, dict or list of dicts, default=None,与{class_label:weight}形式的类关联的权重。如果没有给出,则所有类别的权重都应该为一。对于多输出问题,可以按照与 y 的列相同的顺序提供字典列表。
  • ccp_alpha:non-negative float, default=0.0,用于最小成本复杂性修剪的复杂性参数。将选择成本复杂度最大且小于 ccp_alpha 的子树。默认情况下,不执行修剪。
  • max_samples:int or float, default=None,如果 bootstrap 为 True,则从 X 中抽取样本数来训练每个基本估计器。
  • monotonic_cst:array-like of int of shape (n_features), default=None,指示对每个特征强制执行的单调性约束。

ensemble.GradientBoostingClassifier函数参数:

  • loss:{‘log_loss’, ‘exponential’}, default=’log_loss’
  • learning_rate:float, default=0.1,学习率通过learning_rate缩小每棵树的贡献。 Learning_rate 和 n_estimators 之间存在权衡。值必须在 [0.0, inf) 范围内。
  • n_estimators:int, default=100,要执行的升压级数。梯度提升对于过度拟合相当稳健,因此大量通常会带来更好的性能。值必须在 [1, inf) 范围内。
  • subsample:float, default=1.0,用于拟合各个基础学习器的样本比例。如果小于 1.0,则会导致随机梯度提升。 subsample 与参数 n_estimators 交互。选择子样本 < 1.0 会导致方差减少和偏差增加。值必须在 (0.0, 1.0] 范围内。
  • criterion:{‘friedman_mse’, ‘squared_error’}, default=’friedman_mse’,衡量分割质量的函数。支持的标准是“friedman_mse”(表示均方误差和 Friedman 改进分数)、“squared_error”(表示均方误差)。 “friedman_mse”的默认值通常是最好的,因为它在某些情况下可以提供更好的近似值。
  • min_samples_split:int or float, default=2,分裂内部节点所需的最小样本数。
  • min_samples_leaf:int or float, default=1,叶节点所需的最小样本数。任何深度的分割点只有在左右分支中至少留下 min_samples_leaf 训练样本时才会被考虑。这可能具有平滑模型的效果,尤其是在回归中。
  • min_weight_fraction_leaf:float, default=0.0,叶节点处所需的(所有输入样本的)权重总和的最小加权分数。当未提供sample_weight时,样本具有相同的权重。值必须在 [0.0, 0.5] 范围内。
  • max_depth:int or None, default=3,各个回归估计器的最大深度。最大深度限制了树中的节点数量。调整此参数以获得最佳性能;最佳值取决于输入变量的相互作用。如果没有,则扩展节点,直到所有叶子都是纯的或直到所有叶子包含少于 min_samples_split 样本。如果是 int,值必须在 [1, inf) 范围内。
  • min_impurity_decrease:float, default=0.0,如果分裂导致杂质减少大于或等于该值,则节点将被分裂。值必须在 [0.0, inf) 范围内。
  • init:estimator or ‘zero’, default=None,用于计算初始预测的估计器对象。 init 必须提供 fit 和 Predict_proba。如果为“零”,则初始原始预测设置为零。默认情况下,使用预测类先验的 DummyEstimator。
  • random_state:int, RandomState instance or None, default=None
  • max_features:{‘sqrt’, ‘log2’}, int or float, default=None
  • verbose:int, default=0
  • max_leaf_nodes:int, default=None,以最佳优先的方式使用 max_leaf_nodes 来种植树。最佳节点定义为杂质的相对减少。值必须在 [2, inf) 范围内。如果无,则叶节点数量不受限制。
  • warm_start:bool, default=False
  • validation_fraction:float, default=0.1,留作早期停止验证集的训练数据比例。值必须在 (0.0, 1.0) 范围内。仅当 n_iter_no_change 设置为整数时才使用。
  • n_iter_no_change:int, default=None,n_iter_no_change 用于决定当验证分数没有提高时是否使用提前停止来终止训练。默认情况下,它设置为 None 以禁用提前停止。如果设置为一个数字,它将保留训练数据的validation_fraction大小作为验证,并在之前的所有n_iter_no_change迭代次数中验证分数没有提高时终止训练。分裂是分层的。值必须在 [1, inf) 范围内。
  • tol:float, default=1e-4,对提前停止的容忍度。当 n_iter_no_change 迭代中损失没有改善至少 tol 时(如果设置为数字),训练停止。值必须在 [0.0, inf) 范围内。
  • ccp_alpha:non-negative float, default=0.0,用于最小成本复杂性修剪的复杂性参数。将选择成本复杂度最大且小于 ccp_alpha 的子树。默认情况下,不执行修剪。值必须在 [0.0, inf) 范围内。

ensemble.RandomForestClassifier函数参数:

  • n_estimators:int, default=100,森林中树的数量。
  • criterion:{“gini”, “entropy”, “log_loss”}, default=”gini”.
  • max_depth:int, default=None,树的最大深度。如果没有,则扩展节点,直到所有叶子都是纯的或直到所有叶子包含少于 min_samples_split 样本。
  • min_samples_split:int or float, default=2,分裂内部节点所需的最小样本数。
  • min_samples_leaf:int or float, default=1,叶节点所需的最小样本数。任何深度的分割点只有在左右分支中至少留下 min_samples_leaf 训练样本时才会被考虑。这可能具有平滑模型的效果,尤其是在回归中。
  • min_weight_fraction_leaf:float, default=0.0,叶节点处所需的(所有输入样本的)权重总和的最小加权分数。当未提供sample_weight时,样本具有相同的权重。
  • max_features:{“sqrt”, “log2”, None}, int or float, default=”sqrt”,寻找最佳分割时要考虑的特征数量。
  • max_leaf_nodes:int, default=None,以最佳优先的方式使用 max_leaf_nodes 来种植树。最佳节点定义为杂质的相对减少。如果没有,则叶节点数量不受限制。
  • min_impurity_decrease:float, default=0.0,如果分裂导致杂质减少大于或等于该值,则节点将被分裂。
  • bootstrap:bool, default=False,构建树时是否使用引导样本。如果为 False,则使用整个数据集来构建每棵树。
  • oob_score:bool or callable, default=False,是否使用袋外样本来估计泛化分数。默认情况下,使用accuracy_score。提供带有签名指标 (y_true, y_pred) 的可调用函数以使用自定义指标。仅当 bootstrap=True 时才可用。
  • n_jobs:int, default=None
  • random_state:int, RandomState instance or None, default=None
  • verbose:int, default=0
  • warm_start:bool, default=False
  • class_weight:{“balanced”, “balanced_subsample”}, dict or list of dicts, default=None,与{class_label:weight}形式的类关联的权重。如果没有给出,则所有类别的权重都应该为一。对于多输出问题,可以按照与 y 的列相同的顺序提供字典列表。
  • ccp_alpha:non-negative float, default=0.0,用于最小成本复杂性修剪的复杂性参数。将选择成本复杂度最大且小于 ccp_alpha 的子树。默认情况下,不执行修剪。
  • max_samples:int or float, default=None,如果 bootstrap 为 True,则从 X 中抽取样本数来训练每个基本估计器。
  • monotonic_cst:array-like of int of shape (n_features), default=None,指示对每个特征强制执行的单调性约束。

ensemble.HistGradientBoostingClassifier函数参数:

  • loss:{‘log_loss’}, default=’log_loss’
  • learning_rate:float, default=0.1
  • max_iter:int, default=100,boosting过程的最大迭代次数,即二元分类的最大树数。对于多类分类,每次迭代都会构建 n_classes 树。
  • max_leaf_nodes:int or None, default=31,每棵树的最大叶子数。必须严格大于 1。如果无,则没有最大限制。
  • max_depth:int or None, default=None,每棵树的最大深度。树的深度是从根到最深叶子的边数。默认情况下,深度不受限制。
  • min_samples_leaf:int, default=20,每片叶子的最小样本数。对于少于几百个样本的小型数据集,建议降低该值,因为只会构建非常浅的树。
  • l2_regularization:float, default=0,L2 正则化参数。使用 0 表示不进行正则化(默认)。
  • max_features:float, default=1.0,每个节点分裂中随机选择的特征的比例。这是正则化的一种形式,较小的值使树的学习能力较弱,并可能防止过度拟合。如果存在来自interaction_cst的交互约束,则子采样仅考虑允许的特征。
  • max_bins:int, default=255,用于非缺失值的最大箱数。在训练之前,输入数组 X 的每个特征都被分箱到整数值箱中,这允许更快的训练阶段。具有少量唯一值的特征可能使用少于 max_bins 的 bin。除了 max_bins bin 之外,还始终为缺失值保留一个 bin。不得大于 255。
  • categorical_features:array-like of {bool, int, str} of shape (n_features) or shape (n_categorical_features,), default=None,表示分类特征。
  • monotonic_cst:array-like of int of shape (n_features) or dict, default=None
  • interaction_cst:{“pairwise”, “no_interactions”} or sequence of lists/tuples/sets of int, default=None,指定交互约束,即可以在子节点分割中相互交互的特征集。每一项指定允许相互交互的特征索引集。如果特征数量多于这些约束中指定的特征,则它们将被视为被指定为附加集。“pairwise”和“no_interactions”分别是仅允许成对交互或不允许交互的简写。
  • warm_start:bool, default=False
  • early_stopping:‘auto’ or bool, default=’auto’,如果为“auto”,则在样本量大于 10000 时启用提前停止。如果为 True,则启用提前停止,否则禁用提前停止。
  • scoring:str or callable or None, default=’loss’,用于早期停止的评分参数。
  • validation_fraction:int or float or None, default=0.1,留作早期停止验证数据的训练数据比例(或绝对大小)。如果没有,则对训练数据进行早期停止。仅在执行提前停止时使用。
  • n_iter_no_change:int, default=10,用于确定何时“早停”。当最后一个 n_iter_no_change 分数都不比倒数第 1 个 n_iter_no_change 分数更好(达到一定容差)时,拟合过程将停止。仅在执行提前停止时使用。
  • tol:float, default=1e-7,比较分数时使用的绝对容差。容差越高,我们越有可能提前停止:容差越高意味着后续迭代将更难被视为参考分数的改进。
  • verbose:int, default=0
  • random_state:int, RandomState instance or None, default=None
  • class_weight:dict or ‘balanced’, default=None

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表