网站首页 > 技术文章 正文
MultiTrain是一个python库,它允许您一次训练多个机器学习模型,以评估它们在数据集上的性能。
现在,让我们用MultiTrain库训练一个数据集,看看它与传统的测试模型方法相比是如何工作的。
注意:训练结果可作为选择适合您特定情况的最佳模型的参考。为了使模型执行得更好,需要进行更多的超参数调优。
在本教程中,我们将使用手机价格分类数据集(https://www.kaggle.com/datasets/iabhishekofficial/mobile-price-classification)处理一个分类问题
安装库
pip install MultiTrain
导入所需的Python库
要处理这个数据集,我们需要导入以下库
import warnings
import pandas as pd
import seaborn as sns
from MultiTrain import MultiClassifier
from numpy import mean,
arange from matplotlib import pyplot as plt
warning.filterwarnings('ignore')
导入机器学习数据集
现在,让我们也导入我们将使用的数据集
df = pd.read_csv(“train_phone.csv”)
检查数据集标签是否平衡
我们检查数据集中包含的标签,以确定它是否平衡,这将帮助我们决定如何训练数据集。
在运行下面的代码时,您将发现数据集标签是均匀分布的。
# price_range is the column name for the labels
df["price_range"].value_counts()
模型训练
我们将跳过探索性数据分析,这里的重点是看看我们如何使用 MultiTrain 来实现它的目的。
下一步是将数据集划分为特征和标签。
features = df.drop('price_range', axis=1)
labels = df['price_range']
在定义了训练特征和标签之后,我们现在需要进一步将它们分为训练集和测试集。模型将使用训练集进行训练,并使用测试集对其性能进行评估。
然后必须在MultiTrain库中定义MultiClassifier对象。我们正在处理的数据集包括四个不同的标签,这使它成为一个多类问题。
通过定义随机状态参数,在数据集上训练的所有机器学习模型将产生一致的结果。设置“cores”为“-1”可以确保训练使用CPU中的所有内核来提高性能。
train = MultiClassifier(random_state=42,
imbalanced=False,
target_class='multiclass',
cores=-1)
# It's important to assign this method to a variable because it
# returns the training and test splits to be used in the fit method
returned_split = train.split(X=features,
y=labels,
randomState=42,
sizeOfTest=0.2)
fit = train.fit(X=features,
y=labels,
splitting=True,
split_data=returned_split,
show_train_score=True)
您也可以使用 KFold 拆分后对数据集进行训练
train = MultiClassifier(random_state=42,
imbalanced=False,
target_class='multiclass',
cores=-1)
# setting kf to True tells the fit method to use the KFold Split for # training.
fit = train.fit(X=features,
y=labels,
kf=True,
fold=5,
show_train_score=True)
您还可以将单个模型与scikit-learn实现进行比较,以查看它们是否产生类似的结果。
猜你喜欢
- 2024-10-11 sklearn分类模型汇总 sklearn svm分类
- 2024-10-11 一款小众但实用的自动化特征选择工具:AutoFeatSelect
- 2024-10-11 基于决策树算法完成鸢尾花的分类并使用scikit-learn进行交叉验证
- 2024-10-11 「程序员」如何5分钟掌握,pandas数据累计与分组?
- 2024-10-11 Python 机器学习 特征降维 python tsne降维
- 2024-10-11 mooc机器学习第七天-分类支持向量机svm.svc
- 2024-10-11 模型选择之交叉验证(简单交叉验证、S折交叉验证和留一交叉验证)
- 2024-10-11 I2C七宗罪之第二罪 七宗罪二哥
- 2024-10-11 PCA 主成分分析 PCA主成分分析实现鸢尾花数据集分类-MATLAB代码
- 2024-10-11 Python实现机器学习算法——随机森林
你 发表评论:
欢迎- 最近发表
-
- 在 Spring Boot 项目中使用 activiti
- 开箱即用-activiti流程引擎(active 流程引擎)
- 在springBoot项目中整合使用activiti
- activiti中的网关是干什么的?(activiti包含网关)
- SpringBoot集成工作流Activiti(完整源码和配套文档)
- Activiti工作流介绍及使用(activiti工作流会签)
- SpringBoot集成工作流Activiti(实际项目演示)
- activiti工作流引擎(activiti工作流引擎怎么用)
- 工作流Activiti初体验及在数据库中生成的表
- Activiti工作流浅析(activiti6.0工作流引擎深度解析)
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)