网站首页 > 技术文章 正文
这是我的第335篇原创文章。
一、引言
决策树是一个有监督分类模型,本质是选择一个最大信息增益的特征值进行输的分割,直到达到结束条件或叶子节点纯度达到阈值。根据分割指标和分割方法,可分为:ID3、C4.5、CART算法。每一种颜色代表一个class,link的宽度表示从一个节点流向另一个节点的items数量。
需要安装第三方库:
pip install pybaobabdt
pip install pygraphviz
二、实现过程
2.1 准备数据
data = pd.read_csv(r'Dataset.csv')
df = pd.DataFrame(data)
print(df.head())
df:
2.2 提取特征变量和目标变量
target = 'target'
features = df.columns.drop(target)
print(data["target"].value_counts()) # 顺便查看一下样本是否平衡
2.3 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(df[features], df[target], test_size=0.2, random_state=0)
2.4 模型构建和训练
model = DecisionTreeClassifier(max_depth=5)
model.fit(X_train, y_train)
2.5 决策树模型可视化
ax = pybaobabdt.drawTree(model, size=10, dpi=300, features=features) #可视化主函数pybaobabdt.drawTree
plt.show()
结果:
作者简介: 读研期间发表6篇SCI数据算法相关论文,目前在某研究院从事数据算法相关研究工作,结合自身科研实践经历持续分享关于Python、数据分析、特征工程、机器学习、深度学习、人工智能系列基础知识与案例。关注gzh:数据杂坛,获取数据和源码学习更多内容。
原文链接:
猜你喜欢
- 2024-12-19 最大熵模型原理小结 最大熵模型的应用
- 2024-12-19 分类模型综述 分类模型的工作原理及使用方式
- 2024-12-19 【随机森林】深入浅出讲解随机森林算法
- 2024-12-19 大数据挖掘、可视化与ChatGPT职场赋能培训班
- 2024-12-19 「析易科研」树形分类模型有哪些?
- 2024-12-19 图解十大常用算法 常用算法模板
- 2024-12-19 使用Python中从头开始构建决策树算法
- 2024-12-19 Python机器学习系列之scikit-learn决策树原理简要概述
- 2024-12-19 机器学习之决策树知识思考 决策树算法是机器算法吗
- 2024-12-19 技术论文|基于 Map-Reduce 框架的 C4. 5 分布式改进算法
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)