网站首页 > 技术文章 正文
欢迎引用
[1]赵德京,马洪聪,王家曜,周维庆.改进Q学习算法在多智能体强化学习中的应用[J].自动化与仪器仪表,2022,No.272(06):13-16+22.DOI:10.14016/j.cnki.1001-9227.2022.06.013.
赵德京,马洪聪,王家曜,周维庆
(1. 青岛大学自动化学院2. 青岛石化检修安装工程有限责任公司 )
摘 要 :Q-learning 作为一种经典的强化学习算法 ,其在离散状态下存在计算量高、收敛速度慢等问题 。Speedy Q-learning 是 Q-learning 的变种 , 目 的是解决 Q-learning 算法收敛速度慢问题 。为解决多智能体强化学习 中“ 维数 灾”问题 ,在 Speedy Q-learning 算法的基础上提出了一种基于动作采样的(action sampling based on Speedy Q-learning,ASSQ)算法 。该算法采用集中训练 -分散执行(centralized training with decentralized execution, CTDE) 的框架 ,将上一 迭代步更新后的 Q 值作为下一状态的最大 Q 值 ,有效降低了 Q 值的比较次数 ,整体上提升了算法的收敛速度 。为减 少学习阶段计算量 ,算法在集中训练阶段求取下一状态最大 Q 值时 ,并没有遍历所有联合动作 Q 值 ,而只在联合动 作空间上进行部分采样 。在动作选择和执行阶段 ,每个智能体又根据学习到的策略独立选择动作 ,从而有效提高了 算法的学习效率 。通过在目标运输任务上验证 ,ASSQ 算法能够以 100%的成功率学习到最优联合策略 ,且计算量明 显少于 Q-learning 算法。
关键词 :Q-learning;Speedy Q-learning;多智能体强化学习;动作采样
(来源: 自动化与仪器仪表 2022年第6期)
关注我的你,是最香哒!
猜你喜欢
- 2024-10-14 开启深度强化学习之路:Deep Q-Networks简介和代码示例
- 2024-10-14 人工智能之机器学习常见算法 人工智能机器学习的三种常用算法
- 2024-10-14 通过Q学习更深入地学习强化学习 持续强化理论学习
- 2024-10-14 基于在线附加Q学习的伺服电机速度最优跟踪控制方法
- 2024-10-14 机器不学习:强化学习之 Deep Q Network (DQN)
- 2024-10-14 算法人生(2):从“强化学习”看如何“活在当下”
- 2024-10-14 使用强化学习和q-learning来玩贪吃蛇的Python实现
- 2024-10-14 强化学习4--QLearning的实现例子和原理
- 2024-10-14 16种提升效率的机器学习算法! 提高算法效率的关键是什么
- 2024-10-14 探索人工智能中的Q-learning算法:从小白到大师
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)