计算机系统应用教程网站

网站首页 > 技术文章 正文

技术论文|改进 Q 学习算法在多智能体强化学习中的应用

btikc 2024-10-14 08:52:04 技术文章 10 ℃ 0 评论


欢迎引用

[1]赵德京,马洪聪,王家曜,周维庆.改进Q学习算法在多智能体强化学习中的应用[J].自动化与仪器仪表,2022,No.272(06):13-16+22.DOI:10.14016/j.cnki.1001-9227.2022.06.013.


赵德京,马洪聪,王家曜,周维庆

(1. 青岛大学自动化学院2. 青岛石化检修安装工程有限责任公司 )


摘 要 :Q-learning 作为一种经典的强化学习算法 ,其在离散状态下存在计算量高、收敛速度慢等问题 。Speedy Q-learning 是 Q-learning 的变种 , 目 的是解决 Q-learning 算法收敛速度慢问题 。为解决多智能体强化学习 中“ 维数 灾”问题 ,在 Speedy Q-learning 算法的基础上提出了一种基于动作采样的(action sampling based on Speedy Q-learning,ASSQ)算法 。该算法采用集中训练 -分散执行(centralized training with decentralized execution, CTDE) 的框架 ,将上一 迭代步更新后的 Q 值作为下一状态的最大 Q 值 ,有效降低了 Q 值的比较次数 ,整体上提升了算法的收敛速度 。为减 少学习阶段计算量 ,算法在集中训练阶段求取下一状态最大 Q 值时 ,并没有遍历所有联合动作 Q 值 ,而只在联合动 作空间上进行部分采样 。在动作选择和执行阶段 ,每个智能体又根据学习到的策略独立选择动作 ,从而有效提高了 算法的学习效率 。通过在目标运输任务上验证 ,ASSQ 算法能够以 100%的成功率学习到最优联合策略 ,且计算量明 显少于 Q-learning 算法。

关键词 :Q-learning;Speedy Q-learning;多智能体强化学习;动作采样



(来源: 自动化与仪器仪表 2022年第6期)


关注我的你,是最香哒!

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表