计算机系统应用教程网站

网站首页 > 技术文章 正文

深度强化学习—Q-learning 算法解析

btikc 2024-10-14 08:51:26 技术文章 3 ℃ 0 评论

这几天OpenAI 的宫斗大戏落下帷幕,但是幕后的Q* 算法引起全网猜测,其中使用到的 Q-learning 算法被网友挖坟,今天就介绍一下这个在1993年就被提出来的Q-learning 算法。

Q-learning,顾名思义,就是学习Q值;具体来说就是学习(状态)动作价值,他表示在遵循某个策略pi,在状态 s 下,采取动作 a 能获取的期望回报G:

Gt表示的是未来所能得到的总奖励。我们在初始时刻并不知道准确的Qt值,但通过与环境的不断交互,可以基于环境给予的反馈来学习出 Q 值。

Q-learning的算法流程如下:

Q-learning 真正被人认识到重要性,是由Deepmind 在2013年和2015年分别提出的两篇论文《Playing Atari with Deep Reinforcement Learning》《Human-level Control through Deep Reinforcement Learning:Nature杂志》,提出的DQN 算法,对于Qt 的估计当状态动作空间在高维中时候,计算穷举变得极为困难,此时引入带参数的神经网络进行估计Q;这时候引入一个Target 价值网络作为学习目标,具体算法过程如下:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表