网站首页 > 技术文章 正文
这几天OpenAI 的宫斗大戏落下帷幕,但是幕后的Q* 算法引起全网猜测,其中使用到的 Q-learning 算法被网友挖坟,今天就介绍一下这个在1993年就被提出来的Q-learning 算法。
Q-learning,顾名思义,就是学习Q值;具体来说就是学习(状态)动作价值,他表示在遵循某个策略pi,在状态 s 下,采取动作 a 能获取的期望回报G:
Gt表示的是未来所能得到的总奖励。我们在初始时刻并不知道准确的Qt值,但通过与环境的不断交互,可以基于环境给予的反馈来学习出 Q 值。
Q-learning的算法流程如下:
Q-learning 真正被人认识到重要性,是由Deepmind 在2013年和2015年分别提出的两篇论文《Playing Atari with Deep Reinforcement Learning》《Human-level Control through Deep Reinforcement Learning:Nature杂志》,提出的DQN 算法,对于Qt 的估计当状态动作空间在高维中时候,计算穷举变得极为困难,此时引入带参数的神经网络进行估计Q;这时候引入一个Target 价值网络作为学习目标,具体算法过程如下:
猜你喜欢
- 2024-10-14 开启深度强化学习之路:Deep Q-Networks简介和代码示例
- 2024-10-14 人工智能之机器学习常见算法 人工智能机器学习的三种常用算法
- 2024-10-14 通过Q学习更深入地学习强化学习 持续强化理论学习
- 2024-10-14 基于在线附加Q学习的伺服电机速度最优跟踪控制方法
- 2024-10-14 机器不学习:强化学习之 Deep Q Network (DQN)
- 2024-10-14 算法人生(2):从“强化学习”看如何“活在当下”
- 2024-10-14 使用强化学习和q-learning来玩贪吃蛇的Python实现
- 2024-10-14 强化学习4--QLearning的实现例子和原理
- 2024-10-14 技术论文|改进 Q 学习算法在多智能体强化学习中的应用
- 2024-10-14 16种提升效率的机器学习算法! 提高算法效率的关键是什么
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)