网站首页 > 技术文章 正文
前面的文章简单介绍过Actor-Critic算法,但是并没有系统介绍,而且网上资料相对零碎,根本原因是Actor-Critic算法是一种算法思想,众多算法都是基于这个思想上进行改进发展,所以Actor-Critic 算法并不是某一个单独算法,而是一系列算法SAC、 DDPG、TD3、TRPO,PPO 等。Actor-Critic 思想再借用前面文章中一幅图:
这里要指明的是,对于AC算法来说其架构可以追溯到三、四十年前。 最早由Witten在1977年提出了类似AC算法的思想,然后Barto, Sutton和Anderson等大牛在1983年左右引入了actor-critic架构。但由于AC算法的研究难度和一些历史偶然因素,之后学界开始将研究重点转向value-based方法(Q-learning 算法1993年提出)
这里以目前最常用的价值Critic网络更新方式和策略网络参数更新方式的TD3 算法为例带入:
上面策略梯度的更新应该是i = 0 到N 的求和,论文中存在错误。
TD3通过维护一对评论家Q1和Q2来解决DDPG模型中的过度估计偏差问题,后续的TRPO,PPO 等算法对Q网络的更新基本采用同样的结构对价值网络进行更新;唯一不同的是策略网络Critic参数更新,这里的TD3算法是在确定策略下的表现形式:
在确定策略下,策略损失函数表达式为:
求导之后,就是上面的策略函数的更新表达式,注意在TensorFlow,Pytorch 这些框架中,我们只计算损失函数,这些梯度更新,都封装在深度学习优化器下,但实际算法步骤理解会将这些梯度迭代写出来。
而实际在概率策略函数下:
前面讲过基于概率策略函数下策略梯度PG算法的损失函数的梯度表达式:
在这个表达式下,这里的R(t) 存在着不同形式,对应的策略梯度更新完全又是不同的表达式,常见的几种形式如下:
a) 基于状态价值:这是我们上一节使用的评估点,这样Actor的策略函数参数更新的法公式是:
b) 基于动作价值:在DQN中,我们一般使用的都是动作价值函数Q来做价值评估,这样Actor的策略函数参数更新的法公式是:
c) 基于TD误差:
d) 基于优势函数
这里即将R(t) 替换为优势函数即为基于优势函数的策略梯度。这时候基于优势函数,PPO 的算法步骤如下:
这里针对PPO 算法做出几点说明:
1)所有的这类 Actor-Critic 算法 外层循环k,表示和环境采样次数,形成轨迹Dk,然后针对每个轨迹在 t 个时间步上进行累计损失函数计算;
2)PPO 算法中价值函数梯度更新和TD3 中保持一致
3)此处突然引入PPO 算法,其实是对TRPO(Trust Region Policy Optimization)的改进,而TRPO 算法出现是为了解决PG 算法上,因为实际s环境的变化,策略更新稍有不慎便变回让价值比现在的差,一旦选择了这个更不好的策略进行采样学习,再次更新的参数会更差,因此很容易导致越学越差,一直无法收敛。TRPO 算法理论推导经过三次近似:
原版论文中,第一次近似对新策略下状态的概率用旧策略代替,第二次近似使用带约束的优化近似无约束优化,避免学习参数缓慢更新的问题,第三次近似处理有三处:
4)PPO 算法的出现解决了PPO 算法难以计算的问题,将带约束最优化问题,转变为限制新旧策略大小差距不要太大的问题,在实际应用中PPO 算法得以占据主导。
本文基本在系统上对Actor-Critic 算法做出了介绍,Actor-Critic 算法在强化学习领域已经是一个很重要的思想,同时其对GAN 生成对抗网络的提出,也有着重要的推动作用,本篇就讲到这里,如果大家喜欢,欢迎点赞转发、关注,谢谢!
猜你喜欢
- 2024-11-08 必读论文 | 20篇强化学习研究必读论文速递
- 2024-11-08 使用Actor-Critic的DDPG强化学习算法控制双关节机械臂
- 2024-11-08 只需1次演示,1小时在线训练,机器人真就做到看一遍就会了
- 2024-11-08 DeepMind 推出分布式训练框架 IMPALA,开启智能体训练新时代
- 2024-11-08 Ray和RLlib用于快速并行强化学习 Ray和RLlib用于快速并行强化学习记录
- 2024-11-08 RA-L 2023 | 学会寻找从未听过的声源
- 2024-11-08 DeepMind最新研究动向,帮助实现单智能体多任务强化学习
- 2024-11-08 RLHF再也不需要人类了!谷歌团队研究证明,AI标注已达人类水平
- 2024-11-08 无惧雨雪风霜?斯坦福找到一种更适应动态环境的强化学习方法
- 2024-11-08 学术分享丨强化学习在机器人装配工艺中的应用
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)