计算机系统应用教程网站

网站首页 > 技术文章 正文

强化学习系列—Actor-Critic 算法

btikc 2024-11-08 10:49:20 技术文章 4 ℃ 0 评论

前面的文章简单介绍过Actor-Critic算法,但是并没有系统介绍,而且网上资料相对零碎,根本原因是Actor-Critic算法是一种算法思想,众多算法都是基于这个思想上进行改进发展,所以Actor-Critic 算法并不是某一个单独算法,而是一系列算法SAC、 DDPG、TD3、TRPO,PPO 等。Actor-Critic 思想再借用前面文章中一幅图:

这里要指明的是,对于AC算法来说其架构可以追溯到三、四十年前。 最早由Witten在1977年提出了类似AC算法的思想,然后Barto, Sutton和Anderson等大牛在1983年左右引入了actor-critic架构。但由于AC算法的研究难度和一些历史偶然因素,之后学界开始将研究重点转向value-based方法(Q-learning 算法1993年提出)

这里以目前最常用的价值Critic网络更新方式和策略网络参数更新方式的TD3 算法为例带入:

上面策略梯度的更新应该是i = 0 到N 的求和,论文中存在错误。

TD3通过维护一对评论家Q1和Q2来解决DDPG模型中的过度估计偏差问题,后续的TRPO,PPO 等算法对Q网络的更新基本采用同样的结构对价值网络进行更新;唯一不同的是策略网络Critic参数更新,这里的TD3算法是在确定策略下的表现形式:

在确定策略下,策略损失函数表达式为:

求导之后,就是上面的策略函数的更新表达式,注意在TensorFlow,Pytorch 这些框架中,我们只计算损失函数,这些梯度更新,都封装在深度学习优化器下,但实际算法步骤理解会将这些梯度迭代写出来。

而实际在概率策略函数下:

前面讲过基于概率策略函数下策略梯度PG算法的损失函数的梯度表达式:

在这个表达式下,这里的R(t) 存在着不同形式,对应的策略梯度更新完全又是不同的表达式,常见的几种形式如下:

a) 基于状态价值:这是我们上一节使用的评估点,这样Actor的策略函数参数更新的法公式是:

b) 基于动作价值:在DQN中,我们一般使用的都是动作价值函数Q来做价值评估,这样Actor的策略函数参数更新的法公式是:

c) 基于TD误差:

d) 基于优势函数

这里即将R(t) 替换为优势函数即为基于优势函数的策略梯度。这时候基于优势函数,PPO 的算法步骤如下:

这里针对PPO 算法做出几点说明:

1)所有的这类 Actor-Critic 算法 外层循环k,表示和环境采样次数,形成轨迹Dk,然后针对每个轨迹在 t 个时间步上进行累计损失函数计算;

2)PPO 算法中价值函数梯度更新和TD3 中保持一致

3)此处突然引入PPO 算法,其实是对TRPO(Trust Region Policy Optimization)的改进,而TRPO 算法出现是为了解决PG 算法上,因为实际s环境的变化,策略更新稍有不慎便变回让价值比现在的差,一旦选择了这个更不好的策略进行采样学习,再次更新的参数会更差,因此很容易导致越学越差,一直无法收敛。TRPO 算法理论推导经过三次近似:

原版论文中,第一次近似对新策略下状态的概率用旧策略代替,第二次近似使用带约束的优化近似无约束优化,避免学习参数缓慢更新的问题,第三次近似处理有三处:

4)PPO 算法的出现解决了PPO 算法难以计算的问题,将带约束最优化问题,转变为限制新旧策略大小差距不要太大的问题,在实际应用中PPO 算法得以占据主导。

本文基本在系统上对Actor-Critic 算法做出了介绍,Actor-Critic 算法在强化学习领域已经是一个很重要的思想,同时其对GAN 生成对抗网络的提出,也有着重要的推动作用,本篇就讲到这里,如果大家喜欢,欢迎点赞转发、关注,谢谢!

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表