TD3(Twin Delayed Deep Deterministic Policy Gradient)是一种面向连续动作空间基于Actor-Critic架构的深度强化学习算法,在确定性策略梯度强化学习算法基础上,同时对policy网络和value网络进行改进,优化了Q-Value的过高估计问题。
模型架构
Double Q-learning
DDQN借鉴了Double Q-learning的思想,将选取action和估计value分别在predict network和target network网络上计算,有效优化了DQN的Q-Value过高估计问题。
TD3采用了更加原始的Double Q-learning方法,单独设计了两个网络(Twin)表示不同的Q-Value,通过选取最小的Target Q,来抑制持续的过高估计。
Target Policy Smoothing
TD3在Target Network估计Excepted Return部分,对policy网络引入随机噪声,以期达到对policy波动的稳定性。
这里的随机噪声与predict policy为了增加探索性而引入的随机噪声是由不同的参数控制的独立分布;同时这里的随机噪声是为了解决target policy与Q两个网络的连接鲁棒性而设计的。
Delayed
policy的误差能够影响到Q的估计,而Q也是policy更新的参照。
基于这样一种直觉,如果Q能稳定下来再学习policy,应该就会减少一些错误的更新;policy网络参数更新有一定的延迟,更新频率低于Q网络。
损失函数
学习过程
学习过程如上,整个过程和DDPG一致:
- 采用类似DQN的Experience Replay Memory机制。
- 目标网络和预测网络各有三套参数,一个policy网络,两个value网络。
- 两个随机噪声,一个用于policy预测网络采样中,保证action的探索能力;
一个用于policy目标网络估计时,用于提高对policy的robust,两者是独立的; - 预测网络policy在更新参数时,选择其中一个Q(s, a)网络即可。
- policy网络参数更新有延迟,低于value网络的更新,也是Delayed意所指。
本文暂时没有评论,来添加一个吧(●'◡'●)