双延迟DDPG

btikc 2024-09-12 11:52:07 技术文章 6 ℃ 0 评论

TD3(Twin Delayed Deep Deterministic Policy Gradient)是一种面向连续动作空间基于Actor-Critic架构的深度强化学习算法，在确定性策略梯度强化学习算法基础上，同时对policy网络和value网络进行改进，优化了Q-Value的过高估计问题。

模型架构

Double Q-learning

DDQN借鉴了Double Q-learning的思想，将选取action和估计value分别在predict network和target network网络上计算，有效优化了DQN的Q-Value过高估计问题。
TD3采用了更加原始的Double Q-learning方法，单独设计了两个网络(Twin)表示不同的Q-Value，通过选取最小的Target Q，来抑制持续的过高估计。

Target Policy Smoothing

TD3在Target Network估计Excepted Return部分，对policy网络引入随机噪声，以期达到对policy波动的稳定性。
这里的随机噪声与predict policy为了增加探索性而引入的随机噪声是由不同的参数控制的独立分布；同时这里的随机噪声是为了解决target policy与Q两个网络的连接鲁棒性而设计的。

Delayed

policy的误差能够影响到Q的估计，而Q也是policy更新的参照。
基于这样一种直觉，如果Q能稳定下来再学习policy，应该就会减少一些错误的更新；policy网络参数更新有一定的延迟，更新频率低于Q网络。

损失函数

学习过程

学习过程如上，整个过程和DDPG一致：

采用类似DQN的Experience Replay Memory机制。
目标网络和预测网络各有三套参数，一个policy网络，两个value网络。
两个随机噪声，一个用于policy预测网络采样中，保证action的探索能力；
一个用于policy目标网络估计时，用于提高对policy的robust，两者是独立的；
预测网络policy在更新参数时，选择其中一个Q(s, a)网络即可。
policy网络参数更新有延迟，低于value网络的更新，也是Delayed意所指。

网站首页 > 技术文章正文

双延迟DDPG

模型架构

Double Q-learning

Target Policy Smoothing

Delayed

损失函数

学习过程

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 技术文章 正文

双延迟DDPG

模型架构

Double Q-learning

Target Policy Smoothing

Delayed

损失函数

学习过程

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 技术文章正文

取消回复欢迎你发表评论: