计算机系统应用教程网站

网站首页 > 技术文章 正文

双延迟DDPG

btikc 2024-09-12 11:52:07 技术文章 6 ℃ 0 评论

TD3(Twin Delayed Deep Deterministic Policy Gradient)是一种面向连续动作空间基于Actor-Critic架构的深度强化学习算法,在确定性策略梯度强化学习算法基础上,同时对policy网络value网络进行改进,优化了Q-Value的过高估计问题。

模型架构

Double Q-learning

DDQN借鉴了Double Q-learning的思想,将选取action和估计value分别在predict network和target network网络上计算,有效优化了DQN的Q-Value过高估计问题。
TD3采用了更加原始的Double Q-learning方法,单独设计了两个网络(Twin)表示不同的Q-Value,通过选取最小的Target Q,来抑制持续的过高估计。

Target Policy Smoothing

TD3在Target Network估计Excepted Return部分,对policy网络引入随机噪声,以期达到对policy波动的稳定性。
这里的随机噪声与predict policy为了增加探索性而引入的随机噪声是由不同的参数控制的独立分布;同时这里的随机噪声是为了解决target policy与Q两个网络的连接鲁棒性而设计的。

Delayed

policy的误差能够影响到Q的估计,而Q也是policy更新的参照。
基于这样一种直觉,如果Q能稳定下来再学习policy,应该就会减少一些错误的更新;policy网络参数更新有一定的延迟更新频率低于Q网络

损失函数

学习过程

学习过程如上,整个过程和DDPG一致:

  1. 采用类似DQN的Experience Replay Memory机制。
  2. 目标网络和预测网络各有三套参数,一个policy网络,两个value网络。
  3. 两个随机噪声,一个用于policy预测网络采样中,保证action的探索能力
    一个用于policy目标网络估计时,用于提高对policy的robust,两者是独立的;
  4. 预测网络policy在更新参数时,选择其中一个Q(s, a)网络即可。
  5. policy网络参数更新有延迟,低于value网络的更新,也是Delayed意所指。

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表