计算机系统应用教程网站

网站首页 > 技术文章 正文

解读Double DQN

btikc 2024-09-12 11:52:26 技术文章 9 ℃ 0 评论

背景介绍

DDQNDouble DQN,是Double Q-Learning的深度学习实现,与DQN不同之处在于其是无偏估计
如果想了解强化学习本身相关的基础,可以参照文章最后的公式清单,建议是以深度学习为核心,强化学习为近似目标来理解深度强化学习框架,刚开始不必过于沉浸于强化学习本身。

无偏估计

如字面意思,即估计量的数学期望等于被估计参数的真实值,E[estimator] = True Value

DQN回顾

DQN是Q-Learning的深度学习实现,网络架构如下,注意观察损失函数Excepted Return的Q-Value和ation,均来自Target Network

Q-learning的bias

关于偏差证明这一部分,需要很强的数学知识,很难。
建议先以技术债务的形式搁置在这里,了解结论,重点还是先放在深度学习本身。
有兴趣可以参照论文 Sebastian Thrun & Anton Schwartz 《Issues in Using Function Approximation for Reinforcement Learning》。
Q-Learning是有偏估计,偏差随着action的维度增加为增大;DQN的Excepted Return的Q和a均来自Target Network,严格满足Q-Learning的形式,也是有偏估计。

Double Q-learning的bias

Double Q-Learning偏差的证明参考Hado van Hasselt 《Double Q-learning》。
结论是Double Q-Learning是无偏估计,误差的期望是0。
算法1的亮点是,将Q和a随机地分别从两个estimator采样。

Double DQN

DDQN基本与DQN一致,区别在是Target Network将Q和a分离,DDQN的结构是:


注意Excepted Return的action来自于Predict Network网络。

图示偏差

橘色代表DQN,蓝色代表DDQN,横轴代表action的维度,纵轴代表bias,可见DDQN基本是无偏估计,DQN偏差随着维度bias递增。

强化学习公式清单


Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表