解读Double DQN

btikc 2024-09-12 11:52:26 技术文章 9 ℃ 0 评论

背景介绍

DDQN：Double DQN，是Double Q-Learning的深度学习实现，与DQN不同之处在于其是无偏估计。
如果想了解强化学习本身相关的基础，可以参照文章最后的公式清单，建议是以深度学习为核心，强化学习为近似目标来理解深度强化学习框架，刚开始不必过于沉浸于强化学习本身。

无偏估计

如字面意思，即估计量的数学期望等于被估计参数的真实值，E[estimator] = True Value。

DQN回顾

DQN是Q-Learning的深度学习实现，网络架构如下，注意观察损失函数Excepted Return的Q-Value和ation，均来自Target Network。

Q-learning的bias

关于偏差证明这一部分，需要很强的数学知识，很难。
建议先以技术债务的形式搁置在这里，了解结论，重点还是先放在深度学习本身。
有兴趣可以参照论文 Sebastian Thrun & Anton Schwartz 《Issues in Using Function Approximation for Reinforcement Learning》。
Q-Learning是有偏估计，偏差随着action的维度增加为增大；DQN的Excepted Return的Q和a均来自Target Network，严格满足Q-Learning的形式，也是有偏估计。

Double Q-learning的bias

Double Q-Learning偏差的证明参考Hado van Hasselt 《Double Q-learning》。
结论是Double Q-Learning是无偏估计，误差的期望是0。
算法1的亮点是，将Q和a随机地分别从两个estimator采样。

Double DQN

DDQN基本与DQN一致，区别在是Target Network将Q和a分离，DDQN的结构是：

注意Excepted Return的action来自于Predict Network网络。

图示偏差

橘色代表DQN，蓝色代表DDQN，横轴代表action的维度，纵轴代表bias，可见DDQN基本是无偏估计，DQN偏差随着维度bias递增。

网站首页 > 技术文章正文

解读Double DQN

背景介绍

无偏估计

DQN回顾

Q-learning的bias

Double Q-learning的bias

Double DQN

图示偏差

强化学习公式清单

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 技术文章 正文

解读Double DQN

背景介绍

无偏估计

DQN回顾

Q-learning的bias

Double Q-learning的bias

Double DQN

图示偏差

强化学习公式清单

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 技术文章正文

取消回复欢迎你发表评论: