背景介绍
DDQN:Double DQN,是Double Q-Learning的深度学习实现,与DQN不同之处在于其是无偏估计。
如果想了解强化学习本身相关的基础,可以参照文章最后的公式清单,建议是以深度学习为核心,强化学习为近似目标来理解深度强化学习框架,刚开始不必过于沉浸于强化学习本身。
无偏估计
如字面意思,即估计量的数学期望等于被估计参数的真实值,E[estimator] = True Value。
DQN回顾
DQN是Q-Learning的深度学习实现,网络架构如下,注意观察损失函数Excepted Return的Q-Value和ation,均来自Target Network。
Q-learning的bias
关于偏差证明这一部分,需要很强的数学知识,很难。
建议先以技术债务的形式搁置在这里,了解结论,重点还是先放在深度学习本身。
有兴趣可以参照论文 Sebastian Thrun & Anton Schwartz 《Issues in Using Function Approximation for Reinforcement Learning》。
Q-Learning是有偏估计,偏差随着action的维度增加为增大;DQN的Excepted Return的Q和a均来自Target Network,严格满足Q-Learning的形式,也是有偏估计。
Double Q-learning的bias
Double Q-Learning偏差的证明参考Hado van Hasselt 《Double Q-learning》。
结论是Double Q-Learning是无偏估计,误差的期望是0。
算法1的亮点是,将Q和a随机地分别从两个estimator采样。
Double DQN
DDQN基本与DQN一致,区别在是Target Network将Q和a分离,DDQN的结构是:
注意Excepted Return的action来自于Predict Network网络。
图示偏差
橘色代表DQN,蓝色代表DDQN,横轴代表action的维度,纵轴代表bias,可见DDQN基本是无偏估计,DQN偏差随着维度bias递增。
本文暂时没有评论,来添加一个吧(●'◡'●)