计算机系统应用教程网站

网站首页 > 技术文章 正文

优化 | 双时间尺度Actor-Critic方法的有限样本分析

btikc 2024-11-08 10:49:21 技术文章 3 ℃ 0 评论

编者按:

Actor-Critic方法结合了actor-only方法和 critic-only方法的优势,是一种广泛使用的强化学习方法.该方法的原理为:给定来自于actor的策略,利用critic学习值函数,同时actor可以估计基于critic得到的值函数估计策略梯度.如果actor是固定的,该策略在critic的更新过程中保持不变. 因此,可以使用 时间差分 (TD)学习方法来估计值函数.在critic的更新很多步以后,值函数的估计更加准确,同时也使得actor估计的策略梯度更加准确.

从理论角度,双时间尺度Actor-Critic的渐进收敛性已经被建立.然而,有限样本分析让然没有得到解决.有限样本分析的结果是重要的因为其可以回答双时间尺度的Actor-Critic方法需要多少样本才能收敛,以及如何适当地选择Actor和Critic不同的学习率.

1. 马氏决策过程

2. 策略梯度定理

3. 带有基线的 REINFORCE 方法

4. 双时间尺度的Actor-Critic方法

5. 理论结果

5.1 假设

5.2 Actor收敛性

5.3 Critic收敛性

5.4 收敛速率和样本复杂度


参考文献

[1] Wu Y F, Zhang W, Xu P, et al. A finite-time analysis of two time-scale actor-critic methods[J]. Advances in Neural Information Processing Systems, 2020, 33: 17617-17628.

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表