网站首页 > 技术文章 正文
编者按:
Actor-Critic方法结合了actor-only方法和 critic-only方法的优势,是一种广泛使用的强化学习方法.该方法的原理为:给定来自于actor的策略,利用critic学习值函数,同时actor可以估计基于critic得到的值函数估计策略梯度.如果actor是固定的,该策略在critic的更新过程中保持不变. 因此,可以使用 时间差分 (TD)学习方法来估计值函数.在critic的更新很多步以后,值函数的估计更加准确,同时也使得actor估计的策略梯度更加准确.
从理论角度,双时间尺度Actor-Critic的渐进收敛性已经被建立.然而,有限样本分析让然没有得到解决.有限样本分析的结果是重要的因为其可以回答双时间尺度的Actor-Critic方法需要多少样本才能收敛,以及如何适当地选择Actor和Critic不同的学习率.
1. 马氏决策过程
2. 策略梯度定理
3. 带有基线的 REINFORCE 方法
4. 双时间尺度的Actor-Critic方法
5. 理论结果
5.1 假设
5.2 Actor收敛性
5.3 Critic收敛性
5.4 收敛速率和样本复杂度
参考文献
[1] Wu Y F, Zhang W, Xu P, et al. A finite-time analysis of two time-scale actor-critic methods[J]. Advances in Neural Information Processing Systems, 2020, 33: 17617-17628.
- 上一篇: 强化学习系列—Actor-Critic 算法
- 下一篇: 从头开始强化学习 强化学习方法
猜你喜欢
- 2024-11-08 必读论文 | 20篇强化学习研究必读论文速递
- 2024-11-08 使用Actor-Critic的DDPG强化学习算法控制双关节机械臂
- 2024-11-08 只需1次演示,1小时在线训练,机器人真就做到看一遍就会了
- 2024-11-08 DeepMind 推出分布式训练框架 IMPALA,开启智能体训练新时代
- 2024-11-08 Ray和RLlib用于快速并行强化学习 Ray和RLlib用于快速并行强化学习记录
- 2024-11-08 RA-L 2023 | 学会寻找从未听过的声源
- 2024-11-08 DeepMind最新研究动向,帮助实现单智能体多任务强化学习
- 2024-11-08 RLHF再也不需要人类了!谷歌团队研究证明,AI标注已达人类水平
- 2024-11-08 无惧雨雪风霜?斯坦福找到一种更适应动态环境的强化学习方法
- 2024-11-08 学术分享丨强化学习在机器人装配工艺中的应用
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)