网站首页 > 技术文章 正文
斯坦福人工智能实验室(SAIL)的研究人员最近设计了一种方法,能处理那些会随时间变化的数据和环境,性能优于一些领先的强化学习方法,它被命名为LILAC(Lifelong Latent Actor-Critic)。
这一方法使用了潜在变量模型和最大熵策略,以此利用过去的经验,在动态环境中获得更好的采样效率和性能。
他们在一篇关于LILAC的论文中写道:
“我们观察到,在具有显著非平稳性的各种连续控制任务中,与最先进的强化学习方法相比,我们的方法带来了实质性的改进。”例如,它能够更好地适应环境,机器人或自主车辆可以在天气条件变化较多(比如遇到雨雪环境)引入时运行这一方法。
作者在该动态强化学习环境中进行了四个测试,包括来自metaworld基准测试的Sawyer机器人、OpenAI Gym的Half-Cheetah和2D导航任务。
研究人员发现,与伯克利AI研究院(BAIR)于2018年推出的SAC(Soft Actor Critical)和加州大学伯克利分校(UC Berkeley)研究人员今年早些时候推出的SLAC(Rastic Potential Actor Critic)等顶级强化学习方法相比,LILAC在所有领域都能获得更高、更稳定的回报。
斯坦福大学的研究人员Annie Xie、James Harrison和Chelsea Finn两周前在arXiv上发表了一篇关于LILAC的论文。主要作者Xie也与加州大学伯克利分校教授Sergey Levine合作研究SAC和SLAC。
“与这些方法不同,尽管在每一集中都会经历环境的持续变化,但LILAC却能推断出未来环境的变化,并在训练过程中稳步保持高回报。”
作者说,LILAC与终身学习和在线学习算法有相似之处。元学习和元强化学习算法也试图快速适应新的设置。
在最近的其他强化学习新闻中,来自Google Brain、卡内基梅隆大学、匹兹堡大学和加州大学伯克利分校的AI研究人员最近又引入了一种新的域适应方法,即在强化学习环境中改变代理的奖励函数。与其他强化学习环境一样,该方法试图使模拟器中的源域更像真实世界中的目标域。
一篇上周发布的域适配论文指出,“行为主体会因为转换而受到惩罚,转换可以表明行为主体是在与源域还是目标域交互。”“在一系列控制任务上的实验表明,我们的方法可以利用源域来学习在目标域中运行良好的策略,尽管只观察到目标域的少数转换。”
研究人员修改了奖励函数,使用分类器来区分源域和目标域的转换。他们在OpenAI Gym用三个任务来测试他们的方法。
雷锋网编译,via Stanford AI researchers introduce LILAC, reinforcement learning for dynamic environments | VentureBeat
雷锋网雷锋网
猜你喜欢
- 2024-11-08 必读论文 | 20篇强化学习研究必读论文速递
- 2024-11-08 使用Actor-Critic的DDPG强化学习算法控制双关节机械臂
- 2024-11-08 只需1次演示,1小时在线训练,机器人真就做到看一遍就会了
- 2024-11-08 DeepMind 推出分布式训练框架 IMPALA,开启智能体训练新时代
- 2024-11-08 Ray和RLlib用于快速并行强化学习 Ray和RLlib用于快速并行强化学习记录
- 2024-11-08 RA-L 2023 | 学会寻找从未听过的声源
- 2024-11-08 DeepMind最新研究动向,帮助实现单智能体多任务强化学习
- 2024-11-08 RLHF再也不需要人类了!谷歌团队研究证明,AI标注已达人类水平
- 2024-11-08 学术分享丨强化学习在机器人装配工艺中的应用
- 2024-11-08 从头开始强化学习 强化学习方法
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)