计算机系统应用教程网站

网站首页 > 技术文章 正文

离线强化学习的单次修剪 离线训练模型

btikc 2024-11-13 09:41:22 技术文章 4 ℃ 0 评论

深度强化学习(RL)是解决复杂的现实世界问题的一个强大框架。该框架中采用的大型神经网络通常与更好的泛化能力有关,但其规模的增加带来了广泛的训练时间、大量的硬件资源和更长的推理时间等缺点。解决这个问题的方法之一是修剪神经网络,只留下必要的参数。最先进的并发修剪技术在数据分布固定的应用中表现明显良好。然而,它们在RL的背景下还没有得到实质性的探索。我们缩小了RL和单次剪枝技术之间的差距,并提出了一个离线RL的一般剪枝方法。我们利用一个固定的数据集,在RL训练开始前修剪神经网络。然后,我们进行了实验,改变了网络的稀疏程度,并评估了在连续控制任务中初始化技术修剪的有效性。我们的结果表明,在95%的网络权重被修剪的情况下,离线RL算法在大多数实验中仍然可以保持性能。据我们所知,在如此高的稀疏程度下,以前没有任何利用RL修剪的工作能保持性能。 此外,初始化修剪技术可以很容易地集成到任何现有的Offline-RL算法中,而不需要改变学习目标。

《Single-Shot Pruning for Offline Reinforcement Learning》

论文地址:http://arxiv.org/abs/2112.15579v1

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表