回复自动化内参:能在现实世界训练机器人操作策略,成功率还那么高
下载贤集网APP入驻自媒体
近日,UC 伯克利 BAIR 实验室的 Sergey Levine 研究团队提出了一个强化学习框架 HIL-SERL,可直接在现实世界中训练通用的基于视觉的机器人操作策略。HIL-SERL 的表现堪称前所未有的卓越,仅需 1-2.5 小时的训练就能在所有任务上实现 100% 的成功率。 为了解决优化稳定性问题,他们采用了预训练的视觉主干网络来实现策略学习。为了处理样本复杂性问题,他们利用了基于 RLPD 的样本高效型离策略强化学习算法,该算法还结合了人工演示和校正。此外,为了确保策略训练期间的安全性,他们还纳入了一个精心设计的低级控制器。