7月1日消息:研究人员开发了一种算法,可以决定“学生”机器何时应该跟随老师,何时应该自行学习。
学习打网球的人可能会聘请老师来帮助他们学得更快。因为这位老师(希望)是一位出色的网球运动员,所以有时尝试完全模仿老师并不能帮助学生学习。也许老师高高跃起,巧妙地回击。学生无法复制这一动作,可以自己尝试一些其他动作,直到掌握回截击所需的技能。
计算机科学家还可以使用“教师”系统来训练另一台机器来完成任务。但就像人类学习一样,学生机器也面临着一个困境:知道何时跟随老师,何时自行探索。为此,麻省理工学院和以色列理工学院的研究人员开发了一种算法,可以自动、独立地确定学生何时应该模仿老师(称为模仿学习)以及何时应该通过试错来学习(称为模仿学习)。如强化学习)。
当老师太好或不够好时,他们的动态方法允许学生不再模仿老师,但如果这样做会取得更好的结果和更快的学习,那么在培训过程的后期会回到跟随老师。
当研究人员在模拟中测试这种方法时,他们发现试错学习和模仿学习的结合使学生能够比仅使用一种学习类型的方法更有效地学习任务。
这种方法可以帮助研究人员改进将在不确定的现实环境中部署的机器的训练过程,例如训练机器人在以前从未见过的建筑物内导航。
“通过反复试验和跟随老师进行学习的这种结合非常强大。它使我们的算法能够解决非常困难的任务,而单独使用任何一种技术都无法解决这些任务,”电气工程和计算机科学 (EECS) 研究生、该技术论文的主要作者 Idan Shenfeld说道。
Shenfeld 与合著者、EECS 研究生洪章伟 (Zhang-Wei Hong) 共同撰写了这篇论文。阿维夫·塔玛;以色列理工学院电气工程和计算机科学助理教授;资深作者 Pulkit Agrawal,Improbable AI 实验室主任,计算机科学与人工智能实验室助理教授。该研究将在国际机器学习会议上公布。
取得平衡
许多试图在模仿学习和强化学习之间取得平衡的现有方法都是通过强力试错来实现的。研究人员选择两种学习方法的加权组合,运行整个训练过程,然后重复该过程,直到找到最佳平衡。这是低效的,而且通常计算成本很高,甚至不可行。
“我们想要有原则的算法,涉及尽可能少的旋钮调整,并实现高性能——这些原则推动了我们的研究,”阿格拉瓦尔说。
为了实现这一目标,团队以与之前的工作不同的方式处理这个问题。他们的解决方案包括训练两名学生:一名学生采用强化学习和模仿学习的加权组合,另一名学生只能使用强化学习来学习相同的任务。
主要思想是自动动态调整第一个学生的强化和模仿学习目标的权重。这是第二个学生发挥作用的地方。研究人员的算法不断地比较这两个学生。如果使用老师的算法做得更好,算法就会更加重视模仿学习来训练学生,但如果只使用试错法的算法开始获得更好的结果,它将更加注重从强化学习中学习。
通过动态确定哪种方法可以获得更好的结果,该算法具有自适应性,可以在整个训练过程中选择最佳技术。Shenfeld 说,由于这项创新,它能够比其他非适应性方法更有效地教授学生。
“开发该算法的主要挑战之一是我们花了一些时间才意识到我们不应该独立训练这两个学生。很明显,我们需要将代理连接起来,让他们共享信息,然后找到正确的方法来从技术上支持这种直觉,”Shenfeld 说。
解决棘手问题
为了测试他们的方法,研究人员设置了许多模拟师生训练实验,例如穿过熔岩迷宫到达网格的另一个角落。在这种情况下,老师有整个网格的地图,而学生只能看到它前面的一小块。他们的算法在所有测试环境中都取得了近乎完美的成功率,并且比其他方法快得多。
为了给他们的算法进行更困难的测试,他们建立了一个模拟,涉及带有触摸传感器但没有视觉的机械手,必须将笔重新调整到正确的姿势。教师可以获取笔的实际方向,而学生只能使用触摸传感器来确定笔的方向。
他们的方法优于其他仅使用模仿学习或仅使用强化学习的方法
阿格拉瓦尔补充道,重新定向物体是未来家庭机器人需要执行的众多操纵任务之一,这也是 Improbable AI 实验室正在努力实现的愿景。
师生学习已成功应用于训练机器人在模拟中执行复杂的物体操作和运动,然后将学到的技能转移到现实世界中。在这些方法中,教师可以从模拟中获取特权信息,而学生在现实世界中部署时则无法获得这些信息。例如,教师将了解建筑物的详细地图,学生机器人正在接受训练,仅使用其相机捕获的图像进行导航。
“目前机器人学中的师生学习方法并没有考虑到学生无法模仿老师的问题,因此其表现受到限制。新方法为建造高级机器人铺平了道路。”阿格拉瓦尔说。
除了更好的机器人之外,研究人员相信他们的算法还有可能提高使用模仿或强化学习的各种应用的性能。例如,GPT-4 等大型语言模型非常擅长完成广泛的任务,因此也许人们可以使用大型模型作为老师来训练较小的学生模型,使其在一项特定任务上“更好” 。另一个令人兴奋的方向是研究机器和人类向各自的老师学习的异同。研究人员表示,此类分析可能有助于改善学习体验。
华盛顿大学助理教授 Abhishek Gupta 表示:“与相关方法相比,这种方法的有趣之处在于,它对于各种参数选择似乎是多么稳健,而且它在各种领域都显示出了有希望的结果。”这项工作。“虽然目前的结果主要是模拟的,但我对未来将这项工作应用于涉及记忆和不同模式(例如触觉感知)推理的问题的可能性感到非常兴奋。”
“这项工作提出了一种有趣的方法,可以在强化学习中重用先前的计算工作。特别是,他们提出的方法可以利用次优的教师策略作为指导,同时避免先前方法所需的仔细的超参数计划,以平衡模仿教师的目标与优化任务奖励的目标。”Google Brain 的高级研究科学家 Rishabh Agarwal 补充道。也没有参与这项研究。“希望这项工作能让强化学习与学习策略的转世变得不那么麻烦。”
这项研究得到了 MIT-IBM Watson AI 实验室、现代汽车公司、DARPA 机器常识计划和海军研究办公室的部分支持。
323AI导航网发布