一种基于人工智能的新控制自主机器人的方法满足了经常相互冲突的安全性和稳定性目标。
在电影《壮志凌云:特立独行》中,汤姆· 克鲁斯饰演的特立独行者负责训练年轻飞行员完成一项看似不可能完成的任务——驾驶他们的喷气式飞机深入岩石峡谷,保持离地面很低的高度,以至于无法被发现通过雷达,然后以极端角度快速爬出峡谷,避开岩壁。剧透警报:在 Maverick 的帮助下,这些人类飞行员完成了他们的任务。
另一方面,机器则很难完成同样令人心跳加速的任务。例如,对于自动驾驶飞机来说,通往目标的最直接路径与机器需要做什么以避免与峡谷壁碰撞或不被发现而发生冲突。许多现有的人工智能方法无法克服这种冲突(称为稳定避免问题),并且无法安全地实现其目标。
麻省理工学院的研究人员开发了一种新技术,可以比其他方法更好地解决复杂的稳定避免问题。他们的机器学习方法匹配或超过了现有方法的安全性,同时稳定性提高了十倍,这意味着代理达到并在其目标区域内保持稳定。
在一项令 Maverick 感到自豪的实验中,他们的技术有效地驾驶模拟喷气式飞机穿过狭窄的走廊,而没有坠落地面。
“这是一个长期存在的、具有挑战性的问题。很多人都研究过它,但不知道如何处理如此高维和复杂的动力学,”威尔逊航空航天助理教授、信息与决策系统实验室 (LIDS) 成员 Chuchu Fan 说道。 ),以及有关该技术的新论文的高级作者。
主要作者、研究生 Oswin So 也加入了 Fan 的行列。该论文将在机器人学:科学与系统会议上发表。
稳定-避免挑战
许多方法通过简化系统来解决复杂的稳定避免问题,以便他们可以用简单的数学来解决它,但简化的结果通常不符合现实世界的动态。
更有效的技术使用强化学习,这是一种机器学习方法,代理通过试错进行学习,并对更接近目标的行为进行奖励。但这里实际上有两个目标——保持稳定和避免障碍——而找到正确的平衡点是乏味的。
麻省理工学院的研究人员将问题分为两步。首先,他们将稳定避免问题重新定义为约束优化问题。在此设置中,解决优化问题使智能体能够达到并稳定其目标,这意味着它停留在某个区域内。So 解释说,通过施加约束,他们可以确保代理避开障碍。
然后,第二步,他们将约束优化问题重新表述为称为铭文形式的数学表示形式,并使用深度强化学习算法来解决它。题词形式让他们绕过了其他方法在使用强化学习时面临的困难。
“但是深度强化学习并不是为了解决优化问题的题词形式而设计的,所以我们不能只是将它插入到我们的问题中。我们必须推导出适合我们系统的数学表达式。一旦我们有了这些新的推导,我们就将它们与其他方法使用的一些现有工程技巧结合起来,”So 说。
第二名无积分
为了测试他们的方法,他们设计了许多具有不同初始条件的对照实验。例如,在某些模拟中,自主代理需要到达并停留在目标区域内,同时进行剧烈的机动以避免与其碰撞的障碍物。
与几个基线相比,他们的方法是唯一一种可以稳定所有轨迹同时保持安全的方法。为了进一步推进他们的方法,他们用它来驾驶模拟喷气式飞机,模拟人们可能在电影《壮志凌云》中看到的场景 。喷气式飞机必须稳定到靠近地面的目标,同时保持非常低的高度并停留在狭窄的飞行走廊内。
该模拟喷气机模型于 2018 年开源,由飞行控制专家作为测试挑战而设计。研究人员能否创造一个他们的控制器无法飞行的场景?但范说,该模型非常复杂,很难使用,而且仍然无法处理复杂的场景。
麻省理工学院研究人员的控制器能够防止飞机坠毁或失速,同时比任何基线都更好地稳定目标。
未来,这项技术可能成为设计高动态机器人控制器的起点,这些机器人必须满足安全性和稳定性要求,例如自动送货无人机。或者它可以作为更大系统的一部分来实现。也许只有当汽车在雪路上打滑时,该算法才会被激活,以帮助驾驶员安全地回到稳定的轨迹。
So 补充道,应对人类无法处理的极端场景是他们的方法真正的亮点。
“我们相信,作为一个领域,我们应该努力实现的一个目标是为强化学习提供安全性和稳定性保证,当我们在关键任务系统上部署这些控制器时,我们需要为我们提供保证。我们认为这是实现这一目标的有希望的第一步,”他说。
展望未来,研究人员希望增强他们的技术,以便在解决优化问题时能够更好地考虑不确定性。他们还想研究该算法在硬件上部署时的工作效果如何,因为模型的动态与现实世界中的动态之间会存在不匹配。
“范教授的团队提高了安全重要的动力系统的强化学习性能。他们创建的控制器不只是达到目标,而是确保系统能够安全地达到目标并无限期地停留在那里。”石溪大学计算机科学系助理教授斯坦利·巴克(Stanley Bak)说道,他没有参与这项研究。 。“他们改进的公式可以成功生成适用于复杂场景的安全控制器,包括由空军研究实验室 (AFRL) 的研究人员部分设计的 17 状态非线性喷气式飞机模型,该模型将非线性微分方程与升力表和阻力表结合在一起。 ”
这项工作部分由麻省理工学院林肯实验室的特技飞行安全计划资助。
323AI导航网发布