确保人工智能在适当的好奇心下发挥作用

AI人工智能2年前 (2023)发布 wangzhan
10,012 0
ChatGPT国内版
确保人工智能在适当的好奇心下发挥作用

这是一个由来已久的困境。周五晚上已经过去,你正在考虑选择一家餐厅吃晚饭。您应该去您最喜爱的酒吧还是尝试一家新的酒吧,希望发现更优质的东西?有可能,但这种好奇心也伴随着风险:如果你探索新的选择,食物可能会更糟。另一方面,如果你坚持你所知道的行之有效的方法,你就不会摆脱狭窄的道路。 

好奇心驱使人工智能探索世界,现在其应用场景无限——自主导航、机器人决策、优化健康结果等等。在某些情况下,机器使用“强化学习”来实现目标,其中人工智能代理通过因良好行为而受到奖励和因不良行为而受到惩罚来迭代学习。就像人类在选择餐厅时面临的困境一样,这些智能体也在努力平衡发现更好的行动(探索)所花费的时间和采取过去带来高回报的行动所花费的时间(剥削)。太多的好奇心会分散智能体做出正确决策的注意力,而太少则意味着智能体永远不会发现好的决策。

为了让人工智能代理具有适当的好奇心,来自麻省理工学院不可思议的人工智能实验室和计算机科学与人工智能实验室(CSAIL)的研究人员创建了一种算法,克服了人工智能过于“好奇”并被某种事物分散注意力的问题。给定的任务。他们的算法会在需要时自动增加好奇心,并在代理从环境中获得足够的监督以知道该做什么时抑制好奇心。

在 60 多个视频游戏上进行测试时,该算法能够成功完成困难和简单的探索任务,而之前的算法只能单独处理困难或简单的领域。通过这种方法,人工智能代理可以使用更少的数据来学习最大化激励的决策规则。  

“如果你很好地掌握了探索与利用的权衡,你就可以更快地学习正确的决策规则——而任何不足都将需要大量的数据,这可能意味着次优的医疗、网站的利润减少以及机器人不这样做。”麻省理工学院电气工程和计算机科学 (EECS) 助理教授、Improbable AI 实验室主任以及负责监督这项研究的 CSAIL 附属机构 Pulkit Agrawal 说道。“想象一下,一个网站试图找出其内容的设计或布局,以最大限度地提高销售额。如果没有很好地进行探索-利用,那么收敛到正确的网站设计或正确的网站布局将需要很长时间,这意味着利润损失。或者在医疗保健环境中,例如 Covid-19,治疗患者可能需要做出一系列决策,如果您想使用决策算法,它们需要快速有效地学习 – 在治疗大量患者时,您不希望得到次优的解决方案患者。我们希望这项工作能够应用于现实世界中这种性质的问题。” 

很难涵盖好奇心心理基础的细微差别。寻求挑战行为的潜在神经关联是一种人们知之甚少的现象。人们试图对这种行为进行分类,这些研究深入研究了我们的冲动、剥夺敏感性以及社会和压力承受能力。 

通过强化学习,这个过程在情感上得到了“修剪”,只剩下最基本的内容,但在技术方面却很复杂。本质上,只有当没有足够的监督来尝试不同的事物时,智能体才应该感到好奇,如果有监督,它必须调整好奇心并降低好奇心。 

由于游戏的很大一部分是在奇幻环境中运行的小代理,寻找奖励并执行一长串动作来实现某些目标,因此它似乎是研究人员算法的逻辑测试平台。在实验中,研究人员将《马里奥赛车》和《蒙特祖玛的复仇》等游戏分为两个不同的类别:一类监督稀疏,这意味着代理的指导较少,被认为是“困难”的探索游戏;另一类则监督较多。密集的,或“简单”的探索游戏。 

例如,假设在“马里奥赛车”中,您只删除了所有奖励,因此您不知道敌人何时消灭您。当你收集硬币或跳过管道时,你不会获得任何奖励。代理人最终只会被告知它做得有多好。这将是一个监管稀疏的情况。激发好奇心的算法在这种情况下表现得非常好。 

但现在,假设代理受到严格的监督——跳过管道、收集硬币和消灭敌人的奖励。在这里,没有好奇心的算法表现得非常好,因为它经常得到奖励。但如果你采用同样利用好奇心的算法,它就会学习得很慢。这是因为好奇的智能体可能会尝试以不同的方式快速奔跑、跳舞、走到游戏屏幕的每个部分——这些事情很有趣,但无助于智能体在游戏中取得成功。然而,该团队的算法无论在什么环境下都始终表现良好。 

未来的工作可能会回到多年来让心理学家高兴又困扰的探索:好奇心的适当衡量标准——没有人真正知道从数学上定义好奇心的正确方法。 

“在新问题上获得一致的良好性能是极具挑战性的——因此,通过改进探索算法,我们可以节省您为感兴趣的问题调整算法的精力,”EECS 博士生、CSAIL 附属机构和合作伙伴张伟洪 (Zhang-Wei Hong) 说。 -主要作者与 Eric Chen ’20、MEng ’21 一起撰写了一篇关于这项工作的新论文。“我们需要好奇心来解决极具挑战性的问题,但在某些问题上它可能会损害性能。我们提出了一种算法,可以消除调整探索和利用平衡的负担。以前需要一周的时间才能成功解决问题,有了这个新算法,我们可以在几个小时内得到满意的结果。”

“当前人工智能和认知科学面临的最大挑战之一是如何平衡探索和利用——寻找信息与寻找奖励。孩子们可以无缝地做到这一点,但这在计算上具有挑战性,”加州大学伯克利分校心理学教授兼哲学副教授艾莉森·戈普尼克(Alison Gopnik)指出,她没有参与该项目。“这篇论文使用了令人印象深刻的新技术来自动完成这一任务,设计了一个能够系统地平衡对世界的好奇心和对奖励的渴望的代理,[从而]朝着使人工智能代理(几乎)像孩子一样聪明的方向又迈出了一步。”

“好奇心等内在奖励对于引导智能体发现有用的多样化行为至关重要,但这不应该以在给定任务上表现出色为代价。这是人工智能中的一个重要问题,这篇论文提供了一种平衡这种权衡的方法,”卡内基梅隆大学助理教授 Deepak Pathak 补充道,他也没有参与这项工作。“看看这些方法如何从游戏扩展到现实世界的机器人代理,这将是很有趣的。”

Chen、Hong 和 Agrawal 与阿尔托大学助理教授、达姆施塔特工业大学智能自治系统组研究负责人 Joni Pajarinen 一起撰写了这篇论文。该研究得到了 MIT-IBM Watson AI 实验室、DARPA 机器常识计划、美国空军研究实验室陆军研究办公室和美国空军人工智能加速器的部分支持。

323AI导航网发布

© 版权声明
广告也精彩

相关文章

暂无评论

暂无评论...