1、研究背景
2、VLN任务定义
3、VLN数据集
4、VLN方法
5、VLN评估
6、VLN未来发展
论文:
:
一、研究背景
如果想要建造一个真正可以在实际生活中利用起来的robot,在我们人类理想中它应该可以使用自然语言来和人沟通,而不是说只能接受一些机器语言指令。
最近,像BERT、GPT这些大模型在NLP领域的新发展,让大家渐渐意识到,可以把自然语言和传统的 融合到一起。
在介绍VLN Task之前,我们先简述这样Robot有什么样的好处。
首先,它可以极大程度上让人无需再做重复性的日常任务,也无需做危险的任务。例如说,在家里可以让机器人帮我们从厨房里拿一个苹果,或者帮我们做饭。机器人可以把实时画面传送给我们,然后我们可以使用自然语言告诉机器人,接下来应该执行什么任务。
其次,VLN在理论研究方面也很有价值,它可以探索究竟什么是具身型人工智能,并从这个方向来探索AGI( )的可能性,因为它将、text和这三种模态融合到一起,并且可以实际运用到生活当中。
一个成功VLN的agent至少需要理解这些模态,并且可以做出切实有效的。
在介绍VLN的具体数据集和最新提出来的一些方法之前,我们可以先思考两个问题:
第一,什么才算是一个真正智能的具身型人工智能?我们认为,它首先需要理解来自不同维度的信息,例如,Text,Audio,Video,甚至一些很抽象的信息,像人类提取出来的 Base或者 。
第二,那我们作为人工智能方面的研究者,应该怎么做去推进这样强大的智能体的研究呢?
我们认为至少可以从以下几个方面来做:首先要提出合理的,这种带有真实的来测试建造的Robot或Agent。并且,自然语言的使用必不可少。其次,建造了这些之后,就需要进一步提出模型和方法,如何建造相关的VLN agent。VLN agent需要实时接收环境的观测画面,以及接收来自人的指令,进而在环境中迁移以完成任务。
首先,VLN的复杂点之一在于其输入信息特别多,很多强大的模型在NLP( )上已经做的特别先进了,但是只有一个模态。复杂一点的任务例如VQA( Answ