脸书最新开发的大规模分布式增强学习算法DD-PPO,可在没有预先提供地图给人工智能代理人的情况下,代理人依然能在虚拟环境中,只使用RGB-D摄影机、GPS和指南针,聪明地导航并抵达目的地,成功率达99.9%。
脸书提到,现实世界不停发生变化,无论是建筑物或是结构发生改变,还是物体不断地变更位置,人和宠物也会来来去去,地图一旦创建之后便过时了。而要让人工智能可以有效的与现实世界交互,便要学会不依赖地图,也可以在陌生环境中导航。而脸书最新的DD-PPO算法,仅需要使用RGB-D摄影机、GPS和指南针数据,就能有效地解决指定目标点的导航问题。
过去的系统成功率虽然达到92%,但脸书表示,在现实世界中,即便100次任务只失败一次,也是无法被接受的,因为机器人可能会因出错,破坏周围环境或是让自己受损,而DD-PPO训练的代理,能以高达99.9%的成功率到达指定的地点,且会选择最佳路径,从起点前往目的地,路径与最佳路径平均误差在3%以下,代理人不会在路口转错弯,或是走进死路,甚至不会离开最佳路径进行探索。
脸书使用AI 平台来训练和评估DD-PPO,AI 是一个具有模块化框架的仿真器,可以用来仿真数十亿步的走路训练,以每秒1万影格的速度执行,同时还能处理多种数据集,脸书提到,这是目前最真实的人工智能研究虚拟环境。
仿真定点导航的初始,代理人会以随机方向出现在新环境中的随机位置,并被要求前往相对于代理人的指定座标,没有任何可用的地图,代理人需要使用GPS和指南针等传感器,以及RGB-D摄影机自己进行导航。脸书使用DD-PPO训练代理走了25亿步,约是人类80年的经验,脸书使用64个GPU在3天内完成训练。
脸书提到,在10亿步之前的训练,模型性能不会达到饱和,一亿步的训练可达到90%的性能,因此之前的研究还差最新研究1到2个数量级,而具有数十亿步的经验,可达99.9%的成功率,是目前最先进的技术,也从根本上解决了这个问题。脸书希望未来可仅使用RGB摄影机,就能完成定点导航的工作。