据外媒Venturebeat报道,Facebook、乔治亚理工学院和俄勒冈州立大学的研究人员在本周发表的一篇预印本论文中,描述了人工智能的一项新任务——通过听自然语言的指令,在3D环境中导航(例如,“走下大厅,在木桌旁左转”)。他们说,这可以为遵循自然语言指令的机器人助手奠定基础。
研究人员的任务,被称之为在连续环境中的视觉和语言导航(VLN-CE),是在Facebook的模拟器Habitat中进行的,该模拟器可以训练机器人助手在模拟真实环境的环境中操作。直径为0.2米、1.5米高的助手被放置在来自Matterport3D数据集的内部,该数据集是通过10800多个全景图和相应的3D网格捕获的90个环境的集合。
机器人助手必须在一条路径上做四个动作(向前移动0.25米,左转或右转15度,或停在目标位置)中的一个,并学会避免被困在障碍物上,比如椅子和桌子上。
研究小组将这些环境提炼成4475条由4到6个节点组成的轨迹,这些轨迹对应于在各个位置拍摄的360度全景图像,显示了导航能力。
他们用这个训练两个人工智能模型:一个sequence-to-sequence模型,该模型由采取视觉观察和指令表示的策略组成,并使用它们预测一个动作;另一个是两个网络交叉模式注意模型,该模型跟踪观察结果,并根据指令和特征做出决策。
研究人员表示,在实验中,表现最好的机器人可以遵循“向左拐,进入走廊”之类的指令,尽管这些指令要求机器人在发现视觉路标之前转动未知的次数。事实上,机器人在看不见的环境,大约三分之一的场景中导航到目标位置,平均采取了88次行动。
这些机器人偶尔也会失败,根据合著者的说法,这些失败通常是由于机器人在视觉上丢失了指令中提到的对象。
“至关重要的是,VLN-CE为(研究)社区提供了一个测试平台,在这里可以进行研究高级和低级控制界面的这类集成实验,”合著者写道。
Facebook投入了大量资源来解决自主机器人导航的问题。
雷锋网了解到,今年6月,在公布了一项训练六足机器人走路的计划后,Facebook首次推出了PyRobot,一种用于PyTorch机器学习框架的机器人框架。2018年,Facebook推出了开源人工智能,可以通过360度图像在纽约市街道上导航。最近,Facebook的一个团队发表了一篇论文,描述了一个通过观看视频学习如何在办公室里走动的系统。
特别提醒:本网内容转载自其他媒体,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。