微软研究人员通过模拟训练人工智能来控制真实世界的无人机
在印稿之前,微软研究人员描述了一个机器学习系统,它可以直接从相机图像中推断出正确的动作。通过模拟训练,它学会独立导航现实世界中的环境和条件,包括看不见的情况,这使得它适合部署在搜救任务中的机器人。有一天,它可以帮助这些机器人更快地识别需要帮助的人。
在本周发布的一篇博文中,研究人员写道:“我们希望推动现有技术更接近人类解读环境线索、适应困难环境和自主操作的能力。”“我们有兴趣探索建立一个达到类似性能水平的自治系统需要什么条件的问题。”
团队的框架清楚地分离了感知组件(也就是说,从控制策略中获得它所看到的(根据它所看到的来决定做什么)。它受人脑启发,直接将视觉信息映射到正确的控制行为上,即通过将高维视频帧序列转化为概括世界状态的低维表示。研究人员表示,这种两阶段方法使模型更容易解释和调试。
该团队将他们的框架应用于一架带有前置摄像头的小型四轴直升机,试图“教授”一种人工智能策略,这样它就可以在比赛期间仅使用摄像头的图像进行导航。他们使用一种叫做AirSim的高保真模拟器来模拟和训练人工智能,然后在没有任何修改的情况下将其部署到真正的无人机上。他们使用一个称为跨模态变分自动编码器(CM-VAE)的框架来生成一个表示,可以缩小模拟和现实之间的差距。
系统的感知模块将输入图像压缩成上述低维表示,从27,648个变量到最基本的10个变量。解码后的图像提供了无人机可以看到的前方描述,包括所有可能的门的大小和位置以及不同的背景信息。
研究人员在45米长的S形轨道和40米长的圆形轨道上测试了该系统的性能。他们说使用CM-VAE的策略明显优于直接编码下一个门位置的端到端策略和AI。尽管受到背景条件的“强烈”视觉干扰,无人机还是使用跨模态感知模块完成了课程。
两位合著者断言,研究结果在现实应用中显示出“巨大的潜力”。例如,该系统可以帮助自主搜救机器人更好地识别人类,无论其年龄、大小、性别和种族,从而使机器人有更好的机会识别和找回有需要的人。
研究人员写道:“通过将感知-动作循环分成两个模块,并将多个数据模式结合到感知训练阶段,我们可以避免过度拟合我们的网络来适应输入数据的无关特征。”“比如,模拟和物理实验中,虽然方形门的尺寸是一样的,但它们的宽度、颜色甚至相机的内在参数都不完全匹配。”
这项研究是在微软发布“无人机挑战”游戏后进行的,该游戏使四轴飞行器的人工智能系统在AirSim仿真中竞争。微软去年在Unity游戏引擎中引入了AirSim。