赋予机器人类似于人类的物理环境感知能力

时间：2022-03-02 09:58:00来源：

Kimera构建环境的密集3D语义网格，并可以跟踪环境中的人。p显示了场景中人物移动的多帧动作序列。

“ Alexa，去厨房给我拿点零食”

我们难道不希望在房子周围有什么帮助吗，特别是如果该帮助来自智能，适应性强，无可辩驳的机器人的形式吗？当然，在家电领域有一个绝妙的Roombas。但是，麻省理工学院的工程师们正在设想机器人更像是家庭佣工，它们能够遵循高级的Alexa类型的命令，例如“去厨房给我拿杯咖啡。”

为了执行这样的高级任务，研究人员认为，机器人将必须能够像人类一样感知自己的物理环境。

麻省理工学院航空与航天学助理教授卢卡·卡洛恩（Luca Carlone）说：“为了做出世界上的任何决定，您需要对周围环境有一个心理模型。”“这对人类来说是如此轻松。但是对于机器人来说，这是一个痛苦的难题，那就是将他们通过相机看到的像素值转化为对世界的理解。”

现在，卡洛恩（Carne）和他的学生已经开发出一种代表人类感知和导航世界的模型的机器人空间感知的表示形式。

办公环境的3D动态场景图。图中的节点表示环境中的实体（人，物体，房间，结构），而边缘表示实体之间的关系。

他们将这种新模型称为3D动态场景图，使机器人能够快速生成其周围环境的3D地图，其中还包括对象及其语义标签（例如，椅子和桌子）以及人，房间，机器人可能在其环境中看到的墙壁和其他结构。

该模型还允许机器人从3D地图中提取相关信息，以查询对象和房间的位置，或人员在其路径上的移动。

卡洛恩说：“这种压缩的环境表示形式很有用，因为它使我们的机器人能够快速做出决策并规划路径。”“这与我们作为人类所做的事情相去不远。如果您需要规划从家到麻省理工学院的路线，则不必规划需要担任的每个职位。您只需要考虑街道和地标的水平，这可以帮助您更快地规划路线。”

卡洛恩说，除了家庭佣工外，采用这种新型心理环境模型的机器人也可能适合其他高级工作，例如与工厂工人并肩工作或为生还者寻找灾难现场。

他和他的学生，包括第一作者和麻省理工学院的研究生安东尼·罗西诺尔，将在本周的机器人技术会议上发表他们的发现：科学与系统虚拟会议。

映射组合

目前，机器人视觉和导航主要沿着以下两个途径发展：3D映射使机器人能够在实时探索时从三个维度重建环境；语义分割，它可以帮助机器人将其环境中的特征分类为语义对象，例如汽车与自行车，到目前为止，这些对象大多是在2D图像上完成的。

Carlone和Rosinol的新的空间感知模型是第一个实时生成环境3D地图的系统，同时还标记了对象，人（与对象相反的动态对象）和3D地图中的结构。

团队新模型的关键组件是Kimera，这是一个由团队先前开发的开源库，用于同时构建环境的3D几何模型，同时对物体是椅子还是桌子的可能性进行编码。

卡洛恩说：“就像是由不同动物组成的神话生物一样，我们希望基梅拉成为3D映射和语义理解的结合。”

Kimera的工作原理是实时获取机器人摄像头的图像流以及机载传感器的惯性测量值，以估算机器人或摄像头的轨迹并将场景重建为3D网格。

为了生成语义3D网格，Kimera使用在数百万个真实世界的图像上经过训练的现有神经网络，预测每个像素的标签，然后使用称为射线投射的技术将这些标签投影到3D中，该技术通常在计算机中使用用于实时渲染的图形。

结果是一张机器人环境的地图，该地图类似于一个密集的三维网格，其中每个面都按颜色编码，作为环境中对象，结构和人员的一部分。

分层的场景

如果机器人仅依靠该网格在其环境中导航，那将是一项计算量大且耗时的任务。因此，研究人员以Kimera为基础，开发了从Kimera最初的高密度3D语义网格中构建3D动态“场景图”的算法。

场景图是操纵和渲染复杂场景的流行计算机图形模型，通常用于视频游戏引擎中以表示3D环境。

在3D动态场景图的情况下，相关算法将Kimera详细的3D语义网格抽象化或分解为不同的语义层，以便机器人可以通过特定的层或镜头“看到”场景。这些层次的层次结构从对象和人，到开放的空间和结构（如墙壁和天花板），再到房间，走廊和大厅，最后是整个建筑物。

卡洛恩说，这种分层表示避免了机器人不得不在原始3D网格中理解数十亿个点和面的感觉。

在物体和人的层面上，研究人员还能够开发算法，以实时跟踪环境中人类的运动和形状。

该团队在与MIT Lincoln Laboratory合作开发的逼真的模拟器中测试了他们的新模型，该模拟器模拟机器人在充满人流的动态办公环境中导航。

卡洛恩说：“从本质上讲，我们使机器人具有与人类相似的思维模型。”“这可能会影响许多应用，包括自动驾驶汽车，搜索和救援，协作制造以及家用机器人
技术。另一个领域是虚拟和增强现实（AR）。想象一下，戴着运行我们算法的AR护目镜：护目镜可以为您提供帮助，例如“我将红色杯子放在哪里？”和“最近的出口是什么？”之类的问题。您可以将其视为Alexa，它了解您周围的环境并了解物体，人类及其关系。

Rosinol说：“得益于深度学习的最新进展以及数十年来对同时定位和制图的研究，我们的方法才得以实现。”“通过这项工作，我们正在朝着称为空间AI的机器人感知新时代迈进，该时代尚处于起步阶段，但在机器人技术以及大规模虚拟和增强现实方面具有巨大潜力。”

参考：“ 3D动态场景图：具有位置，物体和人的可操作空间感知”，作者：安东尼·罗西诺，阿琼·古普塔，马库斯·阿巴特，石静南和卢卡·卡洛恩科学与系统链接

这项研究部分由陆军研究实验室，海军研究办公室和麻省理工学院林肯实验室资助