科学新闻

来自研究机构

1

2

赋予机器人对物理环境的人类感知能力

日期:: 2020年7月15日
来源:: 麻省理工学院
简介:: 新模型帮助机器人像人类一样了解环境。
分享:: 脸谱网推特 Pinterest LinkedIN 电子邮件

完整的故事

难道我们不都很感激在家里得到一点帮助吗，尤其是如果这种帮助是一个聪明、适应性强、无怨无悔的机器人吗?当然，家电世界里也有一招万能的roomba。但麻省理工学院的工程师们正在设想更像家庭助手的机器人，能够遵循高级的、类似alexa的命令，比如“去厨房给我拿个咖啡杯”。

研究人员认为，为了完成如此高水平的任务，机器人必须能够像人类一样感知周围的物理环境。

“为了在世界上做出任何决定，你需要对你周围的环境有一个心理模型，”麻省理工学院航空航天助理教授卢卡·卡隆(Luca Carlone)说。“这对人类来说是毫不费力的事情。

但对于机器人来说，这是一个非常困难的问题，因为它需要将它们通过摄像头看到的像素值转换为对世界的理解。”现在，Carlone和他的学生们已经开发出了一种机器人空间感知的表示方式，它模仿了人类感知和导航世界的方式。

他们称之为3D动态场景图的新模型使机器人能够快速生成其周围环境的3D地图，其中还包括物体及其语义标签(例如，椅子与桌子)，以及机器人在其环境中可能看到的人、房间、墙壁和其他结构。

该模型还允许机器人从3D地图中提取相关信息，查询物体和房间的位置，或者在其路径上的人的移动。

Carlone说:“这种环境的压缩表示是有用的，因为它允许我们的机器人快速做出决定并规划其路径。”“这与我们人类的行为相差不远。如果你需要规划一条从你家到麻省理工学院的路线，你不会规划你需要走的每一个位置。你只需要在街道和地标的层面上思考，这有助于你更快地规划路线。”

Carlone说，除了家庭帮佣，采用这种新的环境思维模式的机器人也可能适用于其他高级工作，比如在工厂车间与人并肩工作，或者在灾难现场寻找幸存者。

他和他的学生，包括主要作者和麻省理工学院的研究生Antoni Rosinol，将在本周的机器人:科学与系统虚拟会议上展示他们的发现。

映射组合

目前，机器人视觉和导航主要沿着两条路线发展:3D地图，使机器人能够在实时探索时三维重建其环境;语义分割，这有助于机器人将环境中的特征分类为语义对象，例如汽车和自行车，到目前为止，这主要是在2D图像上完成的。

Carlone和Rosinol的新空间感知模型是第一个实时生成环境3D地图的模型，同时还可以在3D地图中标记物体、人(动态的，与物体相反)和结构。

该团队新模型的关键组件是Kimera，这是一个开源库，该团队之前开发过它，可以同时构建一个环境的3D几何模型，同时编码一个物体是椅子还是桌子的可能性。

Carlone说:“就像神话中的生物是不同动物的混合体一样，我们希望Kimera在3D中成为映射和语义理解的混合体。”

Kimera的工作原理是，从机器人的摄像头接收图像流，以及机载传感器的惯性测量，以估计机器人或摄像头的轨迹，并将场景重建为3D网格，所有这些都是实时的。

为了生成语义3D网格，Kimera使用现有的神经网络对数百万张真实世界的图像进行训练，预测每个像素的标签，然后使用一种称为光线投射的技术将这些标签投射到3D中，这种技术通常用于计算机图形的实时渲染。

结果是一个机器人环境的地图，类似于一个密集的三维网格，其中每个脸都是彩色编码的，作为环境中物体、结构和人的一部分。

分层场景

如果一个机器人仅仅依靠这个网格在环境中导航，这将是一个计算昂贵且耗时的任务。因此，研究人员以Kimera为基础，开发算法，从Kimera初始的高密度3D语义网格中构建3D动态“场景图”。

场景图是一种流行的计算机图形模型，用于处理和渲染复杂的场景，通常用于视频游戏引擎中，以表示3D环境。

在3D动态场景图的情况下，相关的算法将Kimera详细的3D语义网格抽象或分解为不同的语义层，这样机器人就可以通过特定的层或镜头“看到”场景。从物体和人，到开放空间和结构(如墙壁和天花板)，再到房间、走廊和大厅，最后是整个建筑物，这些层在层次上不断发展。

Carlone说，这种分层表示避免了机器人必须在原始3D网格中理解数十亿个点和面。

在物体和人的层面上，研究人员还能够开发算法，实时跟踪环境中人类的运动和形状。

该团队在与麻省理工学院林肯实验室合作开发的逼真模拟器中测试了他们的新模型，该模拟器模拟了一个机器人在充满走动的人的动态办公环境中导航。

Carlone说:“从本质上讲，我们正在使机器人拥有与人类相似的心智模型。”“这可能会影响许多应用，包括自动驾驶汽车、搜索和救援、协同制造和家用机器人。

另一个领域是虚拟和增强现实(AR)。想象一下，戴上运行我们算法的增强现实眼镜:眼镜将能够帮助你回答诸如“我把我的红色杯子放在哪里了?”和“最近的出口在哪里?”

你可以把它想象成一个Alexa，它能感知你周围的环境，理解物体、人类及其关系。”

Rosinol说:“我们的方法刚刚成为可能，这要归功于最近深度学习的进步，以及几十年来对同步定位和地图绘制的研究。”“通过这项工作，我们正在向一个被称为空间人工智能的机器人感知新时代迈进，它还处于起步阶段，但在机器人技术和大规模虚拟现实和增强现实方面具有巨大潜力。”

这项研究部分由陆军研究实验室、海军研究办公室和麻省理工学院林肯实验室资助。

论文:“3D动态场景图:与地点、对象和人的可操作空间感知”https://roboticsconference.org/program/papers/79/

视频:https://www.youtube.com/watch?v=SWbofjhyPzI

故事来源:

材料所提供的麻省理工学院．Jennifer Chu原创。注:内容可能会根据风格和长度进行编辑。

引用此页：

麻省理工学院。“赋予机器人对物理环境的类似人类的感知能力。”《科学日报》。《科学日报》，2020年7月15日。< www.koonmotors.com/releases/2020/07/200715131222.htm >。

麻省理工学院。(2020年7月15日)。赋予机器人对物理环境的人类感知能力。《科学日报》．2023年6月18日检索自www.koonmotors.com/releases/2020/07/200715131222.htm

麻省理工学院。“赋予机器人对物理环境的类似人类的感知能力。”《科学日报》。www.koonmotors.com/releases/2020/07/200715131222.htm(2023年6月18日访问)。

1

2

赋予机器人对物理环境的人类感知能力

1

2

3.

4

5