1

2

向机器人展示如何驾驶汽车……只需几堂简单的课

日期:: 2020年11月19日
来源:: 南加州大学
简介:: 研究人员设计了一个系统，可以让机器人从很少的演示中自主学习复杂的任务——即使是不完美的演示。目前最先进的方法需要至少100次演示才能完成一个特定的任务，而这种新方法只允许机器人从少数演示中学习。
分享:: 脸谱网推特 Pinterest LinkedIN 电子邮件

完整的故事

想象一下，如果机器人可以从观看演示中学习:你可以向家用机器人展示如何做日常家务或摆放餐桌。在工作场所，你可以像训练新员工一样训练机器人，向它们展示如何执行许多任务。在路上，你的自动驾驶汽车可以通过观察你在附近开车来学习如何安全驾驶。

南加州大学的研究人员在这一愿景上取得了进展，他们设计了一个系统，可以让机器人从很少的演示中自主学习复杂的任务——即使是不完美的演示。这篇题为“从使用信号时序逻辑的演示中学习”的论文在11月18日的机器人学习会议(CoRL)上发表。

研究人员的系统通过评估每个演示的质量来工作，因此它从看到的错误和成功中学习。目前最先进的方法需要至少100次演示才能完成一个特定的任务，而这种新方法只允许机器人从少数演示中学习。它还允许机器人更直观地学习，就像人类相互学习一样——你看着别人执行任务，即使不完美，然后自己尝试。它不必是一个“完美”的演示，让人类从相互观察中收集知识。

“许多机器学习和强化学习系统需要大量的数据和数百次演示——你需要一个人来一遍又一遍地演示，这是不可行的，”南加州大学维特比工程学院计算机科学博士生Aniruddh Puranic说。

此外，大多数人都没有编程知识来明确说明机器人需要做什么，而人类也不可能演示机器人需要知道的一切。如果机器人遇到以前从未见过的东西怎么办?这是一个关键的挑战。”

从示范中学习

在获得有效的机器人控制策略(控制机器人的运动)以完成复杂任务方面，从演示中学习正变得越来越流行。但它容易受到演示中的不完美之处的影响，同时也引发了安全问题，因为机器人可能会学习不安全或不受欢迎的动作。

而且，并不是所有的演示都是一样的:有些演示比其他的更好地指示期望的行为，并且演示的质量通常取决于提供演示的用户的专业知识。

为了解决这些问题，研究人员整合了“信号时间逻辑”(signal temporal logic, STL)来评估演示的质量，并自动对它们进行排名，以创造固有的奖励。

换句话说，即使根据逻辑要求演示的某些部分没有任何意义，使用这种方法，机器人仍然可以从不完美的部分中学习。在某种程度上，系统会对演示的准确性或成功与否得出自己的结论。

“假设机器人从不同类型的演示中学习——可以是动手演示、视频或模拟——如果我做了一些非常不安全的事情，标准方法会做两件事中的一件:要么，他们会完全无视它，或者更糟糕的是，机器人会学到错误的东西，”合著者Stefanos Nikolaidis说，他是南加州大学维特比分校计算机科学助理教授。

“相比之下，这项工作以一种非常智能的方式，以逻辑的形式使用一些常识推理来理解演示的哪些部分是好的，哪些部分是不好的。从本质上讲，这正是人类所做的。”

举个例子，有人跳过停车标志的驾驶演示。在系统的排名中，这将低于一个好司机的表现。但是，如果在这个演示过程中，司机做了一些智能的事情——例如，刹车以避免碰撞——机器人仍然会从这个智能动作中学习。

适应人类偏好

信号时间逻辑是一种富有表现力的数学符号语言，使机器人能够对当前和未来的结果进行推理。前丰田工程师、南加州大学维特比分校计算机科学助理教授Jyo Deshmukh说，虽然该领域之前的研究使用的是“线性时间逻辑”，但STL在这种情况下更可取。

“当我们进入网络物理系统的世界时，比如机器人和自动驾驶汽车，时间是至关重要的，线性时间逻辑变得有点麻烦，因为它可以推理变量的真/假值序列，而STL允许对物理信号进行推理。”

在德什穆克的建议下，普兰尼奇在尼古拉迪斯的机器人实践课程上产生了这个想法。尼古拉迪斯一直致力于开发可以从YouTube视频中学习的机器人。三人决定测试一下。三位教授都说，他们对这个体系的成功程度感到惊讶，两位教授都把普兰尼的辛勤工作归功于他。

“与在许多机器人应用中广泛使用的最先进的算法相比，你可以看到所需演示次数的数量级差异，”Nikolaidis说。

该系统使用《我的世界》风格的游戏模拟器进行了测试，但研究人员表示，该系统还可以从驾驶模拟器甚至视频中学习。接下来，研究人员希望在真正的机器人上进行试验。他们说，这种方法非常适合那些事先知道地图，但地图中存在动态障碍的应用:家庭环境、仓库甚至太空探索漫游者中的机器人。

“如果我们想让机器人成为好队友，帮助人类，首先它们需要非常有效地学习和适应人类的偏好，”尼古莱迪斯说。“我们的方法提供了这一点。”

“我很高兴能将这种方法集成到机器人系统中，帮助它们有效地从演示中学习，同时也有效地帮助人类队友完成协作任务。”

故事来源:

材料所提供的南加州大学．凯特琳·道森(Caitlin Dawson)原创。注:内容可能会根据风格和长度进行编辑。

引用此页：

南加州大学。“向机器人展示如何驾驶汽车……只要几堂简单的课。”《科学日报》。《科学日报》，2020年11月19日。< www.koonmotors.com/releases/2020/11/201119153956.htm >。

南加州大学。(2020年11月19日)。向机器人展示如何驾驶汽车……只需几堂简单的课。《科学日报》．2023年6月16日检索自www.koonmotors.com/releases/2020/11/201119153956.htm

南加州大学。“向机器人展示如何驾驶汽车……只要几堂简单的课。”《科学日报》。www.koonmotors.com/releases/2020/11/201119153956.htm(2023年6月16日访问)。

1

2

向机器人展示如何驾驶汽车……只需几堂简单的课

1

2

3.

4

5