广告
科学新闻
来自研究机构

向机器人展示如何驾驶汽车……只需几堂简单的课

日期:
2020年11月19日
来源:
南加州大学
简介:
研究人员设计了一个系统,可以让机器人从很少的演示中自主学习复杂的任务——即使是不完美的演示。目前最先进的方法需要至少100次演示才能完成一个特定的任务,而这种新方法只允许机器人从少数演示中学习。
分享:
广告

完整的故事

想象一下,如果机器人可以从观看演示中学习:你可以向家用机器人展示如何做日常家务或摆放餐桌。在工作场所,你可以像训练新员工一样训练机器人,向它们展示如何执行许多任务。在路上,你的自动驾驶汽车可以通过观察你在附近开车来学习如何安全驾驶。

南加州大学的研究人员在这一愿景上取得了进展,他们设计了一个系统,可以让机器人从很少的演示中自主学习复杂的任务——即使是不完美的演示。这篇题为“从使用信号时序逻辑的演示中学习”的论文在11月18日的机器人学习会议(CoRL)上发表。

研究人员的系统通过评估每个演示的质量来工作,因此它从看到的错误和成功中学习。目前最先进的方法需要至少100次演示才能完成一个特定的任务,而这种新方法只允许机器人从少数演示中学习。它还允许机器人更直观地学习,就像人类相互学习一样——你看着别人执行任务,即使不完美,然后自己尝试。它不必是一个“完美”的演示,让人类从相互观察中收集知识。

“许多机器学习和强化学习系统需要大量的数据和数百次演示——你需要一个人来一遍又一遍地演示,这是不可行的,”南加州大学维特比工程学院计算机科学博士生Aniruddh Puranic说。

此外,大多数人都没有编程知识来明确说明机器人需要做什么,而人类也不可能演示机器人需要知道的一切。如果机器人遇到以前从未见过的东西怎么办?这是一个关键的挑战。”

从示范中学习

在获得有效的机器人控制策略(控制机器人的运动)以完成复杂任务方面,从演示中学习正变得越来越流行。但它容易受到演示中的不完美之处的影响,同时也引发了安全问题,因为机器人可能会学习不安全或不受欢迎的动作。

而且,并不是所有的演示都是一样的:有些演示比其他的更好地指示期望的行为,并且演示的质量通常取决于提供演示的用户的专业知识。

为了解决这些问题,研究人员整合了“信号时间逻辑”(signal temporal logic, STL)来评估演示的质量,并自动对它们进行排名,以创造固有的奖励。

换句话说,即使根据逻辑要求演示的某些部分没有任何意义,使用这种方法,机器人仍然可以从不完美的部分中学习。在某种程度上,系统会对演示的准确性或成功与否得出自己的结论。

“假设机器人从不同类型的演示中学习——可以是动手演示、视频或模拟——如果我做了一些非常不安全的事情,标准方法会做两件事中的一件:要么,他们会完全无视它,或者更糟糕的是,机器人会学到错误的东西,”合著者Stefanos Nikolaidis说,他是南加州大学维特比分校计算机科学助理教授。

“相比之下,这项工作以一种非常智能的方式,以逻辑的形式使用一些常识推理来理解演示的哪些部分是好的,哪些部分是不好的。从本质上讲,这正是人类所做的。”

举个例子,有人跳过停车标志的驾驶演示。在系统的排名中,这将低于一个好司机的表现。但是,如果在这个演示过程中,司机做了一些智能的事情——例如,刹车以避免碰撞——机器人仍然会从这个智能动作中学习。

适应人类偏好

信号时间逻辑是一种富有表现力的数学符号语言,使机器人能够对当前和未来的结果进行推理。前丰田工程师、南加州大学维特比分校计算机科学助理教授Jyo Deshmukh说,虽然该领域之前的研究使用的是“线性时间逻辑”,但STL在这种情况下更可取。

“当我们进入网络物理系统的世界时,比如机器人和自动驾驶汽车,时间是至关重要的,线性时间逻辑变得有点麻烦,因为它可以推理变量的真/假值序列,而STL允许对物理信号进行推理。”

在德什穆克的建议下,普兰尼奇在尼古拉迪斯的机器人实践课程上产生了这个想法。尼古拉迪斯一直致力于开发可以从YouTube视频中学习的机器人。三人决定测试一下。三位教授都说,他们对这个体系的成功程度感到惊讶,两位教授都把普兰尼的辛勤工作归功于他。

“与在许多机器人应用中广泛使用的最先进的算法相比,你可以看到所需演示次数的数量级差异,”Nikolaidis说。

该系统使用《我的世界》风格的游戏模拟器进行了测试,但研究人员表示,该系统还可以从驾驶模拟器甚至视频中学习。接下来,研究人员希望在真正的机器人上进行试验。他们说,这种方法非常适合那些事先知道地图,但地图中存在动态障碍的应用:家庭环境、仓库甚至太空探索漫游者中的机器人。

“如果我们想让机器人成为好队友,帮助人类,首先它们需要非常有效地学习和适应人类的偏好,”尼古莱迪斯说。“我们的方法提供了这一点。”

“我很高兴能将这种方法集成到机器人系统中,帮助它们有效地从演示中学习,同时也有效地帮助人类队友完成协作任务。”

广告

故事来源:

材料所提供的南加州大学.凯特琳·道森(Caitlin Dawson)原创。注:内容可能会根据风格和长度进行编辑。


引用此页

南加州大学。“向机器人展示如何驾驶汽车……只要几堂简单的课。”《科学日报》。《科学日报》,2020年11月19日。< www.koonmotors.com/releases/2020/11/201119153956.htm >。
南加州大学。(2020年11月19日)。向机器人展示如何驾驶汽车……只需几堂简单的课。《科学日报》.2023年6月16日检索自www.koonmotors.com/releases/2020/11/201119153956.htm
南加州大学。“向机器人展示如何驾驶汽车……只要几堂简单的课。”《科学日报》。www.koonmotors.com/releases/2020/11/201119153956.htm(2023年6月16日访问)。

探索更多的
从科学日报

有关的故事

广告