OpenAI 机器人手项目的时间表和回顾

解决魔方在追求通用机器人操作

Rubik's Cube

一场不可能的争夺。如果不采用拆解方法，就无法使用任何已知的魔方算法来解决这种争用问题。使用魔方呈现的立方体状态

良好的机器人控制是很难的。简单明了。不要让波士顿动态的周期性视频愚弄你：拉出解开的后翻和公园是机器人非常罕见的技能。事实上，正如在 2015 年 DARPA 机器人挑战赛中显而易见的那样，跌倒和故障是（有点假）现实世界中最先进的机器人的标准操作模式。

获得第三名的机器人，来自卡内基梅隆大学的CHIMP，在设计上利用了相对安全的向前坠落和恢复策略。这些机器人是聪明的专业人员在世界上最好的机器人实验室工作多年工作的结果。

我们可以称机器人在复杂环境中经历的坠落和失败是”可传授的时刻”。然而，在传统的机器人控制中几乎没有机器学习（波士顿动力首席执行官马克·赖伯特表示，他们的机器人根本不使用学习）。大多数尝试相对开放式任务的机器人（如 DARPA 挑战）在事情横向移动时，也不得不依靠远程（人）操作。

您可能还喜欢：
Mirobot 为机器人手臂带来机会

强化学习（RL）也是著名的困难。RL 使一些基本玩具环境的短期工作，并胜过人类性能在某些视频和棋盘游戏，但在更复杂的情况下，RL 继续遭受由多个来源产生的组合爆炸。

结合解释深度学习模型的挑战，复杂环境的组合爆炸及其对RL训练的影响，说明了为什么自动驾驶汽车的机器学习不是端到端的。它主要限于计算机视觉任务（尽管简化的端到端车道保持是可行的）。

你可能会想得出这样的结论：如果机器人在复杂环境中的控制是艰难的，而玩具问题之外的强化学习是很难的，那么将这两个挑战结合起来将是双重徒劳的。然而，OpenAI，以及大约13，000年的模拟时间，希望倡导一种不同的视角，例如通过强化学习单枪匹马地解决魔方谜题。

目标之一。如果皮质共能器是任何迹象，则通用末端效应器（又名手）的精细运动控制是一般智力需要的相当大的部分。

作为灵巧操作的一般学习的代表性任务，OpenAI 选择专注于操纵 Rubik 的立方体，从混乱状态到已解决状态，反之亦然。OpenAI 于 2019 年 10 月出版和演示的预印本，是 2 年工作的成果。这一进程纳入了本组织所追求的若干核心研究方针的渐进进展和技术。

在解决魔方的理论方面，托马斯·罗基奇和莫利·戴维森在2014年表明，任何3×3魔方的争夺都可以在26个动作或更少的动作中解决。至于问题的物理部分，最快的机器人解决的非官方记录是本·卡茨和贾里德·迪卡洛的魔方，为+0.38秒，略好于由阿尔伯特·比尔的Sub1重装（0.637秒）创造的吉尼斯纪录。有趣的是，魔方的对比还使一个相当高效的立方体驱逐舰（如下面的视频所示）。

如果魔方的立方体谜题基本上已经计算解决，并且机器人的建立可以比立方体本身的机械极限更快地解决立方体，为什么手头的魔方操作仍然是一个有趣的问题？大多数机器人应用都是高度专业化的超人性能，但只擅长于一项特定任务。

这些是制造火箭、进行高通量生物筛选、分类煎饼的机器人，一般而言，它们为人类与机器人关系中的恐惧和不确定性火上浇油。但是这些特殊用途的机器人并没有接近人类手的多用途操作能力。为机器人提供人类引以为豪的多功能问题解决需要通用学习算法和效应力学，而如果机器人要在严格控制的环境之外对我们的生活产生积极影响，我们需要这种能力。

魔方也许能够快速解决立方体，但你很难想要一个机器人，这样操作，以执行照顾生病的亲人的职责。机器人需要通用的灵活性，如果他们要与人类共享生活和工作空间，并实现遥远的自主角色，可以帮助人类探索宇宙。目前，现代机器人在很大程度上是工具，但未来机器人将成为工具使用者。

灵巧的操作片段及其起源

Pieces of Dexterous Manipulation and Their Origins 照片CC BY SA 影子机器人公司。

让我们从中得到一件事：在OpenAI中进行的灵巧的手工操作项目不是解决魔方谜题，即确定一系列动作来匹配每边的所有颜色。相反，该项目侧重于执行上述运动与自定义版本的影子机器人手，同时使用Kociemba的算法，以确定哪些移动尝试。

在一些报告中，有人错误地指出这是一个主要争论点。加里·马库斯在7次批评的清单中3次改写了这一点。OpenAI在论文和博客文章中都提到了Kociemba算法的使用，并且用同样的语言来描述另一个组的类似工作，只有2×2多维数据集在模拟中。似乎使用的语言并不罕见或极有可能被相关方误解。总之，这种批评不是很有趣（这并不是说没有合理的批评，在任何情况下，深度强化学习也被用来解决的问题，确定哪些动作，以解决一个混乱的立方体。

在人工智能领域，人们普遍认为，无论是遵循显式编程还是机器学习，需要高度逻辑或分析推理（人类通常将其归类为困难的东西）的任务实际上对机器来说都容易得多。感知和移动性仍然更具挑战性。这是一个合理的解释，为什么深蓝成功击败加里卡斯帕罗夫，当时世界上最好的棋手。

机器在许多任务（包括灵巧的对象操作，尤其是需要概括的任务）上仍然远远落后于人类。20世纪80年代，著名的人工智能研究人员观察到感知和移动性比推理更难的观点，其中最引人注目的是汉斯·莫拉韦克、马文·明斯基和罗德尼·布鲁克斯。这现在被称为莫拉韦克的悖论。

OpenAI 的操纵项目始于 2017 年，最新的结果依赖于 OpenAI 内部开发的一些巧妙的技巧，以及机器和强化学习社区更广泛的操作

据报道，它花了大约13，000年的模拟训练，以实现模拟2real转移到物理机器人手，和任何一个技术中提到的图形可以负责3倍左右的训练效率。例如，在本文的实验中，手动域随机化至少比使用自动域随机化慢 3 倍（而设置随机化级别不佳会使情况更糟）。由于培训具有协同效应，因此，如果培训不能有效地结合在一起，培训完全可能需要数年时间，而不是几个月。

我们将重点介绍本文中讨论的两个关键的新贡献：自动域随机化和嵌入和添加观察，但下面的表 1 列出了其他技巧和原始研究的链接。最后，我们将讨论项目最有趣的结果：元学习的出现。这使得控制策略能够适应不断变化的物理（在模拟中）和干扰，如戴手套操纵（在现实世界中）。

技术	起源
（自动）域随机化	Sadeghi等人2016年，托宾等人2017年，以及（当前文件2019）
嵌入和添加观测量	当前论文 2019
焦力损失权重	郭等人2018
快速	OpenAI 2019
LARS 优化器	您等人2017
不对称演员-批评架构	平托等人2017
可视化和可解释性	Olah等人2018

表 1：包含在多维数据集操作项目中的技术及其来源的非详尽列表。

域随机化变为自动域随机化

机器学习在机器人技术中的应用历来受到机器人平台物理限制的限制。与模拟相比，机器人往往昂贵且速度慢，但不幸的是，在模拟环境中进行训练会导致过度安装，并难以转移到现实世界。域随机化是克服这些问题的一种方法。域随机化一直是学习基于图像的无人机导航和精确定位块（和垃圾邮件）的一个关键部分。

模拟的有效训练是有限的，因为很难得到所有的细节来紧密地匹配现实。即使使用高保真仿真，随着物理部件磨损、温度漂移等，参数也会因机器人而异。这些可以是视觉参数，如纹理和颜色，物理变量，如摩擦和关节迟滞，甚至偏离正常物理，如重力常数。在以前的工作中，通过人工猜测和检查方法设置域随机化级别。获得随机化错误的级别可能会导致

顾名思义，自动域随机化使此过程具有适应性。在每个单集模拟中，每个参数都从可能值的正态分布中采样，但分布的参数会随着性能的提高而自动调整。这导致训练比在魔方任务上使用手动域随机化快 3 倍。ADR 与手动 DR 在选择不佳的级别上的好处要大得多。低水平的随机化导致政策，从来没有很好地转移技能，无论他们经过多长时间的训练。另一方面，将 DR 级别设置得过高，培训可能需要很长时间。

为 OpenAI 的灵巧操作嵌入和添加

OpenAI灵巧操作的魔方操作部分需要几个月的连续训练，但研究人员不断调整模拟机器人所经历的参数和条件。有时，这需要改变或增加政策中可用的观测值，这通常需要改变第一层的尺寸以进行补偿，从而大大放弃训练。为了解决这个问题，他们使用512元素矢量形状的固定大小潜在空间，根据需要嵌入各种观测值。这给我的印象是一个有趣的方式来绕过可变输入/输出维度，值得进一步研究。

OpenAI 中的紧急元学习观察

如果我们只局限于论文的一个方面，它正是 OpenAI 观察到的新兴元学习。如上所述，在模拟中学到的技能需要域随机化，以便传输到真实场景和从机器人到机器人。也许不太明显的是，使用域随机化（尤其是此处讨论的自适应变体）不仅允许技能转移，还允许技能适应。可以推测，当代理面对过于复杂的环境时，他们转而学习关系规则，从而允许代理根据在测试期间获得的经验来校准其策略。我怀疑这种”学习学习”的概念在实际的 AI 任务中将变得越来越重要。

在Rubik的立方体操作任务中，关于元学习的最令人印象深刻的结果在模拟中得到了展示：作者表明他们能够改变模拟运行中的物理特性，并且策略得以恢复。即使是残疾的手指关节也没有阻止政策适应。虽然断指后的操纵效率没有恢复到全手水平，但它与断指基线相当。在现实世界中，元学习的效果被转化为在各种扰动下解决任务。一些挑战（如用毛绒长颈鹿戳）可能看起来很傻，但这意味着以这种方式学习的控制策略应该能够应对机械漂移和退化以及可变环境。

OpenAI 灵巧操作中缺少什么？

早些时候，我们提到，对 OpenAI 论文的有趣批评远远多于他们使用 Kociemba 算法进行规划的事实。这是本节的前提。

性能不是很好，他们只报告了对物理机器人的少数试验。在物理测试中，OpenAI 只报告 10 次尝试完成一系列移动，以解决完全或部分争抢这些结果不是很好，但鉴于故障模式，它们相当不错。

丢弃立方体似乎不应该是这样的终端事件：学习拾取立方体不会比学习操作立方体（尽管这将会导致硬件更改）更难，而竞争对手经常使用表面作为辅助在单手解决。尝试次数有限更值得怀疑，因为在每个条件下 10 次尝试太少，无法很好地了解策略的能力。另一个问题是，物理求解通常是反向尝试的（从取消到炒），并遵循静态移动序列，减少品种。我宁愿看到的结果包括各种移动序列进行了更多的试验。

他们几乎设法解决了任务的视觉感知，但不得不回到具有嵌入式位置感应的Giiker立方体上。该项目的目标之一是使用三个 RGB 摄像机和一组视觉网络来估计立方体姿势和状态。不幸的是，仅仅依靠视觉将操纵性能下降一半以上，部分杂乱的解决任务的成功率从 60% 降至 20%（完全争用无法单独使用视觉模型解决）。不幸的是，同时解决视觉和操纵问题证明是太多了。另一方面，他们确实继续使用视觉模型推断姿势在他们的所有物理测试，这是相当不错的。

自我感知，或感应手的位置，会使操纵的壮举更令人印象深刻。相反，他们使用了PhaseSpace的非常奇特的运动跟踪系统，该系统使用LED闪烁，编码识别模式作为运动捕捉标签。对精密点运动跟踪的需求在很大程度上是由于手乐器本身的限制，但戴手套的手操作会更令人印象深刻，如果他们管理它与指尖覆盖。

关于OpenAI灵巧操作的最终想法

围绕每个新的机器人突破的炒作周期似乎总是涉及一些恐惧的培养。这经常被夸大到模仿的地步（例如，引用我们的”我们的新机器人霸主”），但与机器人相关的焦虑的根源来自与快速变化的世界相关的不确定性和风险。机器人已经并将继续改变我们生活和工作的方式。

适应可能并不总是那么容易，但人类智能的灵活能力不太可能很快完全过时。万一对保持人类相关性有任何疑问（至少对于巧妙解决魔方），我想以以下性能由有竞争力的Cuber Feliks Zemdegs签署。

进一步阅读

谁将在机器人”武器”竞赛中获胜？

麻省理工学院开发机器人系统来操作看不见的物体