< Nature深度:大模型如何“赋能”机器人?机器人又如何“训练”大模型?_行业资讯_华体育app官网登录|华体会手机版
2024-06-01 行业资讯

  对于看着《星球大战》长大的一代人来说,我们的城市和家庭中缺少像 C-3PO 一样的机器人,这令人失望。那些充满常识、能在家中和工作场所提供帮助的人形机器人在哪里?

  人工智能(AI)的快速的提升可能会填补这一空白。斯坦福大学机器学习和机器人学研究员 Alexander Khazatsky 说:“如果我们是最后一代没有实现这些科幻场景的人,我也不会感到惊讶。”

  从 OpenAI 到 Google DeepMind,几乎所有掌握人工智能技术的大型科技公司,都在致力于将支持聊天机器人的多功能学习算法(即基础模型)接入机器人中。这样做的目的是让机器人具备常识性知识,从而可处理各种任务。许多研究人员认为,机器人能很快变得很强大。英伟达机器人技术营销经理 Gerard Andrews 说:“我们始终相信,我们正处于机器人技术变革的关键时刻。”

  与此同时,机器人还有助于改进人工智能。许多研究人员希望,在人工智能训练中加入具身体验,可以让他们更接近实现“通用AI(AGI)”的目标——AI在任何任务中都具有类似人类的认知能力。Meta 人工智能研究员 Akshara Rai 说:“真正智能的最后一步必须是物理智能(physical intelligence)。”

  不过,尽管许多研究人员对最近将AI带入机器人感到兴奋,但他们也提醒说,一些更令人印象非常深刻的演示仅仅是演示而已,往往来自那些急于引起轰动的公司。麻省理工学院机器人专家 Rodney Brooks 说,从演示到部署可能是一条漫长的道路。

  这条道路上有很多障碍,包括收集足够多的正确数据来供机器人学习、处理易受影响的硬件以及解决安全问题。新加坡国立大学人机互动专家 Harold Soh 说,“应该探索”用于机器人的基础模型。但他对这一战略能否像一些研究人员预测的那样带来机器人革命持怀疑态度。

  从广泛应用于制造业的机械臂,到用于救援任务的无人驾驶汽车和无人机,机器人系统涵盖了多种自动化设备。大多数机器人都采用了某种人工智能技术,比如识别物体。MassRobotics 联合发起人 Joyce Sidopoulos 说,但它们也被编程用于执行特定任务、在特定环境中工作或依赖某一些程度的人工监管。即使是由波士顿动力(Boston Dynamics)制造的机器人 Atlas,也是通过仔细映射环境并从内置模板库中选择最佳动作来工作的。

  对于大多数涉足机器人领域的AI研究人员来说,他们的目标是创造出更自主、适应范围更广的机器人。这可能会从能够“取放”任何工厂产品的机械臂开始,进而发展成能够为老年人提供陪伴和支持的人形机器人。“应用领域十分普遍,” Sidopoulos 说。

  人类的形态很复杂,而且并不总是针对特定的物理任务来优化,但它有一个巨大的优势,那就是完全适合人类构建的世界。人形机器人也应该能像人一样与世界进行物理互动。

  然而,控制任何机器人都十分艰难,更不用说人形机器人了。看似简单的任务,比如开门,实际上却很复杂,需要机器人了解不同的门机械装置如何工作,对把手施加多大的力,以及如何在操作的流程中保持平衡。而现实世界是千变万化、瞬息万变的。

  目前正在兴起的一种方法是使用与图像生成器和聊天机器人(如 ChatGPT)相同的人工智能基础模型来控制机器人。这些模型使用大脑启发的神经网络,从大量通用数据中学习。它们在训练数据的元素之间建立关联,当在被要求输出时,利用这些关联生成适当的单词或图像,往往能取得惊人的效果。

  同样,机器人基础模型也是利用互联网上的文本和图像进行训练的,为其提供有关各种物体的性质及其背景信息。它还能从机器人操作的实例中学习。例如,能够最终靠机器人试验和出错的视频,或人类远程操作机器人的视频,以及与这些操作相关的指令来训练机器人基础模型。经过训练的机器人基础模型可以观察场景,并利用其学习到的关联来预测什么操作会带来最佳结果。

  Google DeepMind 建立了一个先进的机器人基础模型——Robotic Transformer 2(RT-2),其可以操作移动机械臂。与其他机器人基础模型一样,它也是利用互联网和机器人操作视频进行训练的。得益于在线 可根据指令做相关操作,即使这些指令超出了机器人以前见过的其他机器人的操作范围。例如,当被要求将饮料罐移到 Taylor Swift 的照片上时,RT-2 可以成功完成,尽管 Swift 的照片并没再次出现在 RT-2 接受训练的 130000 次演示中。

  换句话说,从互联网搜索中收集到的知识(比如 Swift 的长相)被带到了机器人的行动中。Google DeepMind AI和机器人研究员 Keerthana Gopalakrishnan 说:“很多互联网概念就这样被转移了。”这从根本上减少了机器人为应对不一样的情况而需要获得的物理数据量。

  但要完全理解动作的基础原理及其(可能会产生的)后果,机器人仍然需要从大量物理数据中学习。这就是问题所在。

  对于机器人相关的活动,却没有相应的大型数据集。数据的缺乏让机器人“进步缓慢”,Khazatsky 说。

  数据池化(pooling data)是解决这一问题的方法之一。Khazatsky 和他的同事创建了 DROID2,这是一个开源数据集,收集了一种机械臂(Franka Panda 7DoF)约 350 小时的视频数据。机器人相机记录了数百种环境下的视觉数据,包括浴室、洗衣房、卧室和厨房。Khazatsky 说,这种多样性有助于机器人出色地完成以前从未遇到过的任务。

  学习一个机器人的物理世界,应该有助于人工智能操作另一个机器人身体——就像学习英语能够在一定程度上帮助语言模型生成中文一样,因为单词所描述的世界的基本概念是相同的。这似乎行之有效。合作产生的基础模型名为 RT-X,与其他研究人员在一种机器人架构上训练的模型相比,它在实际任务中的表现更好。

  Covariant 也在努力扩大机器人数据的规模。该公司自 2018 年开始收集全球仓库中 30 种不同机械臂的数据,这些机械臂均使用 Covariant 软件运行。Covariant 的机器人基础模型 RFM-1 不仅收集视频数据,还包括传感器读数,比如举起的重量或施加的力。Gopalakrishnan 说,这种数据应该有助于机器人执行任务,比如操纵柔软的物体——理论上,能够在一定程度上帮助机器人知道怎么避免破坏香蕉。

  Covariant 建立了一个专有数据库,这中间还包括数千亿个 token——现实世界中机器人的信息单位——这与训练 GPT-3 的数据规模大致相当。“我们拥有比别人多得多的真实世界数据,” Chen 说,RFM-1 将允许运行 Covariant 软件的机器人操作员输入或说出通用指令,如“把垃圾桶里的苹果捡出来”。

  虽然模仿人类在提高机器人技能方面潜力巨大,但要做到这一点却很难。例如,机器人视频一般都带有上下文和指令数据,而人类视频则没有。

  获得无限物理数据的最后一个可行方法是通过模拟。许多机器人学家正在努力构建 3D 虚拟现实环境,其物理原理与真实世界类似,然后将其连接到机器人大脑进行训练。模拟器可以产生大量数据,让人类和机器人在罕见或危险的情况下无风险地进行虚拟互动,而且不会磨损机械。Andrews 说:“如果你不得不让大量机械臂进行训练,直到它们达到高度灵巧的水平,那么它们的电机可能会因为过热而损坏。”

  模拟器拥有非常良好的物理特性,但不是完美的物理特性,制作多样化的模拟环境几乎与收集多样化的数据一样困难。”

  为扩大机器人数据的规模,Meta 和英伟达都在仿真方面做了大量工作,并分别建立了复杂的仿真世界——Habitat 和 Isaac Lab。在这些模拟世界中,机器人在几个小时内就能够得到相当于多年的经验,然后在试验中成功地将学到的知识应用于在现实世界中从未遇到过的情况。Rai 说:“模拟是机器人技术中一个极其强大但却被低估的工具,我很高兴看到它的发展势头慢慢的变好。”

  许多研究人员乐观地认为,基础模型将有利于制造出可以替代人类劳动的通用机器人。今年 2 月,机器人公司 Figure 获得了 6.75 亿美元的投资,该公司计划在其通用人形机器人中使用 OpenAI 开发的语言和视觉模型。在一段演示视频中,机器人回应了一个人提出的“吃点东西”的要求,给了他一个苹果。

  这种演示应该谨慎看待。他说,视频中的环境非常稀疏。添加更复杂的环境可能会让机器人感到困惑——就像复杂环境可以欺骗无人驾驶汽车一样。“机器人专家对机器人视频持怀疑态度是有道理的,因为我们制作视频时知道,在 100 个镜头中,通常只有一个是有效的。”

  硬件同样是一个挑战:机器人很复杂,而且经常损坏。Chen 说,硬件一直在进步,但“很多人只看到了基础模型的前景,却不知道部署这些类型的机器人有多么困难”。

  机器人在大多数情况下要大量别的类型的感官数据,比如触觉或本体感觉(一种身体在空间中的位置感)。这一些数据集目前还不存在。“所有这些都是缺失的,我认为这是人形机器人在世界上高效工作所必需的。”

  另一个重大挑战——安全性。自大型语言模型(LLMs)开始大量出现以来的两年里,它们已经被证明会产生错误和有偏见的信息。它们还可能被诱骗去做程序设定它们不能做的事情。让AI系统拥有身体,可以将这些错误和威胁带到物理世界。Gopalakrishnan 说:“若机器人出错,它实际上会对你造成身体伤害,或者打碎东西,或者造成其他损坏。”

  只有当智能体(agent)能够与物理世界互动时,才能产生真正的智能”这一假设的机构之一。有人说,现实世界中的互动可以让人工智能超越学习模式和预测,真正理解这样一个世界,并做出正确的推理。

  未来会发生啥?Brooks 说,机器人将不断得到改进并应用于新的领域,但它们的最终用途“远没有人形机器人取代人类劳动那样吸引人”。但也有的人觉得,开发一种能够做晚饭、跑腿和叠衣服的实用安全的人形机器人是有可能的,只是可能要花费数亿美元。Khazatsky 说,“我相信会有人做到的,只要花费大量的金钱和时间。”

  Nature深度:大模型如何“赋能”机器人?机器人又如何“训练”大模型?

  又一修图魔法,MIT、谷歌团队推出受控扩散模型Alchemist,任意修改图像属性,或颠覆视频游戏、机器人等领域

  GPT-4、Llama 2 比人类更懂“人类心理”?最新研究登上 Nature 子刊

CONTACT US
欢迎随时与我们联系