为机器人装“大脑” 谷歌发布RT-2大模型

站长网2023-08-02 12:03:080阅

大语言模型不仅能让应用变得更智能，还将让机器人学会举一反三。在谷歌发布RT-1大模型仅半年后，专用于机器人的RT-2大模型于近期面世，它能让机器人学习互联网上的文本和图像，并具备逻辑推理能力。

该模型为机器人智能带来显著升级——即便在机器人没有经历过的场景下，RT-2也通过学习让它根据指令完成任务。

谷歌DeepMind机器人技术主管Vincent举例称，如果让以前的机器人丢垃圾，必须要专门训练它理解什么是垃圾、如何捡起和扔到哪去。现在RT-2能够从网络数据上学习识别和处理垃圾的方法，不必逐一特训不同的场景了。

AI的发展让机器人的“大脑”实现了物种进化般的迭代，另一面是，机器人失控的风险也随之增加。

RT-2大模型实现机器人自主学习

ChatGPT的火爆，让世界见识了大语言模型的强大力量。人们对大模型不再陌生，开始使用基于大模型的应用绘画、作图、搜索资料、设计剧情等，而妙用不止于此。谷歌脑洞大开，专门给机器人造了个大模型，让机器人拥有了自主学习能力。

不久前，谷歌旗下DeepMind发布了一款名为Robotics Transformer2（简称RT-2）的新型视觉-语言-动作(VLA)模型，该模型相当于机器人的专用大脑，能够指导机器人识别视觉和语言，让其理解指令并做出正确的操作。

谷歌介绍，RT-2基于Transformer模型开发，根据互联网上的文本和图像进行训练，直接指示机器人执行动作。就像用文本训练大语言模型学习人类知识一样，RT-2可以将网络数据喂给机器人，指导机器人的行为。

为了展示RT-2的能力，谷歌发布了一个演示视频，让搭载RT-2的机器人完成一些它此前从未经过训练的项目。

视频中，面对一堆随意放在桌上的物品，搭载了RT-2模型的机械臂能够听懂人类语言并做出相应的反应。

比如，命令它“捡起已灭绝的动物”，机械臂就能从狮子、鲸鱼、恐龙这三个塑料玩具中准确选择恐龙;如果命令它将香蕉放到2 1的总和的位置，机械臂直接把香蕉放在了数字3的位置;再让它把草莓放入碗里，机器人也能够无视苹果、橘子等水果，选对草莓。

不过，在演示过程中，机器人也出现了错误，它不能准确地识别汽水口味，这让它看起来还有不小的优化空间。

即便还不够完美，但机器人能够自主理解、推理和执行任务，已经是一个长足的进步。

DeepMind机器人技术主管Vincent以“扔垃圾”这个看似简单的操作举例，如果想要以前的系统执行丢弃垃圾的行为，必须明确训练它识别和处理垃圾，而RT-2可以从大量网络数据中学习并理解什么是垃圾，并在未经特定训练的情况下进行识别。尽管未曾接受过相关动作训练，但它能掌握如何丢弃垃圾的方法。“考虑到垃圾的抽象性，比如各种薯片包或香蕉皮在你食用后就成为了垃圾，RT-2能通过其视觉语言培训数据理解这个概念，并完成任务。

RT-2就给机器人输入了认知能力，让它能够在互联网上学习和进步，甚至还能进行一般推理。这对于机器人产业来说，不亚于一次物种进化。

机器人加速进化再触AI安全底线

事实上，给机器人装上大脑这件事，谷歌并不是第一次尝试了。就在去年12月，谷歌发布了RT-1大模型，它可以标记机器人输入和输出的动作，在运行时实现高效推理，并使实时控制成为可能。

RT-1模型是在一个包含130k个“情景”的大型真实世界机器人数据集上训练的，该数据集涵盖700多项任务，由13台机器人在17个月内收集而成。也就是说，RT-1大模型可以让单一机器人，学习其他机器人在过去积攒的经验，从而具备相应的能力。

RT-1大模型论文

当时，谷歌让搭载RT-1的机器人进行一系列复杂操作，包括拾取和放置物品、打开和关闭抽屉、将物品放入和取出抽屉、将细长的物品直立放置、敲倒物体、拉出餐巾纸和打开罐子。据团队称，RT-1以97%的成功率执行了700多个训练指令，并且可以泛化到新的任务。

但对于没有具体学习过的场景，RT-1还是很难自主依据推理完成任务。根据测试，它在不熟悉的场景下，操作的准确率只有32%。

如果说当时的RT-1还是个“教什么学什么”的小学生，RT-2则进步成了能够举一反三的初高中生。在没见过的新场景中，RT-2的性能表现几乎翻了一番，从RT-1的32%提高到了62%，而此时距离RT-1的发布时间仅仅过去了半年多。

谷歌DeepMind机器人技术主管Vincent解释，RT-2建立在RT-1模型的基础上，消除了一些复杂性;使单个模型不仅能够执行基础模型中看到的复杂推理，而且还可以输出机器人动作。最重要的是，它表明在少量的机器人训练数据下，该系统就能够将其语言和视觉训练数据中嵌入的概念转变为指导机器人行为，即使是从未接受过训练的任务。“简而言之，RT-2的能力在于将信息转化为行动，这显示了其快速适应新环境和情况的潜力。”

得益于大模型的快速进步，机器人产业迎来了质变，按照谷歌的迭代速度，或许明年就能看到更强大的RT-3。

研究机器人的不止谷歌，特斯拉也对机器人兴趣浓厚。今年5月，特斯拉发布了一个视频，5个人形机器人在工厂中直立行走，它们装备了很多传感器，能够探测周围环境，执行分拣物品等任务。特斯拉的机器人也在走AI路线，这家电动汽车厂商的CEO马斯克称，特斯拉正在尝试打通电动汽车的辅助驾驶软件（FSD）系统和人形机器人的底层模块，让机器人智商在线。

而倘若后续特斯拉机器人能够接入RT-2甚至更高级的大模型，机器人的能力预计又将大幅进步。

但越来越聪明的机器人，也加剧了人们对AI失控的担忧。大模型的软件应用可能会在网络学习中操控人类的思想、舆论，金属外壳的人形机器人直接具备了物理杀伤力。

有人在社交媒体发问，“人类是否亲手打开了一个潘多拉魔盒?”

如何规训机器人，仍然回到了大模型安全性这一老问题上，但这个问题至今还未在全球的研究与应用领域达成共识。

技术另一面的未知危机仍未解除，装上AI大脑的机器人出现了，你会期待还是警惕?