DeepMind新机器学习模型UniSim:模拟现实以训练机器人和游戏角色
划重点:
- Google DeepMind与多所大学合作,研发出一款新的机器学习模型UniSim,用于创建逼真的模拟环境,用于培训各类人工智能系统。
- UniSim的特点是能够模拟现实世界的互动,包括高级指令和低级控制,为其他需要真实世界数据的模型提供训练示例。
- UniSim的应用潜力广泛,包括培训机器人、游戏角色,以及填补模拟和现实世界之间的鸿沟。
谷歌 DeepMind 的研究人员与加州大学伯克利分校、麻省理工学院和阿尔伯塔大学合作开发了一个名为UniSim的机器学习模型,可以为训练各种人工智能系统创建真实的模拟。
研究人员表示,下一个生成模型的重要里程碑是模拟人类、机器人和其他互动实体采取行动时的逼真体验,而UniSim正是他们希望实现这一目标的工具。UniSim被描述为一个“通用的现实世界互动模拟器”。
尽管UniSim仍处于早期阶段,但它已经展现了实现这一目标的第一步。UniSim可以成为需要复杂真实世界互动数据的领域的宝贵工具,例如机器人技术和自动驾驶汽车。
UniSim是一种生成模型,可以模仿人类与环境以及其他实体之间的互动。它能够模拟高级指令(如“打开抽屉”)和低级控制(如“移动到x,y坐标”)的视觉效果。这些模拟数据可以用作其他需要真实世界数据的模型的训练示例。
UniSim的数据源非常广泛,包括互联网文本-图像对、导航、操作、人类活动、机器人数据以及模拟和渲染等。研究人员将这些多样的数据格式整合成一个统一的格式,通过使用Transformer模型和扩散模型进行编码和生成,将观察、行动和结果联系在一起。
UniSim还具有生成逼真视频的能力,包括人物执行各种动作和环境导航。它还能够执行长时间模拟,例如机器人手执行多个动作的序列。
此外,UniSim还能生成“随机环境转换”,例如揭示毛巾下的不同物体,这对于计算机视觉应用中的模拟反事实和不同场景非常有用。
UniSim的真正价值在于与强化学习环境的整合,这使得UniSim可以在机器人等应用中模拟各种结果,无需真实世界训练。这一方法的优势包括无限的环境访问、接近真实世界的观察以及对时间控制频率的灵活性。
UniSim有广泛的应用前景,包括在游戏和电影中创建可控内容,以及在模拟中培训直接用于现实世界的虚拟实体。UniSim还可以为视觉语言模型提供大量的训练数据,这对于需要执行复杂多步任务的模型非常有益。研究人员还指出,UniSim可用于培训高级视觉语言规划器、低级强化学习策略等多种模型。
UniSim还可以模拟罕见事件,这一特性在机器人技术和自动驾驶汽车等领域特别有用,因为数据收集可能既昂贵又有风险。尽管UniSim的培训成本相对较高,但研究人员希望它能够引发广泛的兴趣,以改善机器智能。
- 0001
- 0000
- 0000
- 0000
- 0000