AI公司用“AI合成数据”来训练AI大语言模型成趋势

站长网2023-07-19 19:53:520阅

站长之家（ChinaZ.com）导语:AI 公司正试图通过“创造信息”来获得用于训练 AI 系统的大量数据，这被称为 "合成数据"。现在，AI 模型的发展已经达到了人类创造的数据的极限，因此需要新的方法来训练模型。

目前，训练 AI 模型的数据主要来自于互联网，用于训练这些系统的数据包括数字化的图书、新闻文章、博客、搜索查询、Twitter 和 Reddit 帖子、YouTube 视频和 Flickr 图像等内容。

但是随着生成式 AI 技术的发展，即使是资金充裕的 AI 公司也很难找到易获取且高质量的数据。合成数据的使用可以绕过这个问题，公司可以使用 AI 模型生成文本、代码等信息，并用于训练更先进的模型。

根据 Cohere 的首席执行官 Aidan Gomez 的说法，合成数据已经很多，只是没有被广泛传播。例如，为了训练一个模型进行高级数学，Cohere 可能会使用两个互相交流的 AI 模型，其中一个扮演数学导师，另一个扮演学生。Gomez 表示:“他们正在进行三角学的对话…… 这完全是合成的。这些只是模型想象出来的。然后人类观察这段对话，如果模型说错了内容，就进行修正。这是目前的现状。”

微软研究院的两项最新研究表明，合成数据可以用于训练比 OpenAI 的 GPT-4或 Google 的 PaLM-2等最先进的软件更小更简单的模型。其中一篇论文描述了 GPT-4生成的一组短篇故事的合成数据集，该数据集只包含一个典型四岁孩子可能理解的词语。这个数据集被称为 TinyStories，然后用于训练一个简单的 LLM，能够生成流利和符合语法的故事。

另一篇论文展示了可以使用合成的 Python 代码进行训练，这些代码以教科书和练习的形式存在，他们发现这些代码在编码任务上表现相对不错。

一些初创公司如 Scale AI 和 Gretel.ai 已经提供合成数据作为服务，这种数据可以保护个人隐私，同时保持统计数据的完整性。Gretel 由前美国国家安全局和中央情报局的情报分析师创立，与谷歌、汇丰银行、Riot Games 和 Illumina 等公司合作，通过合成数据的方式来增强他们现有的数据，以帮助训练更好的 AI 模型。

然而，使用低质量的合成数据可能会阻碍进展，并可能导致技术的退化。随着 AI 生成的文本和图像开始充斥互联网，AI 公司在搜索训练数据时不可避免地会使用其自身早期版本生成的原始数据，这种现象被称为 “dog-fooding”。一项来自牛津和剑桥等大学的研究最近警告称，训练模型时使用自身的原始输出（可能包含虚假或捏造的信息）可能会逐渐损害和降低技术的质量，造成 “不可逆的缺陷”。尽管存在这些风险，AI 研究人员认为合成数据有助于加速超级智能 AI 系统的发展。