英伟达发布新型 Perfusion AI 图像生成器:只需 100KB 模型大小 就可创造性地描绘物体
在人工智能艺术创作工具的快速发展中,英伟达的研究人员推出了一种创新的文本到图像个性化方法,名为 Perfusion。但与竞争对手相比,它并不是一个价值百万美元的超级大型模型。Perfusion 的大小只有 100KB,训练时间只需 4 分钟,能够在表达个性化概念时保持其特性,同时具有显著的创造性和灵活性。
图片来自Nvidia
Perfusion 是由英伟达与以色列的特拉维夫大学合作撰写的研究论文中介绍的。尽管其大小较小,但在特定版本的效率方面,它能够胜过像 Stability AI的 Stable Diffusion v1.5. 新发布的 Stable Diffusion XL (SDXL)和 MidJourney 等领先的 AI 艺术生成器。
Perfusion 中的主要新想法被称为「Key-Locking」。它通过在图像生成过程中将用户想要添加的新概念(如具体的猫或椅子)与更一般的类别相连接。例如,将这只猫与更广泛的「猫科动物」的概念联系起来。
这有助于避免过拟合,即模型过于狭窄地针对训练样例进行调整。过拟合使得 AI 难以生成新的创造性版本。
通过将新猫与猫科动物的一般概念联系起来,模型可以以许多不同的姿势、外观和环境来描绘猫。但它仍然保留了基本的「猫性」,使它看起来像预期的猫的模样,而不是任何随机的猫科动物。
因此,简单来说,Key-Locking 能够让 AI 灵活地表达个性化的概念,同时保持其核心身份。就像给艺术家以下指导:「画一下我的猫汤姆,它正在睡觉、玩耍毛线和嗅花。」
为什么英伟达认为「少即是多」
Perfusion 还可以将多个个性化的概念合并到单个图像中,实现自然互动,而不像现有工具那样独立学习概念。用户可以通过文本提示引导图像创作过程,合并像具体的猫和椅子这样的概念。
Perfusion 提供了一个显著的功能,允许用户在推理期间通过调整一个只有 100KB 大小的模型控制视觉保真度(图像)和文本对齐度(提示)之间的平衡。这种能力使用户能够轻松探索 Pareto 前沿(文本相似度与图像相似度之间的权衡),并选择符合其特定需求的最优平衡,而无需重新训练。值得注意的是,对模型进行训练需要一些技巧。
过多地关注模型的复制会导致模型一遍又一遍地产生相同的输出,并且使其过于严格地遵循提示而没有自由通常会产生不好的结果。灵活调整生成器与提示的接近程度是是重要的定制组件。
其他 AI 图像生成器也有让用户微调输出的方法,但它们体积庞大。以 Stable Diffusion 中常用的微调方法 LoRA 为例,它可以增加几十兆字节甚至超过 1GB 的应用程序大小。另一种方法是文本反转嵌入,它体积较小,但准确度较低。目前最准确的技术之一 Dreambooth 训练的模型体积达 2GB 以上。
相比之下,英伟达表示,与前面提到的领先人工智能技术相比,Perfusion 可产生卓越的视觉质量和提示对齐效果。与微调整个模型的方法相比,超高效的大小使得在微调生成图像的方式时只更新所需的部分成为可能。
这项研究与英伟达日益专注于人工智能的发展方向保持一致。随着英伟达的 GPU 继续主导 AI 模型的训练,该公司的股价今年已经上涨了 230%。在 Anthropic、谷歌、微软和百度等公司投入数十亿美元进行生成 AI 的过程中,英伟达的创新 Perfusion 模型可能会给它带来优势。
目前,英伟达只是发表了研究论文,并承诺很快发布代码。
英伟达 Perfusion 模型:
https://research.nvidia.com/labs/par/Perfusion/
- 0000
- 0000
- 0000
- 0000
- 0000