19015

英伟达推文生图模型 ConsiStory：免训练、可生成连贯图片

站长网2024-02-21 09:11:311阅

划重点:

⭐️ 英伟达和特拉维夫大学研究人员共同开发了一种免训练、可生成连贯图片的文生图模型 ConsiStory。

⭐️ ConsiStory 通过主体驱动自注意力（SDSA）和特征注入等核心模块，在不需要任何训练或调优的情况下实现图像主体的一致性。

⭐️ 该模型还包含锚图像和可重用主体功能，提供主题一致性的参考，避免了传统训练方法中针对每个主题进行训练的难题。

英伟达与特拉维夫大学的研究人员联手开发了一款名为 ConsiStory 的文生图模型（目前尚未开源），旨在解决目前文生图模型在生成内容一致性方面的挑战。

ConsiStory 采用了一种全新的方法，通过主体驱动自注意力（SDSA）和特征注入等核心模块，实现了图像主体的一致性，无需任何训练或调优。

SDSA 模块是 ConsiStory 的核心之一，扩大了扩散模型中自注意力层，允许不同图像中的主体保持一致的外观。通过主体蒙版遮蔽背景区域的敏感信息，不同图像中的主体可以相互 "对齐"，保持一致性。而特征注入则建立在扩散特征空间的密集对应图上，确保主体相关的纹理、颜色等细节特征在整个批次中互相 "对齐"，进一步增强了主体间的一致性。

此外，ConsiStory 还提供了锚图像和可重用主体功能，锚图像作为主题信息的参考，引导图像生成过程以保持一致性。可重用主体则通过共享预训练模型的内部激活，避免了传统方法中针对每个主题进行训练的难题，实现了0训练成本。这些功能共同助力 ConsiStory 成为一款无需训练即可生成连贯图片的文生图模型，为 AI 图像生成领域带来了新的可能性。

论文地址:https://arxiv.org/abs/2402.03286

英伟达推文生图模型ConsiStory免训练可生成连贯图片

0001

评论列表

共(0)条

英伟达推文生图模型 ConsiStory：免训练、可生成连贯图片

英特尔首席执行官承认英伟达是人工智能市场「明显的领导者」

Silo AI面向欧洲推新开源语言模型“Poro” 涵盖欧盟24种语言

苹果新增118个emoji iOS17.4Beta1开放侧载

OpenAI 敦促联邦法官驳回一起诽谤诉讼

苹果正式发布首个空间计算设备 Vision Pro 和全新 visionOS 系统

​英伟达推文生图模型 ConsiStory：免训练、可生成连贯图片

英特尔首席执行官承认英伟达是人工智能市场「明显的领导者」

Silo AI面向欧洲推新开源语言模型“Poro” 涵盖欧盟24种语言

苹果新增118个emoji iOS17.4Beta1开放侧载

OpenAI 敦促联邦法官驳回一起诽谤诉讼

苹果正式发布首个空间计算设备 Vision Pro 和全新 visionOS 系统

英伟达推文生图模型 ConsiStory：免训练、可生成连贯图片