新图像合成模型LCM SD生成图片推导步骤减少至4步！

站长网2023-10-24 22:42:391阅

要点:

研究人员提出了一种新的图像合成模型，称为潜在一致性模型（LCM），可以在少步推理的情况下生成高分辨率的图像。

LCM是从预训练的潜在扩散模型（LDM）中有效地提取出来的，可以直接预测潜在空间中的概率流ODE的解，避免了多次迭代的需要。

LCM还引入了一种新的微调方法，称为潜在一致性微调（LCF），可以在定制的图像数据集上进行快速的少步推理，实现了文本到图像的生成。

图像合成是计算机视觉领域的一个重要研究方向，目标是根据给定的条件生成逼真的图像。近年来，潜在扩散模型（LDM）在这方面取得了显著的成果，能够生成高分辨率和高质量的图像。然而，LDM的一个主要缺点是它们需要进行多次迭代的采样过程，导致生成速度缓慢。

为了解决这个问题，本文受一致性模型的启发，提出了一种新的图像合成模型，称为潜在一致性模型（LCM）。LCM可以利用任何预训练的LDM，包括稳定扩散模型(SD)，并通过少步推理生成高分辨率的图像。LCM的核心思想是将引导反向扩散过程视为求解一个增广概率流ODE(PF-ODE)，并设计一个网络来直接预测该ODE在潜在空间中的解，从而减少迭代次数和计算量。

LCM可以从预训练的无分类器引导扩散模型中有效地提取出来，在只需要32个A100GPU小时的训练时间内，就可以生成768×768分辨率的高质量图像。以往我们用 SD 生成图片起码需要20步的推导步骤，但是使用 LCM 只需要4步就行，从一些测试结果看6-8步可能是一个理想的步骤。