FreeU:无需额外训练或微调即可提高图像生成质量
要点:
1. 自由扩展技术(FreeU)是一种新的人工智能技术,用于提高生成模型的质量,无需额外的训练或微调。
2. 该技术利用概率扩散模型,通过调整主干和跳跃连接之间的贡献来平衡低频和高频特征,从而改善生成图像的质量。
3. 自由扩展技术已经在文本到图像生成和文本到视频生成等应用中展示出显著的生成输出质量提升。
FreeU是一种新的人工智能技术,旨在提高生成模型的质量,而无需额外的训练或微调。它采用概率扩散模型,这是一种先进的生成模型类别,特别适用于与计算机视觉相关的任务。
与其他生成模型类别不同,如变分自动编码器(VAE)、生成对抗网络(GAN)和矢量量化方法,扩散模型引入了一种新颖的生成范式。这些模型利用固定的马尔科夫链来映射潜在空间,从而促进捕捉数据集中潜在结构复杂性的复杂映射。
项目地址:https://chenyangsi.top/FreeU/
最近,这些模型在各种计算机视觉应用中展示出了卓越的生成能力,包括图像合成、图像编辑、图像到图像的转换以及文本到视频的生成。
扩散模型包括两个主要组件:扩散过程和去噪过程。在扩散过程中,高斯噪声逐渐加入输入数据,逐渐将其转化为几乎纯粹的高斯噪声。
相反,在去噪过程中,通过一系列学习的反向扩散操作来恢复原始输入数据。通常,使用U-Net来预测每个去噪步骤中的噪声去除。现有研究主要集中在使用预训练的扩散U-Net进行下游应用,对扩散U-Net的内部特性进行了有限的探讨。
一项联合研究从扩散模型的传统应用中出发,通过研究扩散U-Net在去噪过程中的有效性,引入了一种新的方法,称为“FreeU”,它可以在不需要额外计算负担的情况下增强生成样本的质量。
在推理阶段,引入了两个专门的调制因子,以平衡主干和跳跃连接的特征贡献。首先,称为“主干特征因子”的因子旨在放大主干的特征图,从而增强去噪过程。
然而,观察到主干特征缩放因子的引入,虽然带来了显著的改进,但有时会导致不必要的纹理过度平滑。为了解决这个问题,引入了第二个因子,“跳跃特征缩放因子”,以减轻纹理过度平滑的问题。
FreeU框架展示了与现有扩散模型的无缝适应性,包括文本到图像生成和文本到视频生成等应用。通过使用稳定扩散、DreamBooth、ReVersion、ModelScope和Rerender等基本模型进行基准比较,对这种方法进行了全面的实验评估。当在推理阶段应用FreeU时,这些模型显示出生成输出质量的显著提升。总之,FreeU是一种引人注目的技术,可以显著提高生成模型的质量,而无需额外的训练或微调,已在多个应用中得到成功应用。
- 0000
- 0000
- 0000
- 0000
- 0000