AltDiffusion：提供多语言文本到图像的解决方案

站长网2023-10-13 09:59:522阅

要点:

1. AltDiffusion是一种多语言文本到图像的扩散模型，旨在解决现有文本到图像模型只支持有限语言的问题，它支持18种不同语言，通过多种训练技巧进行训练。

2. 实现AltDiffusion的关键步骤包括:增强文本编码器和UNet的语言能力，进行概念对齐和质量提升，以及使用多语言训练数据。

3. AltDiffusion在多语言理解和文化特定概念捕捉方面优于现有文本到图像模型，同时与其他文本到图像技术（如ControlNet和LoRA）兼容，有望推动研究和实际应用。

AltDiffusion是一种创新的多语言文本到图像的扩散模型，旨在解决现有文本到图像模型仅支持有限语言的问题。它支持18种不同语言，通过多种巧妙的训练技巧，如知识蒸馏和与已经预训练的仅支持英语的模型的结合，以及概念对齐和质量提升等步骤，实现了多语言文本到图像的转化。

这一模型的目标是能够以多种不同的语言生成具有说服力的图像，而不仅仅局限于英语。这将使更多的人能够利用AI图像生成的力量，拥有更多的语言选择，拓宽了应用范围。

AltDiffusion采用了多语言CLIP（Multilingual CLIP）来增强文本编码器的语言能力，通过知识蒸馏等技巧训练多语言文本编码器。随后，将文本编码器的参数冻结，并将其放入一个预训练的仅支持英语的扩散模型中，经过概念对齐和质量提升等训练步骤，将其转化为多语言模型。这些步骤旨在在文本和图像之间建立联系，以生成高质量的多语言图像。

为了训练AltDiffusion，研究人员使用了来自LAION的图像-文本对。在训练的第一阶段，他们筛选了包括18种语言在内的18亿数据，并与英语数据结合。在第二训练阶段，他们使用了一个美学预测器来筛选数据，以进一步提高AltDiffusion模型的多语言能力。

AltDiffusion的能力得到了MG-18和MC-18两个数据集的评估。MG-18用于评估模型生成图像的质量，而MC-18则用于评估模型是否能够捕捉不同语言的文化特定概念。结果显示，AltDiffusion在多语言理解和文化特定概念捕捉方面优于现有模型。