南京大学发布AvatarBooth 可用文本生成3D人类化身

站长网2023-06-28 15:35:250阅

过去，元宇宙曾经大热，但之后却被冷落。一个很大的原因是生成3D化身的方法大多需要昂贵且复杂的采集设备，以构建高保真的化身模型。因此，对于消费级别的应用开发来说难以负担。

现在，南京大学的研究人员提出了一种全新的方法AvatarBooth。该方法可以生成高质量和可定制的化身，能够准确反映特定个体的视觉和文字特征。与之前只能基于简单文本描述生成化身的方法不同，该方法可以根据任意捕获的面部或身体图像生成个性化头像，并支持基于文本的模型生成和编辑。

论文链接:https://arxiv.org/pdf/2306.09864.pdf

项目链接:https://zeng-yifei.github.io/avatarbooth_page/

AvatarBooth通过学习一个神经隐含表面来表示人类化身的形状和外观。该模型使用脸部和身体的预训练或微调的潜扩散模型来监督学习。姿势一致的约束被提出，在外观定制生成的任务中加强了扩散模型的微调，提供了更准确的多视图监督，在姿势空间中具有一致的外观。模型中还包括一个多分辨率的SDS方案，可以从粗到细地预测化身的精细结构和外观。

只需要一人的几张照片，模型就可以合成3D化身。化身不仅具有个性化独特的外观，而且还可以符合输入文本提示中指定的抽象特征，如「戴眼镜」或「某种风格的帽子」等属性。用户可以方便地编辑和修改化身的整体视觉形象。

为了量化化身生成质量，研究人员招募了30名志愿者，并使用对比方法CLIP-Actor、AvatarCLIP和TEXTure生成了10个化身。每个用户都从四个方面（与文本提示的对应性、外观质量、几何质量和面部的保真度）对结果进行评估，分数范围从1(最差)到5(最好)。结果表明，文中提出的新方法在四个指标上都获得了最高分，证明该模型有能力生成具有更详细外观和几何形状的化身。