MagicDance:基于扩散的人体运动传递框架生成逼真舞蹈视频

站长网2024-01-02 11:25:251阅

近年来，计算机视觉领域的关键突破之一是MagicDance框架的问世，这是一种基于扩散的模型，旨在彻底改变人体运动传递。MagicDance框架通过两阶段训练策略，聚焦于人体动作解缠和外观因素，为特定目标身份生成逼真的人类舞蹈视频，成为计算机视觉和人工智能领域的新秀。

在计算机视觉领域，人体运动转移一直是一个极具挑战性的任务。虽然现代模型在分析实时场景中的面部特征和物体方面已经取得了显著进展，但人体运动转移依然是一个巨大的挑战。这一任务要求将面部和身体运动从源图像或视频重新定位到目标图像或视频，涉及到复杂的姿势序列和面部表情。

MagicDance框架的独特之处在于其专注于舞蹈视频生成，通过将2D人类面部表情和动作转移到具有挑战性的人类舞蹈视频中，实现了高度逼真的效果。MagicDance采用了稳定扩散模型，结合外观控制和姿势控制，以实现精准而有效的图像到运动传递。该框架在两阶段训练过程中关注外观解缠和肤色、面部表情、服装等外观因素，使其能够生成既逼真又具有原始身份信息的舞蹈视频。

通过在TikTok数据集上进行预训练，MagicDance框架展现了卓越的泛化能力和高质量的生成结果。在外观和运动方面的泛化性表现使得MagicDance框架不仅在复杂的运动序列中表现出色，而且在不同人类身份和面部表情下也能够保持高水准的逼真性。与现有框架相比，MagicDance框架在Face-Cos得分等指标上实现了明显的提升，表明其在保存身份信息和生成逼真舞蹈视频方面具有显著的优越性。