阿里对口型项目EMO开启内测可将照片转为唱歌视频

站长网2024-04-26 04:10:481阅

千呼万唤始出来!阿里对口型项目EMO终于开启内测了。它能够将一张简单的照片转化为唱歌视频，为用户提供了一种全新的数字人出镜体验。

EMO模型的特点:

简便的操作: 用户只需提供一张照片和克隆的语音模型，即可定制自己的数字人像。

低成本: 与Heygen等需要录制长视频和高算力成本的产品相比，EMO模型提供了一种免费且高效的解决方案。

广泛的适用性: 不仅限于写实人像，3D模型和二次元漫画风格也能生成视频，满足不同用户的需求。

自然的表达: EMO模型在talking head领域首次提出weak condition（弱控制）设计，通过较弱的控制条件引导diffusion去噪过程，生成表情丰富、表现力强的人脸。

技术实现:

EMO模型通过算法pipeline中的face locator和speed layers控制人脸生成区域与人头动作频率，保留了diffusion模型的生成创造能力。

模型在训练中学习音频特征与图像像素的对应关系，放大音频特征对相关像素的影响，确保人物表情口型与音频特征一致。

EMO在250小时的人物讲话视频上训练，不仅匹配了音频中具体发音与人像口型，还发现了音频中的语气特征与人物表情的关联性，将音频中的情绪色彩反映到人物微表情上。

内测链接申请地址:https://www.wjx.top/vm/exOVbr1.aspx#

项目地址:https://top.aibase.com/tool/emo

0001

评论列表

共(0)条

阿里对口型项目EMO开启内测 可将照片转为唱歌视频