霉霉憨豆讲中文、蔡明阿姨秀英语，能让你说任何语种的AI神器火了

站长网2023-10-26 14:15:050阅

如果你平时玩微博、逛B站，最近肯定被一条“没有译制片腔调的翻译”视频刷屏过。

影片中，霉霉、特朗普、艾玛沃森、憨豆先生等一众外国友人操着流利的中文，口型语气声线无缝衔接，毫无违和；而以塑造“毒舌女王”角色著称的蔡明阿姨，则来了个如假包换的英文脱口秀，听口音还是伦敦市区的。

还没看的朋友可以点开感受一下：

搬运视频的博主表示自己真的被吓到了，完全一致的音色完美契合的口型，早已超越了真人配音所能达到的水准。评论区也炸开锅，网友们不敢相信自己的眼睛和耳朵，直呼外面的世界已经发展成这样了吗，别说老年人了，这谁看了不迷糊啊？

图片来自微博

影片原作者「johnhuu教英语」称，要达成这种“没有译制片腔调的配音效果”，需要同时符合三个条件：地道的口语翻译、克隆说话者的声音、替换嘴型。关于是怎么做出来的他却卖了个关子，表示自己是“先掌握了这种技术，但是制作起来还是非常麻烦”。

图片来自抖音

但是聪明的网友们很快发现，其实还挺容易的？

Johnhuu所使用的工具应该是HeyGen，一款在线AI数字人视频生成平台。它将人工智能技术融入一般的视频制作流程中，为用户快速生成定制化内容。目前可以做到创建自己的AI形象、制作虚拟主播、文字/图片转视频、声音克隆等。

这则风靡全网的影片似乎就是结合了HeyGen前不久更新的Video Translation（视频翻译）功能。只需上传一段视频，选择要转换的语言，就可以让视频里的「美国甜心」霉霉保留原本的声线语气，摇身一变成为“中文十级学者”了（Johnhuu亦有对翻译、字幕等进行剪辑调整）。

而在国外的社交网站上，大家也早已兴奋地玩出了花：

从硅谷到中国发展的连续创业者Jim Fields就在X对HeyGen大加赞赏，他尝试把他说的英语翻译成中文，又把他讲的中文翻译回英语，表示“效果还挺溜儿！说不定未来我也可以'说'广东话

HeyGen的Co-founder和CPO Wayne Liang录制了英文视频，来展示日语和法语版本。更有人一次性解锁了韩语、印尼语、意大利语、土耳其语、德语、英语 6 种语言，每一个都惟妙惟肖，切换自如，不输母语者。

图片来自X

于是互联网上，金发碧眼的网友们满世界纯熟地“你好、扣尼基哇”，亚洲的家人们优雅地微微一笑：“Bonjour、Hola”。语言的巴别塔似乎暂时消失了，毕竟，谁不想看到说着异国他乡外语的“世另我”呢？

所以，这个让大家如此着迷的HeyGen是个什么来头，怎么忽然就爆火了？

HeyGen是谁

其实，推出HeyGen的公司中文名叫诗云科技，成立于 2020 年底，总部在深圳。他们的愿景是“颠覆内容生产的方式，用 AI 生成来打造新一代的内容生产平台” ，希望代替摄像机，让用户以更为低廉的成本完成高质量内容创作。其核心技术是深度学习、生成对抗网络（GAN）、强化学习和3D建模等。目前已获得来自IDG资本、真格基金、红杉中国和百度的早期投资。

创始人Joshua Xu和Wayne Liang是美国卡内基梅隆大学的两位校友。其中Joshua曾是Snapchat 前 100 号员工，Monetization团队的 3 号工程师和Ads Ranking团队首席工程师，参与创建了Snapchat机器学习平台Barista。Wayne则曾任字节跳动美国的设计主管，负责企业软件和内部产品创新的设计。

图片来自HeyGen

从公司发布的招聘信息来看，团队成员人数不多且都很年轻，主要来自 Snapchat、谷歌、Pinterest、字节、腾讯和百度等国内外互联网大厂，在洛杉矶和旧金山湾区都分布有办公点。

图片来自诗云科技/Boss直聘

今年 4 月，Joshua在X上高兴地向大众宣布，HeyGen在推出短短 7 个月内就迭代了 30 多个版本，实现 100 万美元的年度经常性收入（ARR），达到一个重要的里程碑。

图片来自X

8 月份，步履不停的他又在社交平台官宣了自己的最新数字人影像「Joshua Avatar 2.0」：下面这两个视频片段都是百分百由AI生成的，展示了Joshua的虚拟形象和声音克隆。他说，这次HeyGen对数字人的视频质量进行了大幅改进，并微调了语音技术，可以完美模仿自己的独特口音和语言模式。效果之炸裂，又引发了一波小轰动，获得 300 多万观看量。

那么目前，我们用HeyGen都可以做些什么呢？

AI视频内容创作矩阵

登进账户控制面板，官方罗列了以下这四大主要功能。

图片来自HeyGen

首先，最受欢迎的就是制作自己的AI Avatar。你可以通过录制一段 2 分钟左右的清晰视频，短时间内创建自己的数字人形象，生成符合你声线的多语种视频。值得一提的是，正如Joshua 2. 0 演示的那样，这里的你并非像以往常见的AI换脸软件，只是生硬的面部在动，而是表情、口型、肢体动作都自然一致，足以以假乱真。

同时，用户还可以在线AI制作或上传图片生成影像，让你的照片动起来、并且会说话。推上有网友就先在 GPT- 4 里用DALL·E3 捏出皮克斯风格的卡通人物图片，再传到HeyGen分分钟搞定，制作小动画从此不求人。