谷歌演示「通用翻译器」：AI 重新生成匹配新语言口型的视频

站长网2023-05-11 11:56:201阅

谷歌正在测试一种功能强大的新翻译服务，这种服务可以用新语言重新配音视频，同时使说话者的唇形与他们从未说过的话同步。它可能非常有用，但该公司已经明确表示存在滥用可能，并采取了预防措施。

这个「通用翻译器」在谷歌 I/O 上展示给大家，是由谷歌新的「技术与社会」部门的负责人 James Manyika 演示的。这个示例表明，只有最近在人工智能方面取得的进步才使这成为可能，但同时也带来了严重的风险，必须从一开始就认真考虑。

这个「实验性」的服务接受一段视频输入，例如，一段最初用英语录制的在线课程讲解，将演讲转录、翻译、重新生成指定语音（匹配风格和语气），然后编辑视频，使演讲者的嘴唇更加贴合新的音频。

这样看来它基本上就是一个深度伪造生成器。但在其他地方用于恶意目的的技术确实具有真正的效用。实际上，在媒体界有一些公司正在做这样的事情，通过后期制作重新配音。该演示令人印象深刻，但必须说，技术还有很长的路要走。

但这些工具是专业的工具，在严格的媒体工作流程中提供，而不是在 YouTube 上传页面上的选项。通用翻译器也还没有这样做，但如果有一天实现了，谷歌需要考虑它可能被用于制造虚假信息或其他未预料的危险。

Manyika 称这是「大胆和安全之间的紧张关系」，在二者之间找到平衡并不容易。但显然它不能随意发布供任何人使用而没有限制。尽管如此，获得的好处（例如在没有字幕或需要重新录制的情况下提供 20 种语言的在线课程）是不可否认的。

Manyika 说：「这对于提高学习理解水平是一个巨大的进步，我们在课程完成率方面看到了有希望的结果。但存在着原始技术可能被不良行为人滥用创建深度伪造的困境。因此，我们建立了服务的防护栏以防止滥用，并且仅授权给合作伙伴使用。很快，我们将在最新的生成模型中集成新的数字水印创新，以帮助解决错误信息的挑战。」

这当然是一个开始，但我们已经看到那些同样不良行为的人在绕过这样的障碍时能力很高。这些「防护栏」有些含混不清，仅与合作伙伴分享只有在模型不泄漏的情况下才能起作用，而模型往往会泄漏。数字水印技术的确是一个要追求的好方法，但到目前为止，大多数应对数字水印的方法都被像裁剪、调整大小和其他轻微的媒体小编辑操作所击败。

谷歌今天展示了许多人工智能的功能，既有新的，也有熟悉的，但它们是否有用和安全还是一个谜。但让像 Manyika 这样的研究人员在他们举办的最大的活动中获得演示时间，说「哇，这可能有问题，所以我们正在做这个和那个，谁知道它会不会起作用」，至少是一种相当诚实的方式来解决这个问题。