首页站长资讯仅两秒延迟！新一代AI语言翻译系统Seamless发布，实现跨语言交流新突破

仅两秒延迟！新一代AI语言翻译系统Seamless发布，实现跨语言交流新突破

站长网2023-12-01 10:44:261阅

划重点:

🗣️ 实时表达:Seamless首次公开发布，通过SeamlessExpressive和SeamlessStreaming模型，实现语音到语音翻译中的表达保留和低延迟流式处理。

🌍 多语言支持:SeamlessM4T v2基础上构建，覆盖英语、西班牙语、德语、法语、意大利语和中文等语言，实现真实感情和风格的跨语言传递。

🔄 数据工具公开:发布metadata、数据对齐工具，扩展SeamlessAlign语料库，助力研究社区收集更多翻译数据。

在我们日益互联的世界中，语言差异可能成为沟通的障碍。Seamless作为新一代AI语言翻译系统，通过SeamlessExpressive和SeamlessStreaming模型的首次发布，为实时、跨语言交流带来了全新的突破。

SeamlessExpressive是专注于语音到语音翻译的表达保留模型，而SeamlessStreaming则是一种流式翻译模型，以约两秒的延迟提供最先进的结果。这两个模型都基于SeamlessM4T v2，这是在8月份发布的基础模型的最新版本，展现了在自动语音识别、语音到文本、文本到语音等方面的性能提升。

与以往在表达性语音研究方面的努力相比，SeamlessExpressive更加关注韵律的某些未被充分探索的方面，例如语速和节奏停顿，同时保留情感和风格。该模型目前在英语、西班牙语、德语、法语、意大利语和中文之间的语音到语音翻译中保留了这些元素。

SeamlessStreaming的突破性在于实现了与说不同语言的人实时对话。与传统系统在说话者完成句子后进行翻译不同，SeamlessStreaming在说话者仍在说话时进行翻译，使得对话更接近实时。该模型支持近100种输入输出语言的自动语音识别和语音转文本，以及近100种输入语言和36种输出语言的语音到语音翻译。

除了模型本身，Seamless还在今天发布了metadata、数据和数据对齐工具，旨在帮助研究社区收集更多的翻译数据。这包括SeamlessAlign的扩展元数据，涵盖额外115，000小时的语音和文本对齐，以及SeamlessAlignExpressive的元数据，作为表达性焦点版本的数据集。此外，还提供了mExpresso的翻译文本数据，这是Expresso的多语言平行扩展，以及用于收集更多翻译数据的工具。

Seamless作为新一代AI语言翻译系统，在实现表达保留和流式处理方面取得了重要进展，为跨语言交流提供了更加自然和真实的体验。