首页站长资讯Deepgram推创新文本转语音模型Aura 支持实时文本转语音
14162

Deepgram推创新文本转语音模型Aura 支持实时文本转语音

站长网2023-12-11 11:47:170

要点:

Deepgram推出Aura,一款创新的文本转语音模型,提供比所有语音AI替代品更快速、更高效的人类般对话质量。

Aura致力于为实时语音AI代理提供真实的声音,包括及时的回应、在思考时使用自然的语音填充词汇(如“嗯”和“啊”),以及根据对话背景调节语调和情感。

Deepgram期望通过Aura成为实时、对话式语音AI代理的完整平台,为开发者提供构建未来高吞吐量、实时AI代理所需的基本构件。

深瞳公司推出了一款名为Aura的全新文本转语音模型,旨在满足实时语音AI代理的需求。随着大型语言模型(LLMs)的普及,语音交互成为访问LLMs及其解锁体验的主要手段。Aura的推出旨在解决当前语音AI供应商存在的速度、成本、可靠性和对话质量等方面的问题。相较于当前市场上的主流替代品,Aura在早期版本的盲评试中被评为更贴近人类声音,其开发计划也得到了提前扩展。

官方地址:https://deepgram.com/learn/aura-text-to-speech-api-waitlist

针对语音AI技术的不同应用,Deepgram区分了两个主要领域:高产出和高吞吐量。高产出关注打造完美声音,用于视频游戏或有声读物等项目,强调声音质量。而高吞吐量则着眼于实时对话,如快餐订餐、预约和了解汽车经销商的最新优惠等任务,注重对话流畅性和效率。Deepgram的目标是通过Aura在高吞吐量领域提供高效的文本转语音转换,以实现用户体验的平滑和可靠。

Aura的独特之处在于赋予AI代理更具人类特征的声音,包括及时的回应、在思考时使用自然的语音填充词汇,以及根据对话背景调整语调和情感。早期版本的Aura在盲评试中被评为比其他替代品更贴近人类声音,甚至在某些音频片段中超过了人类演讲者。

多年来,Deepgram一直致力于推动语音识别和口头语言理解技术的可能性。他们的团队不仅发展了能处理对话音频细微差异的新型转换器架构,还在处理各种语言、口音和方言的同时处理了口语中的不流畅和对话中的变化。通过有限约束构建模型,以优化其速度和效率。Deepgram还拥有内部数据标注和数据运营团队,通过构建定制工作流,记录、存储和传输大量音频,并持续扩充其高质量数据库,用于模型训练。

Aura被设计为速度、质量和效率的全能解决方案,旨在成为高质量选项中最快速、快速选项中最高质量的文本转语音模型。Deepgram强调,Aura的发布仅是一个开始,他们期待在与客户和合作伙伴的合作中继续完善和扩展该模型,共同定义AI代理的未来。计划于明年初正式发布,而开发者可以通过加入Aura的等待列表来获取早期体验并提供直接反馈。

0000
评论列表
共(0)条