随意转换声音，ElevenLabs发布“语音转语音”

站长网2023-11-24 09:14:360阅

语音生成式AI平台Elevenlabs在官网发布了“语音转语音”（STS）功能，可帮助用户将语音自动转换成别的语音，例如，上传了一段男声语音，可以自动转换成女声、老年或者儿童的声音。

传统的语音转换方法是，需要采集音频样本，然后提取基频、共振峰、时域和频域特征等，再进行去噪、归一化，整个流程非常繁琐复杂，而STS直接实现一键语音转换。

此外，STS还能对转换声音的强度、语气、表现力、风格进行可视化控制。不过STS目前只能转换24秒的语音，对于短广告、抖音、快手等短视频平台来说是足够用了。

免费体验地址:https://elevenlabs.io/voice-changer

STS技术简单介绍

Elevenlabs表示，STS的技术灵感来自人脸转换。我们经常会看到人脸合成应用，将自己的图像与某位明星的图像相结合，生成全新的人脸。

简单来说，实现这一技术是获取一张面部图片并映射其属性，然后通过神经网络和深度学习对性别、年龄、发型等属性进行修改、匹配，以完全特定的合成目标。

STS采取了同样的转换策略，提取用户上传语音的情感、语气和表达方式等，然后与转换目标语音进行比对、微调完成音频的过渡与匹配。

同时支持用户对语音进行可视化控制，例如，修改强度、音峰、情感等参数。

STS使用方法

STS的使用方法非常简单全程可视化控制，「AIGC开放社区」根据其免费账号体验了一下。

1）登录https://elevenlabs.io/voice-changer然后选择“Speech to Speech”语音到语音转换。

2）上传你要转换的语音，这里我们选择一个男性声音的三国演义介绍。

三国--原音，AIGC开放社区，23秒

上传的男声原音

3）对转换目标的参数进行设定，包括稳定器、清晰度、相似度、风格等，也可以直接选择“Add Voice”添加系统内置语音。这里我们选择一个Domi女声。

4）全部设定完毕后，点击下方的“Generate”开始自动合成。完毕后，可以直接下载语音。

目前，只能转换24秒的语音，但Elevenlabs表示，未来会突破这个限制。

0000

评论列表

共(0)条