阿里巴巴等开源语音情感基座模型emotion2vec
情感识别技术在各种场景中都有广泛的应用,如客服机器人根据客户语气调整策略、智能助手根据用户情绪提供建议、情感健康应用监测用户情感状态。为了支持情感理解,上海交通大学、阿里巴巴、复旦大学和香港中文大学的研究者联合开发了通用的语音情感表征模型 emotion2vec。
这个模型利用自监督学习方法在大量无标记的公开情感数据上进行预训练,成功学习到高度通用的语音情感特征。经过多语言和不同场景数据集测试,emotion2vec 在多种情感任务上表现超越了现有技术,为各种情感理解场景提供强大支持,有望提升用户体验和满意度。
基于 emotion2vec,研究者们进一步开发了语音情感识别基座模型。首先在语音情感识别学术数据集上对 emotion2vec 进行 fine-tune,然后对15万小时中英数据进行标注,筛选文本情感与语音情感相同且置信度高的数据,再次 fine-tune emotion2vec,得到该版本权重。相较于以往工作,通过迭代训练和大幅增加数据量,这个模型可作为语音情感识别的基座模型,已经开源并在 modelscope 上线体验 demo。
emotion2vec 的总体框架包括句子级别损失、帧级别损失和在线蒸馏。句子级别损失通过均方误差计算整体全局情绪,包括单嵌入、块嵌入和全局嵌入三种方法。帧级别损失设计为逐帧任务,学习上下文情绪信息。在线蒸馏是一种自监督学习策略,学生网络通过反向传播更新参数,教师网络通过指数移动平均更新参数,促使模型不断学习提升情感特征捕捉和理解能力。
实验结果显示,emotion2vec 在 IEMOCAP 数据集上表现最佳,性能超越其他 SSL 预训练模型和专家模型。在其他主流英语数据集上也展现出优异泛化能力,证明了其在不同环境中的先进性能。这表明 emotion2vec 不仅在训练数据集上表现优秀,还能适应不同录音环境,为多样情感任务提供支持。
emotion2vec通用语音情感表征模型:
https://www.modelscope.cn/models/iic/emotion2vec_base/summary
emotion2vec语音情感识别基座模型在线体验:
https://www.modelscope.cn/models/iic/emotion2vec_base_finetuned/summary
论文链接:
https://arxiv.org/abs/2312.15185
开源代码仓库:
https://github.com/ddlBoJack/emotion2vec
- 0000
- 0000
- 0001
- 0000
- 0001