微软研究员发布EmotionPrompt方法:增强多语言模型的情感智能
划重点:
- 研究关注情感智能对多语言模型的潜在影响,提出了EmotionPrompt方法。
- 使用情感提示显著提高生成任务性能,验证多语言模型具备情感智能潜力。
- 结果表明多语言模型的情感智能可以通过情感刺激来增强,有望改进各种应用领域。
微软研究员最近发布了名为“EmotionPrompt”的研究成果,旨在增强多语言模型的情感智能。
情感智能被认为是人类素质的一个关键组成部分,它涵盖了情感理解、情感处理以及如何利用情感数据来指导逻辑和分析过程,如问题解决和行为管理。研究指出,情感控制对于影响人类问题解决能力具有重要作用,因此情感智能在教育和健康等多个领域都有广泛应用。
图源备注:图片由AI生成,图片授权服务商Midjourney
这项研究由微软、威廉与玛丽大学、北京师范大学和香港科技大学等机构合作进行,旨在探究情感智能与复杂人工智能模型之间的关联。研究表明,新兴的大语言模型在多个任务中表现出色,包括推理、自然语言处理和生成,以及STEM问题解决,这使它们成为实现人工通用智能的有望研究方向之一。
尽管最近的研究表明大语言模型可以识别和处理情感线索,但还不清楚它们是否具备解释心理情感冲动的潜力,这对于改进其问题解决能力至关重要。研究人员设计了EmotionPrompt方法,旨在通过情感刺激来探究多语言模型的情感智能。结果表明,情感提示显著提高了生成任务的性能,表现出平均性能、真实性和责任性能的提升。
他们特别设计了11条心理短语,作为LLM的后续提示,引发情绪反应。 在他们的广泛调查中使用了确定性任务和生成性任务,它们一起涵盖了广泛的难度级别。他们使用多个法学硕士(例如 FlanT5-Large、Vicuna、Llama2、BLOOM、ChatGPT 和 GPT-4)对24项指令归纳任务和21项策划的 BIG-Bench 任务进行了试验,所有这些都是确定性的,可以使用通用指标。他们对106名参与者进行了一项人体研究,以判断使用基于 GPT-4的普通提示和情感提示生成任务的质量,因为这些活动不适合传统和自动评估。他们的人类研究表明,情感提示可以显着提高生成性任务的绩效(绩效、诚实度和责任指标平均提高10.9%)。另一方面,标准实验表明LLM拥有情商,并且可以通过情绪刺激来增强。
此外,研究还分析了情感刺激对最终输出的影响,结果显示大语言模型的梯度受益于情感刺激,从而改善了原始提示的表示。最后,研究还探讨了同时使用多个情感线索如何影响性能,发现这样做可以显著提高结果。
根据研究结果,EP02是指令归纳中最好的刺激,比最差的刺激高出6.06%,而 EP06是 BIG-Bench 中最好的刺激。重要的是要记住,任务复杂性、任务类型和使用的指标等几个因素可能会影响刺激的绩效。
这项研究为多语言模型的情感智能潜力提供了初步的研究,有望在各种应用领域取得进展。
论文地址:https://arxiv.org/abs/2307.11760
- 0003
- 0000
- 0000
- 0000
- 0000