首页站长资讯微软研究人员推新AI方法，用合成数据改进高质量文本嵌入

17378

微软研究人员推新AI方法，用合成数据改进高质量文本嵌入

站长网2024-01-04 15:31:430阅

划重点:

🔍 研究人员提出了一种简单而新颖的方法，只使用合成数据就能获得高质量的文本嵌入

🔍 这种方法在文本嵌入领域取得了显著的成果，无需使用大量标记数据

🔍 使用专有的大型语言模型生成合成数据，取得了优异的性能并创造了新的记录

微软公司的研究团队最近提出了一种独特且简单的方法，用于生成高质量的文本嵌入。这种新方法仅使用合成数据和极少的训练步骤（少于1，000步），就取得了令人瞩目的成果。相比于现有的方法，该方法不依赖于多阶段的预训练和有限的标记数据微调，避免了繁琐的训练流程和手动收集数据集的问题，这些数据集通常在任务多样性和语言覆盖方面存在问题。

该方法利用专有的大型语言模型在约100种语言的文本嵌入任务中生成了各种合成数据。与复杂的预训练阶段不同，该方法使用基本的对比损失函数，将开源的仅解码的大型语言模型在生成的合成数据上进行微调。

研究团队进行了一些测试以验证该方法的有效性。该模型在激烈竞争的文本嵌入基准测试中展现了出色的结果，而无需使用任何标记数据。当使用合成数据和标记数据的组合进行改进时，该模型在 BEIR 和 MTEB 基准测试上取得了新的记录，成为了文本嵌入领域的最先进方法。

专利的大型语言模型如 GPT-4被用来生成包括多语言指令在内的各种合成数据。通过利用 Mistral 模型强大的语言理解能力，该方法在几乎所有工作类别上在激烈竞争的 MTEB 基准测试中取得了出色的性能。

该研究表明使用大型语言模型可以显著提高文本嵌入的质量。该研究的训练过程极大地减少了对中间预训练的需求，相较于当前的多阶段系统，更加简洁高效。

论文网址:https://arxiv.org/abs/2401.00368

微软研究人员推新AI方法用合成数据改进高质量文本嵌入

0000

评论列表

共(0)条

相关推荐

韩国流行音乐厂牌HYBE利用AI技术6种语言发行歌曲
站长资讯站长网2023-07-20 16:55:59
0000
苹果叫停 ProMotion高刷新率显示器原本计划2022年夏季上市
站长资讯站长网2023-04-12 12:45:01
0000
当打假网红被打假

站长资讯站长网2024-09-05 16:50:44
0000
星巴克下场做短剧，解锁品牌营销新玩法？
站长资讯站长网2024-10-06 23:36:43
0000
OpenAI 宣布每周有一亿用户使用ChatGPT
站长资讯站长网2023-11-07 10:07:34
0000