谷歌搜索推出EdiT5 具备语法检查功能
要点:
谷歌搜索引擎引入了名为EdiT5的文本编辑AI模型,具备语法检查功能,提高了搜索结果的语法准确性和速度。
EdiT5模型采用了一种革命性的方法,将语法错误校正视为文本编辑问题,采用T5Transformer编码-解码架构,大大减少了解码步骤,降低了延迟。
通过精心的数据训练和模型大小的优化,EdiT5模型在语法错误校正性能方面表现出色,同时具有低延迟。
谷歌搜索引擎引入了一项革命性的语法校正功能,由EdiT5模型提供支持,该模型采用了一种创新的方法来解决复杂的语法错误校正问题,旨在提高搜索结果的语法准确性和速度。传统上,语法错误校正一直被视为翻译问题,使用自回归变换器模型。
虽然有效,但这种方法在自回归解码方面存在效率问题,限制了并行处理能力。EdiT5团队重新构想了语法错误校正问题,将其视为文本编辑问题,并采用了T5Transformer编码-解码架构,大大减少了解码步骤,降低了延迟。该模型使用编码器来确定哪些标记保留或删除,生成草稿输出,然后可以使用非自回归指针网络进行可选的重新排序,解码器仅插入草稿中缺少的标记,大大减少了传统翻译型语法错误校正的处理时间。
论文地址:https://aclanthology.org/2022.findings-emnlp.156.pdf
为了进一步提高解码速度,团队将解码器简化为单层,同时增加了编码器的大小,这一战略性的调整有效地平衡了工作负载,并使EdiT5模型取得了惊人的平均延迟仅为4.1毫秒的成绩。在公开的BEA语法错误校正基准测试中,性能评估显示了EdiT5的卓越性能,一个具有391百万参数的大型EdiT5模型优于一个具有248百万参数的T5基础模型,提高了F0.5分数,这是用于测量校正准确性的指标,这一改进伴随着显著的9倍加速,展示了该模型的卓越效率。
研究还强调了模型大小在生成准确的语法校正中的关键作用,团队利用一种称为硬蒸馏的技术,将大型语言模型(LLMs)的优势与EdiT5的低延迟相结合,通过培训教师LLM并利用它为学生EdiT5模型生成培训数据,确保了准确性和速度之间的强大协同作用。开发过程还包括对训练数据的精细调优,以确保最佳性能。培训集由不符合语法要求的源句子和符合语法要求的目标句子组成,经过严格的自我培训和迭代改进,有效地消除了不必要的改写、人工制品和语法错误,从而产生更清晰、更一致的培训数据。
最终,实施了两个基于EdiT5的模型:一个语法错误校正模型和一个语法分类器。当用户使用语法检查功能时,查询经过模型校正后由分类器验证。这两步过程确保用户只会看到准确的校正建议,减少了错误或混淆建议的风险。谷歌搜索引擎引入了EdiT5模型提供支持的语法检查功能,为高效和准确的语法校正设定了新的标准。
用户现在可以在搜索中包含“语法检查”短语,自信地评估其查询的语法正确性。这一自然语言处理的里程碑再次证明了谷歌提高用户体验和提供可靠、精确搜索结果的承诺。这项革命性的发展将改变我们在搜索引擎中进行语法校正的方式,使我们能够更自信地表达自己的需求。
- 0000
- 0000
- 0000
- 0000
- 0000