首页站长资讯GenAudit：帮用户根据输入证据对LLM生成内容进行事实检查

20040

GenAudit：帮用户根据输入证据对LLM生成内容进行事实检查

站长网2024-03-18 15:44:031阅

划重点:

💡 最近，研究人员提出了GENAUDIT，一种专门用于帮助核查基于文档基础的LLM回复的工具。

💡 GENAUDIT通过建议对语言模型生成的响应进行更改来发挥作用，并从参考文档中突出显示不符合要求的陈述，并建议对响应进行更改或删除。

💡 为了构建GENAUDIT，已经训练了专门设计用于执行这些任务的模型，这些模型已经被教导从参考文档中提取证据以支持事实陈述，识别不支持的主张，并推荐合适的修改。

近年来，随着人工智能（AI）和主要是生成式AI领域的进展，已经展示了大型语言模型(LLMs)生成文本以响应输入或提示的能力。这些模型能够像人类一样生成文本，回答问题，总结长篇文本段落等。然而，即使在访问参考资料之后，它们也不完美，可能会产生错误。这样的错误可能会在银行业或医疗保健等重要应用中产生严重后果。

为了解决这个问题，一组研究人员最近提出了GENAUDIT，这是一种专门用于帮助核查基于文档基础的LLM回复的工具。GENAUDIT的功能是通过建议对语言模型生成的响应进行更改来发挥作用。它突出显示参考文档中不符合要求的陈述，并建议对响应进行更改或删除。它还提供了来自参考文本的证据，以支持LLM的事实陈述。

为了构建GENAUDIT，已经训练了专门设计用于执行这些任务的模型。这些模型已经被教导从参考文档中提取证据以支持事实陈述，识别不支持的主张，并推荐合适的修改。GENAUDIT具有交互式界面，可帮助进行决策和用户交互。借助此界面，用户可以检查和批准推荐的调整和支持文件。

团队表示，已经通过人工评估对GENAUDIT进行了深入评估，评估人员通过检查它在多个类别中的表现来评估其性能，查看它在总结文件时如何准确识别LLM输出中的缺陷。评估结果表明，GENAUDIT能够准确地识别出来自八种不同LLM的输出中的缺陷，涵盖了多个领域。

为了优化GENAUDIT的错误检测性能，团队建议了一种技术，该技术在减少精度损失的同时最大化错误召回率。该策略确保系统在保持准确性水平基本不变的同时，能够检测到大部分的故障。

团队总结了他们的主要贡献如下:

1.引入了GENAUDIT，这是一种支持基于文档的任务中的事实核查语言模型输出的工具。该工具突出显示了LLM生成的内容中陈述的支持数据，找出了缺陷，并提供了解决方案。

2.评估并提供了用于事实核查的后端模型的优化LLMs。这些版本在少量数据条件下性能相当，尤其是与最先进的专有LLMs相比。

3.对GENAUDIT在检查来自三个不同领域的文件的八种不同LLM生成的摘要中存在的错误的有效性进行了评估。

4.介绍并评估了一种在解码时间使用的技术，旨在通过牺牲精度的微小降低来提高错误检测召回率。这种方法在保持整体准确性的同时增强了错误检测的能力。

GENAUDIT是一款优秀的工具，有助于改善具有强大文档基础的任务中的事实核查程序，并提高LLM生成的信息在重要应用中的可靠性。

产品入口：https://top.aibase.com/tool/genaudit

GenAudit帮用户根据输入证据对LLM生成内容进行事实检查

0001

评论列表

共(0)条

相关推荐

谷歌聊天机器人Bard为“Google it”按钮添加了更多搜索主题
站长资讯站长网2023-04-12 11:41:29
0000
网友称刘强东数字人少了些感情：吸引超2000万人围观
站长资讯站长网2024-04-18 16:16:57
0001
马斯克确认特斯拉Model 2明年上市价格25000美元左右
站长资讯站长网2024-04-29 17:19:15
0000
微软推出全新预训练模型phi-1.5 仅13亿参数常识推理碾压Llama2
站长资讯站长网2023-09-18 10:01:44
0000
当人海战术遇上AI脚本，电商人自发围猎“羊毛党”
站长资讯站长网2024-11-30 10:45:05
0000