LLM不靠谱!研究:AI聊天机器人提供了错误的癌症治疗建议
文章概要:
1. 研究人员评估了大语言模型聊天机器人提供癌症治疗建议的可靠性,发现33.33%的建议与确立的指南不完全一致。
2. 研究强调了AI技术渗透医疗决策时需谨慎和监管的必要性。
3. 聊天机器人的建议与NCCN指南不完全一致,专家也未能检测到这些错误,凸显LLM聊天机器人在提供可靠和精确的癌症治疗建议方面的表现低于平均水平。
在最近发表在 《JAMA Oncology》杂志上的一篇文章中,研究人员评估了由人工智能 (AI) 算法驱动的大型语言模型 (LLM) 驱动的聊天机器人是否可以提供准确可靠的癌症治疗建议。
关于该研究
在本研究中,研究人员评估了大语言模型聊天机器人在提供前列腺癌、肺癌和乳腺癌治疗建议方面的表现,该建议与国家综合癌症网络 (NCCN) 指南一致。
研究人员开发了四个零样本提示模板,并用于创建26种癌症诊断描述的四个变体,最终获得了104个提示。然后将这些提示作为输入提供给GPT-3.5。
研究团队由四名经过委员会认证的肿瘤学家组成,其中三人根据研究人员制定的五项评分标准评估了聊天机器人输出与2021年 NCCN 指南的一致性。采用多数决原则来确定最终得分。
第四位肿瘤学家帮助其他三位解决了分歧,这些分歧主要是在法学硕士聊天机器人输出不清楚时出现的。例如,大语言模型没有具体说明针对特定类型的癌症应结合哪些治疗方法。
研究结果
该研究对聊天机器人提供的104条癌症治疗建议进行了评估。结果显示33.3%的建议至少部分不符合NCCN指南,被视为错误或不准确的。
聊天机器人对98%的提示给出了至少一个治疗建议。所有包含治疗建议的回复中,至少有一个治疗方法与NCCN指南一致。
但是在102条产出中,有35条包含一个或多个不一致的治疗方法,占34.6%。这意味着超过三分之一的建议包含了错误信息。
聊天机器人提供的建议根据提问方式而变化。当提问不明确时,它的回复也变得模糊,导致评估者之间出现分歧。
本研究中评估的大语言模型士聊天机器人将错误的癌症治疗建议与正确的建议混合在一起,即使是专家也未能发现这些错误。
研究结果表明,大语言模型聊天机器人在提供可靠且精确的癌症治疗建议方面表现低于平均水平。
鉴于AI的广泛使用,医疗保健提供者需要适当教育病人有关这项技术可能提供的错误信息的潜在风险。这些发现还强调了针对AI及其他潜在危害公众的技术制定联邦法规的重要性。
- 0001
- 0000
- 0000
- 0000
- 0003