研究显示 ChatGPT 提供的医疗保健回应与人类提供的建议几乎无法区分
根据《JMIR 医学教育》杂志上发表的一项新研究,ChatGPT 对与医疗保健相关的问题的回答很难与人类的回答区分开来。
该研究由纽约大学的研究人员于今年 1 月进行,旨在评估使用 ChatGPT 或类似的大型语言模型来回答电子健康记录中提出的一长串问题的可行性。研究得出结论,使用像 ChatGPT 这样的大型语言模型可能是简化医疗保健提供者与患者沟通的有效方式。
为了进行这项研究,研究团队从纽约大学朗格医疗中心的电子健康记录中提取了患者的问题。然后,他们将这些问题输入 ChatGPT,并要求聊天机器人回答的字词与医疗保健提供者在电子健康记录中输入答案时的字词大致相同。
接下来,研究人员向近 400 名成年人展示了十组患者问题和回答。他们告知参与者其中五组回答是由人类医疗保健提供者撰写的,另外五组回答是由 ChatGPT 生成的。参与者被要求正确识别每个响应是由人类还是 ChatGPT 生成的,并获得经济奖励。
研究团队发现,人们准确区分聊天机器人和人类生成的答案的能力有限。平均而言,参与者正确辨别回答来源的能力约为 65%。这一结果与研究参与者的人口统计特征无关。
研究的作者表示,这项研究证明了 LLMs 在协助医患沟通方面的潜力,尤其是在行政任务和管理常见慢性疾病方面。
然而,他们指出,还需要进行进一步研究,以探索聊天机器人在承担临床职责方面的能力。研究团队还强调,提供者组织在策划 LLM 生成的建议时要谨慎,以充分考虑这些 AI 模型的限制和潜在偏见。
在进行研究时,研究人员还询问参与者对聊天机器人在回答不同类型问题上的信任程度,采用了一个从完全不可信任到完全可信任的 5 分制评分标准。他们发现,人们对于关于保险或预约安排等后勤问题的信任最高,对于关于诊断或治疗建议的问题,人们对聊天机器人生成的回答的信任最低。
这项纽约大学的研究并不是今年发表的唯一一项支持使用 LLMs 回答患者问题的研究。
今年 4 月,《JAMA 内科医学》发表的一项研究表明,LLMs 在减轻医生面对的海量电子邮件负担方面具有重要潜力。该研究评估了由医生和 ChatGPT 提供的两组对患者咨询的回答。一组由医疗保健专业人员组成的评审团确定,由于 AI 模型的回答更加详细和富有同理心,ChatGPT 的表现优于人类提供者。
- 0001
- 0000
- 0000
- 0000
- 0000