12014

GPT-4V搞不明白勾股定理！最新基准测试错误率竟高达90%

站长网2023-10-31 21:32:430阅

要点:

1. 马里兰大学发布了首个专为GPT-4V视觉模型设计的基准测试HallusionBench，揭示了其高达90%的错误率，包括对勾股定理的误用和无法识别红绿灯的致命错误。

2. 研究人员将这些错误分为两大类:语言幻觉和视觉错觉，强调了视觉和语言之间微妙平衡的重要性。

3. HallusionBench测试包含大约200组视觉问答，关注视觉错觉和知识幻觉，揭示了GPT-4V和LLaVA-1.5在图像理解方面的能力不足，以及处理多个图像之间的时间关系和常识查询问题。

近日，马里兰大学发布了一项重要研究，针对GPT-4V视觉模型进行了首个专为其设计的基准测试，名为HallusionBench。这项研究揭示了令人震惊的发现，即GPT-4V的错误率高达90%。这一错误率包括对基本数学原理的误用，比如将勾股定理错误应用于非直角三角形，并且还包括无法识别红绿灯的致命错误。这些问题引发了人们对GPT-4V的视觉和语言能力的质疑。

研究人员将这些错误分为两大类，即语言幻觉和视觉错觉。语言幻觉是指GPT-4V基于其参数化知识库，对问题和图像背景作出不恰当的先入为主的假设，而视觉错觉则产生于对输入图像的错误视觉识别和解释。这两种类型的错误突显了视觉和语言之间微妙平衡的重要性，以确保模型能够准确地理解并回答问题。

HallusionBench测试包括大约200组视觉问答，其中近一半由人工专家创作。测试涵盖了多个领域，包括数学、文化、体育、地理等，涉及原始错觉图片、图表、地图、海报、视频等多样的图片类型。研究人员强调，GPT-4V在回答视觉问题组的错误率高达近90%。此外，研究还深入分析了GPT-4V和LLaVA-1.5在视觉理解方面的能力，发现它们在处理多个图像之间的时间关系和常识查询方面存在困难。

这项研究的结果引发了关于目前自然语言处理技术的限制和改进的讨论，特别是在视觉和语言交叉领域。研究人员呼吁对GPT-4V等模型进行更多的改进，以提高它们的视觉理解能力，减少语言和视觉之间的错觉，并加强对常识的理解。这项研究对于深化我们对大型语言模型的认识，以及推动其在现实世界中的应用具有重要意义。