微软推出大型语言模型分割推理助手LISA

站长网2023-08-10 10:54:311阅

想象一下你想喝咖啡，然后你命令机器人去泡咖啡。您的指令涉及“煮一杯咖啡”，但不包括“去厨房，找到咖啡机，然后打开它”等分步指令。目前的现有系统包含依赖人类指令来识别任何目标对象的模型。他们缺乏推理能力和主动理解用户意图的能力。

为了解决这个问题，微软研究院、香港大学和 SmartMore 的研究人员提出了大型语言模型驱动的分割推理助手——LISA（Large Language Instructed Segmentation Assistant）。

项目地址：https://github.com/dvlab-research/lisa

LISA是一种新颖的分割任务，旨在通过复杂而隐含的查询文本生成分割掩码。LISA 继承了多模态大型语言模型（LLM）的语言生成能力，同时具备生成分割掩码的能力。研究人员发现，LISA 在处理复杂推理、世界知识、解释性回答和多对话方面表现出色。

通过对模型进行微调，仅使用239个推理分割图像指令对，性能得到了提升。研究人员还发现，LISA 在复杂推理任务上的性能优于传统的推理分割方法。他们的未来工作将侧重于推理能力的重要性，以建立一个评估基准并促进社区开发新技术。

核心功能:

- 根据复杂查询文本生成分割掩码

- 进行复杂推理和世界知识的分割

- 提供解释性回答

- 支持多轮对话交互

0001

评论列表

共(0)条