又一个！北京智源推出通用视觉分割模型SegGPT

站长网2023-05-30 09:37:451阅

在2023中关村论坛平行论坛之一的人工智能大模型发展论坛上，北京智源人工智能研究院推出通用分割模型 SegGPT（Segment Everything In Contex），这是一个利用视觉提示(prompt)完成任意分割任务的通用视觉模型。

SegGPT 是智源通用视觉模型 Painter 的衍生模型，可针对分割一切物体的目标做出优化。

该模型具备上下文推理能力，训练完成后无需微调，只需提供示例即可自动推理并完成对应分割任务，包括图像和视频中的实例、类别、零部件、轮廓、文本、人脸、医学图像等。

如下图所示，标注出一个画面中的彩虹，SegGPT可批量化分割其他画面中的彩虹。

它的灵活推理能力支持任意数量的视觉提示。自动视频分割和追踪能力以第一帧图像和对应的物体掩码作为上下文示例，SegGPT 能够自动对后续视频帧进行分割，并且可以用掩码的颜色作为物体的ID，实现自动追踪。

值得一提的是，此前Meta发布了其新的基于 AI 的 Segment Anything Model （SAM） ，该模型具有识别和分离图像和视频中的特定对象的功能。通过使用SAM，用户可以通过点击物体或输入文字提示选中编辑的物体。

威斯康辛麦迪逊、微软、港科大等机构的研究人员也提出SEEM模型，通过不同的视觉提示和语言提示，一键分割图像、视频。SEEM模型是一种新型的分割模型，这一模型可以在没有提示的开放集中执行任何分割任务，比如语义分割、实例分割和全景分割。

另外，南科大发布视频分割模型TAM，可轻松追踪视频中的任意物体并消除，操作简单友好。TAM的出现为解决传统视频分割模型需要人工标记培训数据和初始化参与数据的问题提供了之前提供，将改变CGI行业的游戏游戏规则。

SegGPT相关代码发布在 GitHub 上，论文发表在预印本平台 arXiv 上。论文地址:https://arxiv.org/abs/2304.03284

0001

评论列表

共(0)条