首页站长资讯OpenAI或将推出多模态模型GPT-Vision和Gobi，与谷歌Gemini竞争

OpenAI或将推出多模态模型GPT-Vision和Gobi，与谷歌Gemini竞争

站长网2023-09-20 12:01:013阅

文章概要:

OpenAI 正准备推出 GPT-4的图像理解，这是一种名为“GPT-Vision”的多模态功能，以使该模型得到更广泛的应用，以与谷歌计划的 Gemini 多模态 AI 模型竞争。

此功能可以为 GPT-4启用新的基于图像的应用程序，例如生成与图像匹配的文本。

OpenAI 还在开发一种新的 AI 模型，代号为“Gobi”，该模型从一开始就被设计为多模式，并有可能成为 GPT-5。

谷歌即将发布 Gemini，这是一种多模态语言模型，可能会挑战 OpenAI 的 GPT-4的领导地位。

但据报道 OpenAI 正在准备做出适当的回应，该公司计划通过引入名为“GPT-Vision”的图像理解功能来应对Gemini的竞争。

据《The Information》报道，GPT-4的图像理解功能将被命名为“GPT-Vision”。这一多模态功能最初是在GPT-4发布会上介绍的，并成为了演示的焦点之一。GPT-4展示了基于网页绘图生成网页代码的能力，但一般用户尚无法获得这一图像理解功能。据称，主要是OpenAI担心该功能可能被滥用，例如用于面部识别等用途，因此对其进行了限制。