遥遥领先的GPT-4o，为什么要免费开放？

站长网2024-05-15 10:21:150阅

5月14日凌晨，OpenAI2024年春季发布会上线。

这场发布会，表面看有点简陋（全程只有26分钟，现场只有几十名观众），却是科技圈公认的魔法时刻。因为OpenAI上线了一款可以跟人“谈恋爱”的大模型——GPT-4o。

GPT-4o是GPT-4的升级版，后面的o代表“omni”（全知全能）。GPT-4o能同时输入和输出文本、音频和图像信息，反应速度最短达到了232毫秒，完全可做到与人类在正常对话中同频。

腾讯新闻评价，GPT-4o的发布，使得ChatGPT进入实时互动纪元。

最近，专业人士曾对所有的大模型做了评分测试，结果发现，GPT-4o的得分高达1310，性能远超GPT-4Turbo、GPT-4、Gemini等模型，刷新业界水平。怪不得OpenAI创始人、CEO山姆·奥特曼说:“（GPT）对我来说就像魔法一样”。

在发布会上，为了展现GPT-4o的魅力，OpenAI的三位高管米拉·穆拉蒂（Mira Murati）、陈马克(Marc Chen)和巴雷特·琐法(Barret Zoph)在台上做起了演示，向观众展示了五大应用场景。

在第一个场景里，陈先生表示自己上台很紧张，然后假装喘粗气。GPT捕捉到了这个细节，就用幽默的语气安慰陈先生，“别紧张，你不是吸尘器”。然后GPT细心地指导陈先生如何做深呼吸。

在第二个场景里，陈先生要求GPT给巴雷特讲一个睡前故事。当GPT讲得正起劲的时候，Marc一次又一次地打岔，要求GPT一遍又一遍地重讲，还希望它以唱歌的语调结束故事。GPT没有抱怨也没有迟疑，而是很丝滑地完成了任务。

在第三个场景里，巴雷特希望GPT辅导自己做数学题，但不能直接说答案，而是要一步一步给出解题思路。这个任务对GPT-4o就是小菜一碟，于是巴雷特加大了任务难度，把一串源代码展现给GPT-4o看，然后要求GPT-4o用一句话描述这段代码的含义。没有一秒钟迟疑，GPT-4o就给出了巴雷特想要的答案。

最后一个场景是，米拉说意大利语，陈先生说英语，让GPT-4o做翻译。然后GPT-4o就做起了同声传译，效果非常好。

看完场景演示后，很多网友们都惊出一身冷汗。尤其是做心理医生、语文老师、数学老师、程序员和翻译员的朋友，没想到这么快AI杀到自家工位了。

5月14日，国际货币基金组织总裁表示，未来两年，对于发达经济体而言，人工智能可能会影响60%的工作岗位;而对于全球所有国家而言，人工智能可能将冲击40%的工作岗位。

当然也有乐观者表示，就算旧职业消失了，也会有新职业出现，没什么可担心的。他们关心的是ChatGPT的使用方法和价格变化。之前有人因为付费问题，放弃了ChatGPT。

所以当OpenAI技术总监米拉·穆拉蒂宣布“GPT-4o向所有人免费开放”开放时，现场响起了雷鸣的掌声。

OpenAI越风光，谷歌、微软等友商的压力就越大。就在OpenAI发布GPT-4o的24个小时后，谷歌召开了“I/O大会”，发布了类似GPT-4o的个人数字助理Pixie。本月21日，微软也将召开“Build开发者大会”，市场猜测其大概率会将OpenAI最新能力集成到自家产品线中。

而大洋彼岸的中国人，也时刻关注以OpenAI为代表的美国AI产业的发展进度。大家都想知道，国产大模型与GPT-4o的差距有多大。为此，我们咨询了几位技术专家和产业观察者，一起来听听他们的看法吧。

胡延平

FutureLabs未来实验室首席专家

我认为这次OpenAl发布会，准确来讲是一次伪装成春季update的智能交互变革，貌似一小步的一大步，可以说OpenAl将再次制造一波焦虑。

从这次发布会里，我觉得可以总结出6个信号。

1.大模型从此呆瓜变"真人”。

之前的模型，只能读文看图和迟滞感明显的语音交互，如今GPT-4o可以实现实时多模态的自然交互。

这意味着实时能看懂、能插嘴说、能思考响应，还能有各种小情绪自然交互的能力，让智能真正成为智能。也意味着，应用场景、用户基数等会被几何级放大。

2.GPT-4o的多模态自然交互能力，是GPT-5能力的选择性释放。

GPT-4o的能力，不只是包含了GPT4的后端能力前端Chatbot聊天机器人，还有GPT-5的部分能力，说明OpenAI在控制节奏，不会也不愿意一次性把GPT-5全都放出来。

3.巨大的冲击。

一批基于GPT做语音等多模态自然交互的企业，一批基于家庭做情感陪伴的企业，一批基于机器人做具身智能交互界面的企业，他们的智能硬件底层逻辑都需要进一步重构，手机厂商中做自研模型的，也要更努力了。

助手、教育、翻译等岗位更危险了……套壳GPT或OTT的商业模式，都会被GPT-4o反手盖帽。

4.与其他模型拉开差距。

苹果的Siri呆若木鸡，Anthropic的Claude相形失色，谷歌的Gemini，能力有限……

客观而言，其它的或闭源或开源大模型，没有如此能打的。而且有了GPT-4o，估计付费用户里没几个人再愿用GPT-4。

5.GPT-4o免费使用，是典型的营销漏斗策略。

GPT-4o目前是免费可限次数使用，付费可无限使用，和之前开放免费的GPT-3.5类似，是典型的营销漏斗策略。

不过在付费层次上还没充分拉开梯度，估计需求量较大的非开发者和非企业用户，在使用GPT-4o时会更频繁地遭遇更严重的受限情况。

6.移动终端的生产力爆发力，将不输AI PC等生产力场景。

要重新理解摄像头、机器视觉和听觉了。未来手机等移动终端和碎片场景下的应用生产爆发力，将不输AI PC等生产力场景，甚至移动终端会率先引爆，走在最前面，这意味着，未来涉及到的改变不只是几亿用户，而是几十亿用户。

目前GPT的竞品，在一些基准测试成绩如何接近GPT-4，会是竞争维度之一，假设OpenAl手里还藏着未打出来的牌，那么接下来竞争的维度可能会有好几个，竞争对手短时间不会那么容易追赶上。

张孝荣

深度科技研究院院长

OpenAI发布的GPT-4o模型在过去的基础上，又往前迈了一大步。

简单来说，在技术层面，他们提升了机器的理解能力，反应速度和交互水平，提升了系统安全性和性价比

技术突破主要体现在5个方面:

1.多模态理解与生成:GPT-4o能够处理文本、音频和图像的任意组合输入，并生成相应的输出，且视觉能力得到了提升，能够快速回答有关图片或桌面屏幕的问题，这在图像识别和理解方面是一大突破。

2.实时推理响应:GPT-4o在音频输入的平均响应时间为320毫秒，最短响应时间为232毫秒，与人类的响应时间相似。

3.语音交互能力:GPT-4o能进行自然的对话，并且能模拟不同的情感表达，如兴奋、友好甚至讽刺，使得语音交互更加自然和人性化。同时，GPT-4o支持多达50种语言，并显著提高了非英语语言的性能，这意味着模型具有更广泛的应用范围。

4.增强安全性:GPT-4o在设计中内置了跨模式的安全性，并创建了新的安全系统，为语音输出提供护栏，这表明模型安全性更高了。

5.性能提升与成本降低:与GPT-4Turbo相比，GPT-4o的速度提高了2倍，价格降低了一半，速率限制提高了5倍，这在提效降本方面是重大进步。

目前GPT-4o在文本、推理、编码等方面实现了与GPT-4Turbo相当的性能，同时在多语言、音频和视觉功能方面创下了新高，但还有待进一步测评，才能判断是否是业界性能最强的模型。

现在GPT-4o对所有用户免费开放，具有两重意义。

◎第一重是行业意义。

这意味着更广泛的用户群体可以接触到这一先进的AI技术，从而推动技术的普及和应用，而且可以激励开发者和企业探索新的应用场景。

当然免费提供模型，也是OpenAI扩大市场份额和影响力的一种策略，可以获取更多用户，用户的引入，会生产大量数据，从而扩大OpenAI自身数据训练范围，进一步提升模型精准度。

◎第二重是用户意义。

普通人可以更方便地利用AI技术解决问题。在多语言支持、音频和视觉理解方面的改进，使得普通人可以在更多场景下使用GPT-4o，比如语言学习、内容创作、编程辅助、教育辅导、日常任务处理和娱乐互动。

相比以往模型，GPT-4o新增了实时语音对话和图像识别功能。用户在使用这些功能的时候，体验也会更好一些。

接下来，GPT-4o可能替代的岗位，主要在数据处理和语言交互方面，比如客服、翻译、内容审核和数据录入等工作。

这次GPT-4o的发布，意味着美国在AI发展方向上，又前进了一步，不过AI技术成熟度依然有待提升。

张津京

BT财经创始人

这次OpenAI发布的GPT-4o，更多是进行商业化的探索，技术上并没有太先进。

因为GPT-4o基本上就是一个对话大模型，本质是将文字对话变成语音，中间加上了一部分联想，相当于把Sora对于自然语言的处理算法结合进来了，但是这部分算法结合的能力也不会太强，在使用过程中，GPT-4o的错误率也很高。

GPT-4o，底层算法还是GPT-4，而且是能力上降了级的GPT-4，但超过了GPT-3.5，相当于OpenAI把GPT-4做成了不同层级的应用。

之所以这样分层，是因为OpenAI在针对不付费、也不注册的客户，以此在免费人群里拓展，成本会受限。

而OpenAI的更深层次目的，是想不断地探索GPT商业化的前景。

目前OpenAI的商业逻辑越来越清晰了。不仅开放了GPT-4不注册也可使用的限制，而且把GPT-4的能力降级，变得更加偏功能化，这样就能在不同的应用上打造不同的模型，并形成不同的细分收费赛道，从而建立起整个商业模式。

不过OpenAI的规划虽然有一定的操作性，但能不能把GPT作为真正的必需品让大家付费，能不能持久下去，而不是用户因为觉得有意思，付一段时间后又不付了，一切都还未定。

目前来看，这种对话式大模型到底有多强的生命力，也无法确定。

OpenAI依然还是在互联网思维下做大模型产品，而我们的大模型是在不断地接近生产生活的一线，让更多的一些超乎想象的东西诞生出来。