OpenAI全能模型GPT-4o发布能听能看能说还免费

站长网2024-05-14 09:04:310阅

OpenAI 最新发布了其旗舰大模型 GPT-4o，该模型不仅免费可用，还具备听、看、说的综合能力，提供丝滑流畅且无延迟的交互体验，仿佛与人进行视频通话一般。

GPT-4o 的特点

全能输入输出:GPT-4o 能够接受文本、音频和图像的任意组合作为输入，并生成相应的文本、音频和图像输出。

快速响应:该模型响应音频输入的时间仅为232毫秒至320毫秒，与人类对话反应速度一致。

免费开放:GPT-4o 将对所有用户免费开放，包括 ChatGPT Plus 会员版所有的功能，如视觉、联网、记忆、执行代码等。

在直播中，CTO Murati 展示了 GPT-4o 的实时互动能力，包括随时打断对话并用丰富语气进行回复。

研究员 William Fedus 透露，GPT-4o 是之前在大模型竞技场中进行 A/B 测试的模型之一，性能高于 GPT-4-Turbo。

API 提供

GPT-4o 也将提供 API，价格为五折，速度提升一倍，单位时间内的调用次数是原来的五倍。

网友们已经在设想 GPT-4o 的应用场景，比如帮助盲人或弱视人士更好地理解世界。

演示亮点

OpenAI 总裁 Brockman 在直播中演示了 GPT-4o 的实时翻译能力，以及两个 ChatGPT 之间的对话和歌唱。

技术细节

GPT-4o 是一个端到端训练的新模型，所有输入和输出都由同一个神经网络处理，这比之前的语音模式有显著改进。

未来展望

尽管 OpenAI 没有发布详细的技术报告，但 GPT-4o 的成功演示已经引起了广泛关注和讨论。

OpenAI 的 GPT-4o 模型的发布，不仅展示了公司在 AI 领域的最新进展，也为公众提供了一个功能强大且易于使用的 AI 工具。随着技术的不断进步，我们可以期待 GPT-4o 在未来将带来更加丰富和创新的应用场景。

0000

评论列表

共(0)条

OpenAI全能模型GPT-4o发布 能听能看能说还免费