大模型内心OS:聪明大脑如何匹配现实需求?
近两年,无论你身处什么行业,处于何种生活状态,相信大家对AIGC、大模型等热词并不陌生,从之前大火的AI作图、AI脚本、到AI恋爱,人工智能正在一步步地改变我们的生活方式。
与此同时,大模型行业也在不断地进行迭代升级。近日,随着阿里云一则直降97%定价策略的“横空问世”,成功地将大模型行业的竞争格局,从“百花齐放”推向了更为激烈的“百家争鸣”阶段。
据了解,阿里云把旗下通义千问GPT-4级主力模型——Qwen-Long的API输入价格,从0.02元/千tokens降至0.0005元/千tokens,相当于OpenAI——GPT-4的400分之一,而此举也被行业称为“击穿全球底价”的重磅“炸弹”。
紧接着,百度、科大讯飞、腾讯云等企业纷纷响应“号召”,宣布旗下部分大模型免费开放,进一步为这次“降价潮”注入了动力。
“烧钱”的大模型为何会集体降价?越来越多大模型免费开放后,能否替代搜索引擎?以及目前国内大模型中“谁”最聪明?又是如何实现商业化落地的?
“烧钱”的大模型为什么进入降价时代了?
“便宜到不需要犹豫”OR“羊毛出在猪身上”
“我们希望不断降低情报成本,让这些东西变得非常便宜,便宜到你根本不需要犹豫。”OpenAI首席执行官Sam Altman在新加坡管理大学演讲时,曾回答过关于大模型降价的问题。
他还进一步表示:OpenAI 每三个月左右就能将推理成本降低90%。从去年开始,OpenAI 一直在频繁降价。比如,在去年6月,OpenAI把当时最先进、用户最多的嵌入模型Text-embedding-ada-002降价75%,把当时用户最多的聊天模型gpt-3.5-turbo降价25%,还推出了gpt4-16k平替版——gpt-3.5-turbo-16k,降价95%。
今年5月,国内大模型纷纷跟进降价,加速了行业降价潮。5月6日,私募基金幻方量化旗下公司深度求索推出了DeepSeek-V2模型。据介绍,该模型在性能上比肩GPT-4Turbo,但API 价格只有GPT-4-Turbo 的近百分之一,引发行业高度关注。
之后,智谱 AI 、字节豆包大模型跟进降价。其中,智谱 AI 宣布将其 GLM-3Turbo 模型的调用价格下调80%;字节豆包大模型首次对外开放,就把价格单位从元变为了厘。以豆包通用大模型 pro-32k 版为例,其推理输入价格为0.0008元/千 tokens,较行业价格低了99.3%。
从目前参与降价或免费的大模型来看,大多都是各家公司的入门模型,并且降幅较大的都是有云服务的公司,而企业级的模型仍维持原价。因此,对企业用户影响有限。一般而言,企业对大模型的需求更加定制化、私有化,而要想实现这些需求,势必是需要花钱的。
据媒体不完全统计,截至今年4月底,国内共推出了约305个大模型。由此来看,国内大模型迎来“降价潮”是行业的必然趋势,这不仅仅是要从上百个模型中“优胜劣汰”,更重要的是要建立用户心智,也就是“教用户如何玩大模型”。
比如,除了对大模型的常规提问之外,用户还可以在大模型上创建自己的AI应用。
此前,OpenAI 上线GPT商店曾引发行业热议,在GPT商店里可以搜索到各种各样的AI相关应用,像是图标设计神器—— Logo Creator、学术助手Consensus等等,还可以按需自主创建GPT。现在,国内大模型也可以实现这一“玩法”,比如智谱清言GLM-4、字节的豆包、百度文心一言等,都在大模型界面设置了“智能体中心”窗口,不仅可以按类型搜索已有热门智能体应用,还可以自主创建新的智能体,通过复刻APP业态,大模型让用户和开发者实现了无缝切换。
来源:大模型截图
而这种现象也为大模型公司提供了另一种生存路径,即转型成为应用公司。顺福资本创始人李明顺对此也持相同态度,他进一步表示,“有一些大模型公司的创始人有Plan A和Plan B的双计划,就是一旦我的模型实在是拼不过前面的5家之后,就要被迫在一些垂直领域里面找到生存之地,它就会转型为一家应用公司。”
另外,此次降价也对大模型创业公司有一定的冲击。5月,跟进降价的大模型创业公司只有智谱AI,而零一万物、MiniMax、月之暗面等大模型创业公司并没有跟进。这主要是因为,这些大模型创业公司其主要模型的定价从一开始就维持在行业较低水平,所他们的降价空间相对有限。
这也是大模型初创公司和大体量模型公司之间的一个重要差异表现。猎豹移动董事长兼CEO、猎户星空董事长傅盛表示:“大公司通过大模型来获取云客户,羊毛出在猪身上。但大模型创业公司没有“云”这样的生态,必须另寻商业模式。”
与此同时,此次降价潮还会吸引更多开发者参与进来,尤其是中小团队的开发者,他们往往不缺想法,缺的就是“烧钱”的算力资源,甚至还有可能促成一些小团队之间的“强强联合”。这种合作不仅能够推动创新,加速大模型的开发和优化,还可能产生全新的应用和解决方案,为市场带来新的活力和机会。
聪明的大模型,
如何匹配现实中的日常需求?
在科技日益融入我们生活的当下,大模型技术已“随处可见”。而马斯克关于AI可能在两年内超越人类的预测,更是为这一领域注入了更多的期待和关注。
那么,在当前一众竞相“超越GPT”的大模型浪潮中,哪个国产大模型可以让用户实现“科技改变生活”呢?
据大模型开源开放评测体系司南(OpenCompass2.0)数据,在2024年4月大语言模型最新评测中,智谱 AI 的 GLM-4排名行业第4,位居国产大模型第一,紧随其后的是MiniMax的abab6.5。
值得一提的是,在4月的大模型榜单中,前十名里有6位都是国产大模型选手,这充分证明了我国在大模型技术领域的迅猛发展态势。像是私募基金幻方量化旗下公司深度求索的DeepSeek-V2-Chat、阿里云qwen1.5-110b-chat和百度的旗舰级ERNIE-4.0-8K-0329等优秀模型均位列其中。
那么,这些大模型在我们日常生活中到底好不好“用”呢?
为了回答这个问题,我们选取了五个(豆包、通义前问、智谱清言、Kimi、文心一言)业内口碑较好的免费大模型,进行日常测评。
接下来,我们将从用户的角度出发,基于实际使用场景,深入体验并评估这些大模型在实际应用中的表现。
以克劳锐编辑部为例,我们的工作场景是不停的和内容“打交道”,包括但不限于找选题、写文章等等。目前我们获取选题的方式来自于行业资讯、报告等,而找资料的方式则来自各种搜索引擎。
打开5个大模型,基本都有热点搜索功能,甚至还会推荐近期相关热点。但从实际使用感受来讲,除了智谱清言可以直接点开相关热点的原网页之外,其他的大模型回复仍以总结性文字为主,需要进一步核对文字的来源以及准确性,可参考意义不大。
来源:大模型截图
值得一提的是,在英文翻译方面,这五个大模型的体验明显优于搜索引擎自带的翻译功能。搜索引擎自带的翻译往往是实时进行的,当你需要翻译一份英文财报并频繁“翻页”时,常常会遇到长时间的等待和加载。然而,大模型在处理此类翻译任务时,由于其更高的计算效率和先进的处理能力,不会出现类似的等待情况,不仅翻译完之后,可随时查阅,还可以在历史记录中查询以往的翻译记录。
在编辑工作中,检查错字是一项至关重要的任务。然而,在对五个大模型进行“查找错字”功能测试时,它们却直接上演了一场“婆说婆有理”的大戏,各自给出了不同的结果和解释,甚至一些大模型无法理解我们上传文档中的“文字内容”,开始了“自我创造”。
我们在5个大模型中上传了一篇带有2处明显错误的文章,其中,豆包、通义千问、Kimi直接按照“自己的理解”,创造了一些新“问题”,比如,豆包建议我们把“透过618,平台想要什么?”改为“透过618,平台想要什么?”,改了个“寂寞”;Kimi建议我们把"店播" 改为 "店铺直播",走的是扩写风格;通义千问建议我们把“今年618,改为今年6.18”......而文心一言和智谱清言则直接表示:“经过仔细检查,并未发现明显的错别字”。
从提问方式来看,这5个大模型都喜欢“角色扮演”。如果首次提问没有得到满意的答案,可以用“假设你是一个......”来追问,得到的回答会比第一次问全面很多。在智谱清言中,我们针对首次没有发现错别字的文档进行二次追问,在假设该大模型一个电商行业专家的条件下,它给出了10条“改错”。比如,把文章中的“451改为415”。
来源:大模型截图
大模型在处理文本时,虽然能够展现出强大的语言理解和生成能力,但由于各种因素(如模型架构、训练数据、算法等)的限制,它们在某些细节和特定任务上的表现可能并不尽如人意。从我们测试的结果来看,这种不准确性可能源于多个方面,例如模型对语言规则的掌握不够全面,或者对特定领域和上下文的理解不够深入。
因此,目前大模型在提取信息的准确性方面仍有待观察和提高,并不能完全替代传统的搜索引擎。
大模型的商业化进程如何?
在降价潮和落地应用背景之下,大模型的商业化问题再次被摆在台面上。
目前,大模型的商业化类型主要可以分为两大类。一类是模型本身的订阅付费模式,这一模式允许用户根据自身的需求选择适合的模型,并按照使用量或时长进行付费。而另一类则是大模型机制下——AI落地的各种应用。在ChatGPT等先进模型出现之前,被公众广泛关注的AI模型往往专注于单一任务,如“阿尔法狗”(AlphaGo)等。
目前,其应用场景已经从最初的文本生成、语言翻译,扩展到如今的图像识别、智能推荐等领域,这种转变也为大模型的商业化提供了更多可能。
在电商领域,大模型的应用已经十分普遍。例如,淘宝自研的“星辰”大模型,京东的言犀大模型,都是通过数据学习为消费者和商家提供智能决策等多元服务,从而进一步挖掘平台用户的潜在需求。再往前还有各种品牌的数字人直播带货、元宇宙发布会等等。
而在汽车行业,AI大模型的引入更是重塑了人机交互场景,为新能源汽车赋予了新的魅力和卖点。在今年的北京车展中,能与“新能源”等热词“齐驱并驾”要数“大模型”了。不仅商汤绝影、腾讯等科技企业纷纷发布用于汽车的智能驾驶和智能座舱的垂类大模型,小鹏、哪吒等车企也纷纷宣布“大模型上车”。
然而,这些都只是大模型商业化道路上的冰山一角。随着科技技术的迭代和成本的降低,未来会跑通越来越多的大模型商业化场景。百度集团执行副总裁、百度智能云事业群总裁沈抖认为,现在是大模型企业勇敢创新、大胆尝试的绝佳时机。一旦某个应用场景“跑通”了,就可以“复制粘贴”,加速落地。
那么,你认为哪个领域将最早实现大模型的批量商业化?欢迎评论区留言讨论。
- 0001
- 0000
- 0000
- 0000
- 0000