比尔·盖茨都为之倾倒的AI Agent,究竟是什么
AI Agent是一个数月前开始广为流传的词汇,近日比尔·盖茨在个人博客上的文章更是为它的热度再添了一把火。“Android、iOS和Windows都是平台,AI Agent将成为下一个平台”,比尔·盖茨在他的博客文章中这样说到。
在比尔·盖茨看来,随着AI技术的日益普及,未来五年内我们将不再使用不同的应用程序来完成不同的任务,相反只需用日常用语告诉你的手机或电脑想要做什么,它们就能够处理你的请求。在不远的将来,任何上网的人都将能够拥有一个由人工智能驱动的个人助理,也就是所谓的“AI Agent”。
事实上,AI Agent在中文语境下通常被称为“智能体”,指的是能够自主感知环境、并采取行动实现目标的智能实体,更强调自主性和主动性。具体而言,在大语言模型(LLM)的场景下,AI Agent可以理解为在大语言模型的基础上能够自主感知、规划决策、执行复杂任务的智能产品,它可以通过独立思考和调用工具逐步完成给定的目标,无需人类去指定每一步的操作。
其实不仅仅是比尔·盖茨,Meta创始人扎克伯格也曾表示,看到了“以有用、且有意义的方式,向数十亿人介绍AI Agents的机会”。
那么问题就来了,为什么AI Agent会受到以比尔·盖茨为代表的大佬们的青睐呢?因为AI Agent就像当初的元宇宙一样,都属于是潜力无限的产品。
大家不妨试想一下,面对一个具有独立思考和行动能力的AI程序,用户只需提供一个目标就可以期待AI Agent来完成,而这样一个不知疲倦的“打工人”,完全可以称得上是“解放和发展生产力”了。
比如当你有一个点外卖的需求时,AI Agent能做到的是直接打开美团App,同时结合你的历史订单信息来选择外卖商家,同时打开微信支付下单,甚至这一连串的操作完全不需要你的介入,只用安心等待外卖送上门即可。所以在当初苹果的Siri都曾引发一众科技厂商争相开发智能语音助手的情况下,如今更进一步的AI Agent又怎能不被各方钟情呢。
那么,AI Agent又是如何搭建的呢?目前,一众以AI Agent为目标的厂商基本上都是以LLM为核心,在此基础上增加规划(Planning)、记忆(Memory)、工具(Tools)这三大关键组件。
AI Agent需要三个组件的原因,是目前的LLM固然很强大,但也有属于它们的缺陷。例如ChatGPT、Bard等等LLM的产品形态都是对话机器人,并且为了让用户第一时间就能感知到LLM与以往这类产品的不同,导致了现在的LLM普遍存在能力固化,或者是专精于对话、绘画等特定场景的问题。
同时为了在算力有限的情况下满足更多用户的使用,LLM的记忆力也受到了一定限制。OpenAI CEO山姆·奥特曼就曾表示,由于GPU短缺导致算力不足,他们无法扩大ChatGPT的对话框列表,直接影响到了回答用户问题时可以处理的信息量,以至于ChatGPT的“记忆力”被限制。
AI Agent基本可以被视为一个补全短板、并解除限制的LLM,有了规划能力,AI Agent就可以通过自然语言与外界进行多轮交互,来将一个目标拆解为具体的各项子任务。记忆力则保证了AI Agent不会在完成一项项子任务时偏离最初的目标,而当任务需求超出AI Agent自身的能力范围时,它就需要使用工具、也就是调用其他软件。事实上,这一套流程基本就是在模仿人类,这也是为什么它在商业层面极富想象力的原因。
图源备注:图片由AI生成,图片授权服务商Midjourney
从某种意义上来说,AI Agent是通用人工智能AGI的前置科技,而至于AGI的商业价值,其实看看科幻电影就知道了。不过AI Agent描绘的未来固然很美妙,但它实际上与元宇宙颇为类似,想要变为现实也非一朝一夕的事情。按照比尔·盖茨的说法,AI Agent需要一种全新的数据库,在捕捉用户所思所想、乃至快速调取相关信息的同时,还能保护用户的隐私。
显而易见,这种既要又要的产物,并不是现有数据库相关技术所能实现的。此外更困难的挑战是AI幻觉,而AI大模型会产出不遵循原文或者与事实相悖的结果,这已经是公认的事实。既然AI大模型会产生幻觉,基于大模型的AI Agent又如何能避免产生幻觉呢?一旦AI Agent出现幻觉,显然就会直接导致在执行任务时出现偏差,进而偏离用户设定的目标。对于一个面向消费级市场的产品,如果无法正确执行用户的指令,价值显然就要打上一个问号。
好在AI Agent所在的AI赛道是目前的热门,与已经失去资本市场青睐的元宇宙不太一样。现在的问题,就是AI Agent的从业者能否在有限的时间内将其变成一个可以初步落地、能让消费者体验的产品。如果不能,无论AI Agent的潜力有多大,元宇宙的今天或许就是AI Agent的明天。
- 0000
- 0001
- 0000
- 0000
- 0000