专访诺奖得主：大模型是记忆还是理解？

站长网2024-07-21 18:32:460阅

物理学家理查德·费曼曾将自然世界比作众神的游戏，比如国际象棋——我们不知道游戏规则，但却可以观察棋盘，也许只是其中的一角，然后根据这些观察，试图找出游戏规则。

费曼的比喻，道出了科学研究的核心，也生动描绘了许多经济学家的工作，他们同样致力于从纷繁复杂的经济现象中，洞悉隐藏的模式和规律。

当我们谈及人工智能，尤其是近年来蓬勃发展的大模型，似乎也能看到同样的影子。以数据为中心的人工智能（Data-Centric AI）正在改变着人类组织和解释信息的方法，并在某些领域展现出改变信息获取方式的潜力。那么，大模型能否像伽利略、牛顿、爱因斯坦一样，从数据中提炼出全新的理论，实现真正的科学发现?

对此，2011年诺贝尔经济学奖得主托马斯·萨金特（Thomas J. Sargent）教授认为，人工智能和机器学习的核心理念可以追溯至伽利略时代，都是通过构建世界模型并基于模型进行预测和决策。机器学习作为人工智能的关键组成部分，通过数据驱动的方式实现了这一过程。

萨金特教授在写于2023年10月的工作论文《Sources of Artificial Intelligence》中表示，他所理解的「人工智能」，是指那些旨在完成「智能」任务的计算机程序，而这些任务过去是由像伽利略、达尔文和开普勒这些拓展了人类认知边界的先驱完成的。很多机器学习技术利用数据、概率论和微积分来推断模式，而设计机器学习芯片、算法和代码的程序员，则是在再现（copy）伽利略的自由落体实验。

带着对人工智能和科学发现的疑问，以及对诺贝尔经济学奖得主独特视角的期待，机器之心在2024罗汉堂数字经济年会上对萨金特教授进行了独家专访。

人物简介

萨金特教授在2024罗汉堂数字经济年会发表演讲。图片来源:罗汉堂

托马斯·约翰·萨金特（Thomas John Sargent）是一位杰出的美国宏观经济学家。他于2002年9月加入纽约大学，成为首任 W.R. Berkley 经济学和商业讲席教授。2011年，萨金特教授与普林斯顿大学的克里斯托弗·西姆斯(Christopher A. Sims)共同获得了诺贝尔经济学奖，以表彰他们「对宏观经济中因果关系的实证研究」。

萨金特教授是理性预期学派的领军人物之一，该学派的核心理念是:经济个体能够理性地利用所有可获得的信息，并根据最佳的判断来形成对未来的预期，然后根据这些预期进行决策，反映了经济体系中「未来决定现在」的含义。他与罗伯特·卢卡斯（Robert Lucas， Jr.）和尼尔·华莱士(Neil Wallace)密切合作，为新古典宏观经济学的演进奠定了根基，做出了原创性的贡献。

萨金特教授在经济学领域享有盛誉，曾任计量经济学会、美国经济学会和经济动态学会主席。1983年，他当选为美国国家科学院院士和美国艺术与科学院院士，并于1997年荣获内默斯经济学奖。他的研究对宏观经济学、货币经济学、时间序列计量经济学等领域产生了深远的影响。

萨金特教授也是罗汉堂首批学术委员会委员。罗汉堂（Luohan Academy）是2018年由阿里巴巴倡议，全球社会科学领域的顶尖学者在杭州共同发起的非营利性开放型研究机构。2024年7月，第四届罗汉堂数字经济年会在上海举办，萨金特教授第四次现场参加活动。会议围绕人工智能对经济社会发展的影响及趋势展开，50余名海内外学者、政策研究者、科技领军人物和企业家参与了演讲和讨论。

访谈实录

机器之心:萨金特教授，非常荣幸有此机会。机器之心是一家专业的人工智能信息服务平台，我们的读者都是 AI 从业者（AI professionals）。

萨金特教授:噢，我是 AI 外行人（AI amateur）。

机器之心:您太谦虚了，您指出经济学是人工智能的学科基础之一[1]，我们期待您在经济学中的方法论能为人工智能的相关研究提供指导。当前人工智能领域有一大争议，有些人认为像 GPT-4这样的大语言模型（LLM）做的只是「记忆」，其强大仅仅来自于对海量数据的统计分析和概率推理，模型并不懂得因果关系。另一些人则相信，要足够精确地预测下一个词，就意味着至少在一定程度上真正理解了上下文。对此您是怎么看的?

萨金特教授:这是一个非常古老的问题和议题了。我喜欢你提出这个问题的方式，因为人工智能涵盖了众多技术和工具，编码和解码正是其中之一。这项技术起源于20世纪，算得上历史悠久了。在第一次和第二次世界大战期间，许多专家开始利用数学进行编码和解码。他们使用的方法正如你所说，是利用了语言的可预测性（predictability）。他们意识到字母并非随机排列，单词和句子之间也存在着某种关联。为了破译语言，他们开始寻找其中的模式和规律，并使用了一种叫做马尔可夫链的工具，来分析事物今天的发展如何影响未来的走向。某种意义上说，这就是编码和解码的核心所在，它不仅仅是寻找模式，还是寻找跨越时间的模式(intertemporal patterns)，甚至是在更长的时间范围内存在的这种跨越时间的模式(intertemporal patterns cross time)。字母的排列中蕴含着某种模式，可以帮助我们预测未来。

那么问题来了，这算是理解吗?或者说仅仅是一种模式识别?这就引出了一个更深层的、甚至可以说是哲学层面的问题:究竟什么是「理解」?我认为人们所说的「理解」，其中一部分就是对模式的深入了解，对模式的诠释，以及判断哪些模式是真正持久的，哪些只是偶然发生的。当然，这并不是一个完美的答案。

机器之心:那按照现有的深度学习或者大模型方法，人工智能可以从发现相关性发展到理解因果性吗?

萨金特教授:我一直以来都在认真思考这个问题，最近还就此写了一些东西。问题的关键在于，不同的人对「因果关系」的理解并不相同，他们对因果关系的定义和所需满足的条件也存在差异。YouTube 上有一个很棒的视频，讲的是一个人与物理学家和哲学家们探讨因果关系，结果发现他们各执一词。哲学家大卫·休谟就非常重视因果关系，将因果推理视为知识的核心。休谟认为，因果性可以用特定类型的相关性来定义，也就是说，当我们观察到一件事发生在另一件事之前，并且这种情况在不同的场景下反复出现，我们就会认为这两件事之间存在因果关系。在休谟看来，相关性和因果性在某些情况下几乎可以划等号。当然，也有人对此持有不同意见，他们认为因果关系的内涵不止于此。然而，休谟坚持认为这就是因果关系的全部。这个议题很快就会上升到哲学层面，甚至触及神学，变得非常复杂。

机器之心:那么我们能否跳出哲学层面的探讨，对大模型的因果推理给出一个数学上的定义或者描述呢?

萨金特教授:不能。

机器之心:为什么您这么快就给出否定的回答?难道我们毫无希望吗?

萨金特教授:哦，不是的，我的意思是，我可以给出好几种数学上的定义。在我的论文里，我就给出了好几种。但问题是，有些人看了会说，「对的对的，我就是这个意思」，可另一些人则会说，「不对不对，我说的不是这个，我明明是这个意思」，这种情况很常见，而且由来已久。

机器之心:我们今天面临的一大挑战是，大模型被视为「黑盒子」，其因果链（如果存在的话）极其复杂且难以定义，模型推理的原理或机制在很大程度上仍然未知。在您的经济学研究中，您一直强调对因果关系的分析。您认为是否有必要令大模型掌握因果推理?如果是的话，我们该如何做到这一点?

萨金特教授:这是一个很好的问题。我是这样看的，对于构建大模型的人来说，它并不完全是一个无法理解的黑盒子。他们使用特定的数学和统计工具，清楚地知道自己在做什么，也明白模型在理想情况下如何运作（They know conceptually what they're doing in theory）。我甚至可以解释说明这个过程。但问题是，这是否意味着大模型仅仅只是在机械地遵循指令，识别某些模式?

让我举个例子，就像华为的自动驾驶汽车，它可以做出非常复杂的决定。作为一个局外人，如果你问我华为的自动驾驶汽车是怎么做出某些决定的，我无法回答，但设计它的人知道。这是一个视角问题，就好比我手中的这台华为手机（从兜里拿出一台手机），对我来说这是一个黑盒子，但是对华为来说，它不是。

你的提问都很有见地，因为它们触及了一个核心问题:当我们谈论某个词，比如「黑盒子」或「因果关系」时，我们究竟指的是什么?我推荐你读一篇文章，阿根廷作家博尔赫斯的短篇小说《博闻强记的富内斯》（Funes the Memorious）。它讲了一个拥有超凡感知力的人，可以记住所见到的一切，对任何细节都过目不忘，例如你的一个动作，角度的改变，甚至阴影的变化。当你开始读这篇文章的时候，你会觉得这个人很聪明，简直无所不知。但读到一半，你就会意识到他根本不会思考，因为他拒绝做信息压缩(data reduction)，无法从海量信息中提炼出模式和规律。很大程度上，模式识别就是把一大堆数据进行压缩处理，而这正是智能的关键所在。当然，这也可能导致错误，例如把人按肤色分类，说这些是黑人，那些是白人，他们是不同的，就会犯下错误……

话说远了，回到你的问题，博尔赫斯的小说揭示了一个有趣的现象。所以，当你说「因果」（cause）这个词的时候，你实际上是在说模式(pattens)，但哪些模式才能真正代表因果关系呢?

实际上，我在这里（指2024年罗汉堂数字经济年会）有一个演讲，也会涉及相关内容，我不知道能否回答你的提问，但你可以听一下，你会看到不同的人有不同的看法。就像在日常生活中，你会遇到对因果关系持不同态度的人，我想大多数人根本不在乎，比如说我的孙子们，还有我的女儿，你一提因果她就不耐烦，她只关心漂亮的衣服、心爱的宠物。

机器之心:哈哈，这不也是一种快乐的生活吗?

萨金特教授:这么说也不错，某种意义上。

注释

[1] Thomas J. Sargent， Sources of Artificial Intelligence， https://www.tomsargent.com/research/AI_Sargent.pdf