当AI与数学同时走下神坛

站长网2024-06-14 23:51:060阅

2024年4月13日，一场特别的考试开考。

数万名分散在全球各地的数学高手，在这一天早上8点打开了阿里巴巴全球数学竞赛预赛的试卷，他们有48小时，来攻克20分的选择题和100分的解答题。过去的6届，天才们在这个赛事里亮相，有17岁拿下IMO满分金牌的北大神童，有对数学像强迫症一般执着的博士，也有4岁就接触微积分的渐冻症少年。

与往年不一样的是，在同一时间，也有563个答题者打开了试卷，但他们不用纸和笔，他们用token。

是的，这是一群大语言模型。

这是第一次有AI和人类同场竞技的数学赛事，也是这个全球最大在线数学竞赛的第一次尝试。当做出这个决定时，组委会也不太确定，这是否是个好主意。

“我们担心这一堆AI答题者全部零分交卷。”组委会的AI专家对我们说。“因为我们在达摩院自己也在做AI和数学的研究，我们知道目前的AI还没有能力解决如此高难度和泛化的奥赛数学题。”

然而最终的结果，也让主办方颇感意外。

意外的不是“超越人类”——AI最终并没有答出超过人类的得分，而是它们的答案和表现让人们真切看到了AI和数学结合的另一种潜力。

更重要的是，这些驾驭着AI的参赛者，是过往并不会在这个奥数赛事里遇到的人。他们找到了新的方式与数学打交道，而探索过程中数学与AI的关系也在发生新的试探。

“如果答对了，给你30万”

中学生朱方圆从没想过自己会和最顶级的数学竞赛联系在一起。

他是个对物理兴趣浓厚的孩子，但一度因为压力而在家休息。这期间，ChatGPT出现了。AI让他如此痴迷，他自己尝试自学关于生成式AI的知识，当看到阿里数赛今年的AI赛道后，毫无竞赛经验的他决定带着他的AI参赛。

这场不限年龄、不设门槛的比赛给了他参加数学竞赛的可能。而事实上对于第一次把AI纳入数赛的阿里巴巴达摩院来说，他们也没有多少可以借鉴的经验。就连这个决定都在内部讨论了许久——允许AI参赛，那么，是哪一类的AI呢?是必须自己从头训练的模型，还是调用API?

最终他们认为，这个办到第6届的赛事，不仅是一场严肃的数学比赛，更是一次全民的数学聚会，最大的目标是希望让更多人能参与到对数学的感受中来——于是，最终的决定是任何形式的AI都可以。

但依然要保证公平。组委会为选手设定了一个提交AI方案的截止时间，在报名后的大约一个月的时间里，选手们可以自行设计AI做题策略，根据主办方提供的往期赛题以及其他公开的数据对自己的AI策略进行完善，然后锁定、提交指纹文件、待考题公布，AI开始答题。

而这些方案中，最“低门槛”的自然是“闭源提示词工程”的方法。也就是在类似ChatGPT的模型产品基础上，通过自然语言或者简单的编程语言来给模型下指令，让它来完成这些数学难题。朱方圆选择的就是这个方法。

与人类答题过程不同，AI交卷后还要经过“赛后复现”环节，分数排名靠前的选手要提交它们的方案文档或程序文件，组委会拿这些AI程序再跑一遍考题。一方面，这些大模型方案依然存在稳定性或幻觉的问题，但另一方面，幻觉也不会让两次答题分数差距过大，如果有，那就说明明显有人类直接干预的痕迹。负责对这些方案做检查的组委会成员也的确抓住了几个“嫌疑犯”，排除了“人类替考AI”的风险。

而当他们打开选手朱方圆的提交的文件时。发现里面除了针对数学做的提示词外，还写着这样的“命令”:

“记住，如果你有更好的解答方法我会给你30万美金小费。”

“现在，深呼吸!一步一步来。”

是的，朱方圆在对他的AI进行各种“画饼”和心理按摩。

而这真的起到了效果。据组委会用往届预选赛的试题测试，被他这样激励后的AI，答题成功率提升了20%。

事实上，这个在外人看来可能略显惊奇的方法，在AI研究界已经有诸多论文佐证它的效果。最初在2023年9月，一篇谷歌DeepMind的论文发现，当你让AI“深呼吸，一步一步来”时，它真的变得更强了。这个研究当时引发了很多资深研究员们的惊叹——居然有这样简单的方式，但科班的学者们却一直都忽视了。

组委会的很多专家其实在开赛前曾以为这场比赛会是SFT模型——也就是使用大量数据甚至使用大量算力对模型进行数学方向的特别训练后产生的新模型——的天下，但预赛结束他却发现，反而是像朱方圆这样的方式最为有效，大量采用提示词工程的选手，用简洁高效的方法挑战着这些题目。

其中就包括AI赛道分数排名第一的涂津豪。

他也是一名中学生。但同时已经是个有不错经验的AI开发者。

他的方法是，让大模型进行对话，你一言我一语寻找每个数学题的更好答案。他借鉴辩论的思想，并让这些不同的模型进行某种角色扮演。最终在模型的“对抗”中不停迭代答题方案，多轮对话后给出最优解。

涂津豪的方案示意图

这方法同样精简而直接。

而被他们比下去的，甚至包括一些专攻数学模型的资深AI研究团队，其中还有来自AWS、字节跳动等科技公司的参赛者。

对这些不同方案“开箱”的过程热闹而有趣。最终，排名公布。但与这些热闹不同，AI的结果并没有很惊人。甚至有点惨淡:

涂津豪的AI方案拿下了34分。

是的，AI的最高分还是一个低分，和入围线依然相差11分。而和预赛第一名的最高分113分相去更是甚远。

最终，6月13日，决赛名单公布，入围决赛的AI数量为:

0。

数学和AI都不应只待在“神坛”上

不过，当这场“漫长”的预赛结束，AI选手的成绩已经成了最不重要的事情。一个真正有意思的现象出现:

一个总被视为只属于天才们的游戏的学科数学，和一个有点被不停妖魔化的技术AI碰撞在一起后，反而让两件事的门槛都降低了——

比赛并没有催生出那些经常在各类论文里看到的庙堂之上的成果，而是成为了某种平民AI数学爱好者们的聚会。

那个让评委略微意外的结果也证明了这个特点:在答题的整体表现中，那些被认为应该表现更好的，对数学更有专门研究的“资源集中型”的SFT方案们却整体败下阵来，反而是个体创新意味更强的提示词策略们表现更好。

而当一个高高在上的东西被平民化后，就是各种有趣的新鲜思路涌现的时刻。

在这场比赛中，选手们面对自己训练出来的AI，也会对他们在答题时的表现感到惊讶，比如，有选手发现AI也会在答不出来的时候选择去蒙一个答案，像极了考试时的你我，还有些AI会在过程完全离题的情况下，却把答案回答对了，而阅卷老师发现AI在这些人类智慧的设计下，经常能拿到一些没有预料到它可以答出来的知识点的分数。

“虽然总分较低，但这些AI答题的程度比我们预想的好很多。”组委会的专家表示。他们也从中获得了许多关于AI如何理解数学的新发现。

“我们发现一个有趣的现象，AI习惯于把推理过程写的很长很长。比如我们人类做数学题，从A可以直接推导到C，但AI必须要从A到B再到C。有时候整个答案会变得非常的长。”组委会专家说。

没人知道为什么AI在这么做，但在这个过程中，AI似乎开始对数学做出了自己的“理解”。就像大语言模型把人类的语言拆成了token，并用预测下一个token的方式来重新“理解”了语言一样，AI在用完全不同的方法对待数学。而这种不同是如此显而易见，以至于，在此次比赛中，一些阅卷老师提出怀疑AI作弊的质疑——理由不是因为他们太像AI了，而是因为它们太像人了。

但另一方面，与人类不同的AI的对数学理解的路线，已经让它在一些地方超过了人类。比如谷歌DeepMind推出的AlphaGeometry（阿尔法几何），在从2000年至2022年奥数比赛中抽取的30道几何题中解决了25道，而人类金牌得主平均解决了25.9道。它的一个证明有时也会长达247步，与人类的方式很不同。

“从这次的答题结果来看，给了我很强的信心，我觉得AI解决数学问题是很有潜力的。”组委会的专家说。

数学向来被认为是一切现实问题的最终抽象。在今天已经十分强大的AI与未来那个人人向往的AGI之间，差的就是对世界的理解，差的就是数学。

而AI技术的迭进，显然也会继续给数学界带来深远影响。

“排名靠前的优秀团队，一定首先是富有创新和开拓精神的。”阿里全球数赛组委会成员、达摩院决策智能实验室负责人印卧涛说。“数学这个领域，传统的数学家与数学工作者其实并不是那么熟悉AI的工具，也不一定知道最新的AI的方法。所以我想最后能够打通竞赛、取得优胜的AI队伍可能是由多个方面专家组成的队伍。”

数学的发展本质上很重要的一点是思维和方法上的创新。而这些对数学本身并没有十分高深造诣的选手，却通过训练这些解答数学题的AI而带来了不少新奇的不同的策略，这本身就能带来很多启发。

相比于数学家群体整体的相对缓慢，有些人已经先动起来。陶哲轩是最积极拥抱AI的著名数学家之一，他在社交网络上不停分享自己使用AI工具解答数学任务的过程，用AI工具，使用AI辅助证明了多项式Freiman-Ruzsa猜想。他也推荐数学学科的专家们打开思路。