好的,我们先把你要我解析的论文内容完整地读一遍。这是一篇关于AI数学推理的论文,标题是:
Winning Gold at IMO 2025 with a Model-Agnostic Verification-and-Refinement Pipeline
我先把核心信息梳理出来,然后再根据你的问题来详细解析。
一、论文基本信息
- 作者:黄溢辰 (Yichen Huang)、杨林 (Lin F. Yang)
- 时间:2025年10月1日(arXiv版本v4)
- 核心贡献:提出了一种模型无关的“验证-细化”流程(Verification-and-Refinement Pipeline),显著提升了大型语言模型(LLM)在国际数学奥林匹克竞赛(IMO)2025难题上的解题表现。
二、研究背景与挑战
-
IMO的难度:
- IMO是高中数学竞赛的顶峰,题目极难,要求独创性、严谨性和深度推理。
- IMO金牌得主未来获得菲尔兹奖(数学界最高荣誉)的概率是顶尖大学数学博士的50倍。
- 与只需要最终数值答案的AIME(美国数学邀请赛)不同,IMO要求完整且严谨的证明。并且,IMO题目会刻意筛选,确保其新颖性,防止与已知问题重复。
-
AI的现状与问题:
- 虽然大型语言模型(如Gemini 2.5 Pro, Grok-4, GPT-5)在GSM8K、MATH甚至AIME等基准测试上表现优异,但在IMO级别的题目上挣扎。
- 主要原因:
- 需要严谨证明:现有模型经常产生逻辑谬误或使用肤浅的启发式方法。
- 数据污染:许多模型可能已经在训练数据中见过类似题目,导致在旧题上表现虚高。
- 推理预算有限:像Gemini 2.5 Pro虽然有“思考令牌”(thinking tokens)机制,但一次推理的预算(如32768个令牌)仍不足以完整解决一个复杂的IMO问题。
-
与DeepMind(AlphaProof/AlphaGeometry)的区别:
- DeepMind的方案(在IMO 2024上获得银牌水平)使用形式语言(Lean)生成证明,优点是正确性可由机器验证,缺点是不易于人类阅读。
- 本论文的方案完全在自然语言框架内,生成的证明是人类可读的,像数学期刊和教科书上的证明一样,便于人机协作。
三、核心方法:验证-细化流程
这是一个模型无关的流程,可以应用于任何先进的LLM。流程如下:
-
步骤1:初始解生成 (Solver)
- 使用一个精心设计的提示词(prompt),要求模型生成一个完整且严谨的解决方案。提示词强调:
- 严谨至上:逻辑必须严密,每一步都要清晰解释。
- 诚实完整:如果找不到完整解,就只输出能严格证明的显著部分结果(如证明关键引理、解决一个子情况等)。
- 作者发现,这一步生成的解质量通常不高,因为模型的推理预算有限。
-
步骤2:自我改进 (Self-improvement)
- 模型在生成初始解后,会被提示回顾并尝试改进自己的方案。
- 这相当于注入新的推理预算,让模型有机会继续思考。作者观察到这一步后,输出质量有明显提升。
-
步骤3:验证并生成错误报告 (Verifier)
- 使用一个验证器提示词,让模型扮演严格的IMO阅卷人,对当前方案进行逐行检查。
- 分类问题:
- 关键错误 (Critical Error):逻辑谬误或事实错误,会破坏证明链条。如果发现,报告后不再检查依赖此错误的后续步骤。
- 论证缺口 (Justification Gap):结论可能正确,但论证不完整、跳跃或不够严谨。验证器会假设该步结论为真,继续检查后续步骤,以便评估整个方案的结构。
- 最终生成一个错误报告,列出所有发现的问题。
-
步骤4:复核错误报告 (Review) - 可选
- 仔细检查验证器生成的错误报告,剔除验证器自身犯的错误(例如,误将正确步骤判为错误)。这提高了报告的可靠性。
-
步骤5:基于错误报告修正 (Correcting)
-
步骤6:接受或拒绝 (Accept/Reject)
- 流程会迭代步骤3-5足够多次。当方案能稳健地通过验证过程时,就接受它。如果多次迭代后仍然存在关键错误或主要论证缺口,就拒绝。
- 在最终决定接受前,作者会运行验证器5次,确保方案每次都能通过,以避免遗漏任何问题。
四、实验设置
- 模型:Gemini 2.5 Pro, Grok-4, GPT-5。
- 温度:低温度(如0.1)以减少随机性。
- 推理努力:
- Gemini 2.5 Pro:使用最大思考预算(32768个推理令牌)。
- Grok-4:推理努力不可调。
- GPT-5:使用高推理努力。
- 禁用:网络搜索、代码执行等所有外部工具。
五、主要结果
-
在IMO 2025上的表现:
- 使用该流程后,三个模型都成功解决了6道题中的5道,准确率约为85.7%。
- 作为对比,MathArena的独立评估显示,即使采用“从32个候选中选出最佳”的策略,这三个模型的基线准确率分别只有31.6%(Gemini)、21.4%(Grok-4)和38.1%(GPT-5)。
- 这证明了该流程的巨大提升效果,表明强大的基础模型已经具备解题能力,但需要一个“验证-细化”流程来将其潜在能力转化为严谨的数学证明。
-
对第6题的一致失败:
- 三个模型都未能解决第6题。
- 以Gemini的解法为例,其核心错误在于错误地假设任何多米诺骨牌必须完全位于某一分区内,而事实上一个骨牌可以跨越多行,同时位于两个分区中。这表明某些复杂的组合推理对当前模型来说仍是重大挑战。
-
在IMC 2025上的独立验证:
- 为了验证流程的泛化能力,MathArena对“Gemini agent”(即本流程+ Gemini 2.5 Pro)在更难的国际大学生数学竞赛(IMC)2025上进行了评估。
- 结果:该agent取得了94.5% 的准确率,在434名人类参赛者中排名第3。而基础模型Gemini 2.5 Pro单独参赛,准确率仅为57.7%,排名第92。这有力地证明了该流程在更知识密集型的领域和全新题目上的有效性。
六、分析与讨论
- 为什么成功:流程通过迭代的“生成-验证-细化”,克服了单次生成中推理预算有限的问题,并利用验证器作为外部反馈,引导模型进行修正。
- 模型无关性:该流程在不同模型上都取得了成功,证明了其普适性。
- 未来工作:作者提出,一个自然的扩展是开发一个多模型协作框架,让多个领先的LLM(如Gemini, Grok, GPT)在流程的每一步都进行协作,各自生成方案/验证报告,然后进行集体评议,以综合出更强大、更可靠的推理能力。
七、附录中的关键信息
- 附录A:包含三个模型对前5道题的无提示(hint-free)解决方案的逐字输出。
- 附录B:包含在最初实验中,Gemini 2.5 Pro在得到简单提示(如“尝试用归纳法”)后,对第1题和第2题的解决方案。
总结
这篇论文的核心是一个非常实用的方法论创新。它没有训练新的模型,而是通过精心设计的提示词和多轮“生成-验证-修正”的流程,极大地榨取了现有最先进LLM的推理潜力,使其在IMO级别的难题上取得了突破性的成绩。这为未来利用AI进行复杂、严谨的推理任务(尤其是在科学和人文学科领域)提供了一个强有力的范式。
← Back
2021-2026 三叶工作室·Think3355