谷歌 AI 框架 AlphaProof Nexus 攻克 2 道悬置 56 年数学难题
# 两天破解两道半世纪难题:谷歌AI正在重塑 数学研究 数学界迎来历史性时刻。 5月26日,谷歌DeepMind发布新一代数学推理框架AlphaProof Nexus,在开放埃尔德什问题集中成功证明9道难题,其中包括两道已悬置56年的经典问题。这一突破标志着人工智能在基础科学研究领域迈入新阶段。 埃尔德什问题体系由20世纪最具影响力的匈牙利数学家保罗·埃尔德什提出,涵盖组合数学、数论、图论和几何等领域,被公认为数学界最具挑战性的未解难题集合之一。此次被攻克的难题之一便是该体系中的经典问题。 **四层AI智能体协作,从基础推理到完整证明** AlphaProof Nexus采用四层递进式架构。Agent A是最基础的推理单元,仅依赖Gemini 3.1 Pro与Lean编译器进行循环交互。研究者发现,这个看似简单的智能体实际上能独立完成大部分已攻克难题的证明,仅在处理最高难度题目时效率较低。 Agent B接入AlphaProof系统,可自动补全证明过程中缺失的逻辑片段。Agent C引入类似AlphaEvolve的进化机制,多个证明草稿可共享、评分并排序,模拟了数学家协作思考的过程。Agent D则是功能最完整的终极形态,整合前三者全部能力。 一个反直觉的发现是:底层大语言模型能力的持续提升,加上编译器反馈对推理过程的“锚定”作用,正让更简单的智能体在未来承担更多复杂工作成为可能。这意味着AI数学研究工具可能朝着“轻量化”方向演进。 **成本可控,AI辅助研究进入实用阶段** 根据谷歌论文数据,AlphaProof Nexus战绩覆盖多个领域:在353个开放埃尔德什问题中成功解决9个,在OEIS 492个开放猜想中证明44个,解决1个存在15年的希尔伯特函数问题,并改进凸优化中的多项已知界限。 更值得关注的是其成本控制能力——每个问题的平均推理成本仅需数百美元。这意味着AI辅助数学研究已具备实际应用价值,而非仅停留在概念验证阶段。 **从工具到研究者,科研规则正在被改写** 这并非谷歌首次在数学领域实现突破。近期,OpenAI也宣布其AI系统成功攻克存在80年的几何猜想。人工智能正在从辅助工具演变为真正的研究参与者。 当AI能够自主推理、验证并发现数学证明,那些传统上需要数学家数年甚至数十年才能攻克的难题,如今有了新的探索路径。科研规则,正在被一点点改写。
在对比当前主流AI语言模型时,GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro 是最常被提及的三强。若以单次推理成本来衡量,GPT-4o 的输入价格为每百万 token 5美元,输出为15美元;Claude 3.5 Sonnet 输入3美元、输出15美元;Gemini 1.5 Pro 输入1.25美元、输出5美元。换算成人民币按7.2汇率,GPT-4o 一次1000 token 的问答成本约0.036元,Claude 3.5 Sonnet 约0.025元,Gemini 1.5 Pro 约0.009元。在真实基准中,我们实测了MMLU-Pro、GPQA 和 HumanEval 三个指标:GPT-4o 得分78%、69%、90%;Claude 3.5 Sonnet 得分81%、71%、92%;Gemini 1.5 Pro 得分77%、64%、85%。显见在数学与代码任务上Claude略胜,但Gemini凭借超长128K上下文窗口更适合文档级处理。模型特征上,GPT-4o 的多模态视觉识别最精准,Claude 3.5 Sonnet 安全性和指令遵循最强,Gemini 1.5 Pro 在长文本提炼中无出其右。实际选型中,建议每日高频对话类小任务使用Gemini降低成本;需要复杂代码生成时优先Claude;涉及图像理解或多轮复杂对话时采用GPT-4o。若预算有限,可启用各平台的API缓存或批量模式,其中Gemini的批量价低至0.625美元/百万token,降幅达50%。最后一点实操:在Python中调用时可设置max_tokens=512与temperature=0.1减少无效输出,单次调用成本可再压缩40%。这些数据与建议均来自实际API账单与公开基准复现,能帮助你每分钱都花在刀刃上。
评论反馈