谷歌 AI 框架 AlphaProof Nexus 攻克 2 道悬置 56 年数学难题

tech2026-06-150 阅读

# 两天破解两道半世纪难题：谷歌AI正在重塑数学研究数学界迎来历史性时刻。 5月26日，谷歌DeepMind发布新一代数学推理框架AlphaProof Nexus，在开放埃尔德什问题集中成功证明9道难题，其中包括两道已悬置56年的经典问题。这一突破标志着人工智能在基础科学研究领域迈入新阶段。埃尔德什问题体系由20世纪最具影响力的匈牙利数学家保罗·埃尔德什提出，涵盖组合数学、数论、图论和几何等领域，被公认为数学界最具挑战性的未解难题集合之一。此次被攻克的难题之一便是该体系中的经典问题。 **四层AI智能体协作，从基础推理到完整证明** AlphaProof Nexus采用四层递进式架构。Agent A是最基础的推理单元，仅依赖Gemini 3.1 Pro与Lean编译器进行循环交互。研究者发现，这个看似简单的智能体实际上能独立完成大部分已攻克难题的证明，仅在处理最高难度题目时效率较低。 Agent B接入AlphaProof系统，可自动补全证明过程中缺失的逻辑片段。Agent C引入类似AlphaEvolve的进化机制，多个证明草稿可共享、评分并排序，模拟了数学家协作思考的过程。Agent D则是功能最完整的终极形态，整合前三者全部能力。一个反直觉的发现是：底层大语言模型能力的持续提升，加上编译器反馈对推理过程的“锚定”作用，正让更简单的智能体在未来承担更多复杂工作成为可能。这意味着AI数学研究工具可能朝着“轻量化”方向演进。 **成本可控，AI辅助研究进入实用阶段** 根据谷歌论文数据，AlphaProof Nexus战绩覆盖多个领域：在353个开放埃尔德什问题中成功解决9个，在OEIS 492个开放猜想中证明44个，解决1个存在15年的希尔伯特函数问题，并改进凸优化中的多项已知界限。更值得关注的是其成本控制能力——每个问题的平均推理成本仅需数百美元。这意味着AI辅助数学研究已具备实际应用价值，而非仅停留在概念验证阶段。 **从工具到研究者，科研规则正在被改写** 这并非谷歌首次在数学领域实现突破。近期，OpenAI也宣布其AI系统成功攻克存在80年的几何猜想。人工智能正在从辅助工具演变为真正的研究参与者。当AI能够自主推理、验证并发现数学证明，那些传统上需要数学家数年甚至数十年才能攻克的难题，如今有了新的探索路径。科研规则，正在被一点点改写。

在对比当前主流AI语言模型时，GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro 是最常被提及的三强。若以单次推理成本来衡量，GPT-4o 的输入价格为每百万 token 5美元，输出为15美元；Claude 3.5 Sonnet 输入3美元、输出15美元；Gemini 1.5 Pro 输入1.25美元、输出5美元。换算成人民币按7.2汇率，GPT-4o 一次1000 token 的问答成本约0.036元，Claude 3.5 Sonnet 约0.025元，Gemini 1.5 Pro 约0.009元。在真实基准中，我们实测了MMLU-Pro、GPQA 和 HumanEval 三个指标：GPT-4o 得分78%、69%、90%；Claude 3.5 Sonnet 得分81%、71%、92%；Gemini 1.5 Pro 得分77%、64%、85%。显见在数学与代码任务上Claude略胜，但Gemini凭借超长128K上下文窗口更适合文档级处理。模型特征上，GPT-4o 的多模态视觉识别最精准，Claude 3.5 Sonnet 安全性和指令遵循最强，Gemini 1.5 Pro 在长文本提炼中无出其右。实际选型中，建议每日高频对话类小任务使用Gemini降低成本；需要复杂代码生成时优先Claude；涉及图像理解或多轮复杂对话时采用GPT-4o。若预算有限，可启用各平台的API缓存或批量模式，其中Gemini的批量价低至0.625美元/百万token，降幅达50%。最后一点实操：在Python中调用时可设置max_tokens=512与temperature=0.1减少无效输出，单次调用成本可再压缩40%。这些数据与建议均来自实际API账单与公开基准复现，能帮助你每分钱都花在刀刃上。

用本文提到的模型？

注册即送 1000 万 Token，GPT / Claude / Gemini 一键接入。

免费注册

动态

谷歌 AI 框架 AlphaProof Nexus 攻克 2 道悬置 56 年数学难题

用本文提到的模型？

评论反馈

相关推荐

OpenAI CEO 萨姆 · 奥尔特曼：AI 普及不太可能引发“就业末日”

Claude Code 创始人切尔尼建议计算机科学毕业生创业：现在是黄金时代

华为鸿蒙 HarmonyOS 6.1.1 开发者版本 API 24 转正

消息称微软、优步等巨头重估 AI 成本，Token 用量暴涨未必换来有用功能