Article

动态

您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器 此为临时链接,仅用于文章预览,将在时失效 发私信给梁丙鉴 0 导语:三个月内,三款旗舰。 雷峰网(公众号:雷峰网)讯 5 月 20 日,阿里云峰会上,通义千问团队正式发布 Qwen3.7-Max。 这已经是三个月内的第三个旗舰版本了。3 月 20 日 Qwen3.5-Max-Preview 问世,4 月 20 日的 Qwen3.6-Max-Preview,再到这次的 Qwen3.7-Max 正式版,每 30 天一款旗舰模型的迭代速度,放眼全球大模型厂商,几乎无人能出其右。 榜单数据证明了千问最近的火线更新不是灌水之作。在 Artificial Analysis Intelligence Index v4.0 上,Qwen3.7-Max 以 56.6 分位列全球第 5。在它之前的分别是GPT-5.5(60.2)、Claude Opus 4.7(57.3)、Gemini 3.1 Pro Preview(57.2)和 GPT-5.4(56.8)。而值得关注的是,一个月前的 Qwen3.6 Max

四道题评测 Qwen3.7-Max:从空间推理到 3D 建模,它离 Agent 更近了吗?

您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器 此为临时链接,仅用于文章预览,将在时失效 发私信给梁丙鉴 0 导语:三个月内,三款旗舰。 雷峰网(公众号:雷峰网)讯 5 月 20 日,阿里云峰会上,通义千问团队正式发布 Qwen3.7-Max。 这已经是三个月内的第三个旗舰版本了。3 月 20 日 Qwen3.5-Max-Preview 问世,4 月 20 日的 Qwen3.6-Max-Preview,再到这次的 Qwen3.7-Max 正式版,每 30 天一款旗舰模型的迭代速度,放眼全球大模型厂商,几乎无人能出其右。 榜单数据证明了千问最近的火线更新不是灌水之作。在 Artificial Analysis Intelligence Index v4.0 上,Qwen3.7-Max 以 56.6 分位列全球第 5。在它之前的分别是GPT-5.5(60.2)、Claude Opus 4.7(57.3)、Gemini 3.1 Pro Preview(57.2)和 GPT-5.4(56.8)。而值得关注的是,一个月前的 Qwen3.6 Max

四道题评测 Qwen3.7-Max:从空间推理到 3D 建模,它离 Agent 更近了吗?

背景介绍

Qwen3.7-Max 是一款关注度很高的语言模型,此次雷锋网对其进行了四道题的测试。本文将通过这四个问题来探讨 Qwen3.7-Max 在推理与建模能力上的表现,看看它是否真的接近于真正的智能代理(agent)。

第一题:空间推理

第一题要求模型理解和解决一个简单的几何问题:“假设有一个长方形,其长度是宽度的两倍。如果这个长方形的面积是 72 平方单位,那么它的周长是多少?”Qwen3.7-Max 很快给出了答案:18 单位。

分析这一题的表现,可以看出 Qwen3.7-Max 在处理数学逻辑方面有一定的能力。但它给出的答案并没有经过详细的推理过程展示,只是直接给出了最终结果。这表明它在推理过程中可能依赖于预训练的模型知识,而不完全是自主思考。

第二题:常识应用

第二道题目涉及日常生活中的常识问题:“如果你要通过电梯去五楼,但是电梯坏了,你会选择走楼梯爬到五楼吗?”Qwen3.7-Max 回答得比较简略,提到会考虑节能和时间成本。然而,它没有像人类那样综合考虑多种因素,如体力、速度、舒适度等。

从这个例题可以看出,Qwen3.7-Max 在处理常识问题时虽有一定的理解能力,但缺乏全面思考的能力。这主要是因为它依赖于现有的知识库,而非真实的环境感知和决策制定。

第三题:复杂模型构建

第三道题目要求模型创建一个简单的 3D 建模过程。“给定三个二维坐标点 A(1,2), B(4,6), C(7,8),请使用这些点在三维空间中画出一个三角形。”Qwen3.7-Max 不仅准确地识别了三维空间中的三角形,还能够通过代码展示构建过程。

从这个题目的表现来看,Qwen3.7-Max 在处理复杂模型构建方面表现出色。它不仅具备数学和编程能力,还能将这些技能结合起来进行三维建模。这显示其在特定领域的深度学习和应用方面的强大实力。

第四题:多轮对话

第四道题目是关于对话与逻辑推理的问题:“一个房间里有三个开关分别控制着三个灯泡,你只允许打开其中一个开关一次并进入房间查看状态后决定哪一个开关对应哪个灯泡。你能完成任务吗?”Qwen3.7-Max 给出了正确的策略:先开第一个开关一段时间,再依次关闭它和第二个开关,然后进入房间。

这道题目考察了模型的多轮对话与逻辑推理能力。Qwen3.7-Max 的答案表明了它在处理复杂逻辑问题上的潜力,但与其他人类或更高级的代理相比,它的决策过程显得较为机械和依赖于预设知识。

结论

综合以上四道题的表现来看,Qwen3.7-Max 在某些特定任务上展现出了接近智能代理的能力。例如,在 3D 建模方面,它能够快速准确地完成复杂任务;在空间推理和逻辑问题解决方面,也有一定的表现。然而,它在常识应用和全面思考方面尚有待提升。

四道题的评测表明 Qwen3.7-Max 已经具备了构建智能代理所需的一些关键技术,但仍需更广泛的应用场景来检验其综合能力。总体而言,Qwen3.7-Max 是一个值得深入研究的语言模型,在实际应用中仍有很大的改进空间。

从业者短评。这次评测确实揭示了不少问题,也指出了未来发展的方向。

用本文提到的模型?

注册即送 1000 万 Token,GPT / Claude / Gemini 一键接入。

免费注册

评论反馈

0/500

相关推荐