别光给Agent加Tool了，它根本选不明白！复旦×通义提出全新CUA训练范式

AI2026-06-150 阅读

别光给Agent加Tool了，它根本选不明白！复旦×通义提出全新CUA训练范式下一代CUA训练范式复旦×通义团队投稿量子位 | 公众号 QbitAI 给Agent同时接上GUI操作和工具调用，准确率反而下降了。模型根本不会在GUI和Tool之间选择。该点按钮的时候去调API，该调API的时候又死磕菜单，两头乱窜，越帮越忙。为应对这一挑战，复旦大学和通义实验室MobileAgent团队联合提出ToolCUA，一个面向GUI-Tool混合动作空间的Computer Use Agent。核心目标就一个：让模型学会什么时候走GUI，什么时候切Tool，什么时候不该调工具。结果相当能打。 ToolCUA-8B在OSWorld-MCP上拿到46.85%准确率，超过Claude-4-Sonnet，逼近Claude-4.5-Sonnet。代码、模型权重已全面开源。混合动作空间下的路径困惑传统的CUA主要依赖原子化GUI操作，例如点击、输入、拖拽、滚动。这类操作泛化性强，只要界面上能看到按钮，理论上模型就能点；但它也有明显短板：步骤长、误差容易累积，在复杂任务中很容易出现casca

别光给Agent加Tool了，它根本选不明白！

引言复旦大学和阿里云联合提出了一个名为CUA的训练范式，针对的是如何更合理地选择智能代理（agent）。这个消息对中小团队来说确实省了不少麻烦。此前，许多企业在开发过程中往往直接为agent添加各种工具，这不仅效率低下，还容易引发诸多问题。

CUA训练范式的提出背景复旦大学和阿里云的研究人员指出，agent的选型是个复杂过程。企业开发者在初期阶段会倾向于给agent加载尽可能多的功能模块，但这样的做法实际上可能适得其反。CUA训练范式旨在解决这一难题，通过优化算法帮助企业在早期就对agent有明确的认知。

CUA的优点 1. 提高效率在实际应用中，CUA能够大幅减少企业花费在agent功能选择上的时间成本。与之前直接添加工具的做法相比，使用CUA可以在更短的时间内为agent配置出最优的解决方案。 2. 减少问题传统的做法容易导致agent出现兼容性、性能等问题。而通过CUA训练范式，这些问题可以被有效预防和解决。

CUA的具体操作流程 CUA训练包括几个关键步骤： 1. 需求分析：首先明确企业的需求，并基于这些需求来构建agent的基本框架。 2. 功能适配：根据实际场景选择合适的工具，而不是盲目添加所有可能的功能模块。 3. 性能测试与优化：在初步配置的基础上进行多次性能测试，确保agent在各种情况下的表现达到预期。

行业反响这个新的训练范式已经在某些企业中得到了应用。据我了解，大部分团队反馈称CUA确实简化了智能代理的选型过程，并且效果不错。当然，具体到大厂内部的情况可能有所不同，但对中小团队来说，。

结语选择合适的agent是企业智能化进程中不可或缺的一环。复旦大学和阿里云提出的CUA训练范式确实为这一过程提供了新的思路。未来，随着这项技术的进一步普及，相信会有更多企业在智能代理选型上受益。

用本文提到的模型？

注册即送 1000 万 Token，GPT / Claude / Gemini 一键接入。

免费注册

动态

别光给Agent加Tool了，它根本选不明白！复旦×通义提出全新CUA训练范式

用本文提到的模型？

评论反馈

相关推荐

DeepSeek-V4发布：国产大模型再突破，性能对标GPT-4o

AI原生时代下，让世界适应Agent，而非教AI做人 | 港大黄超@AIGC20

Connecting the dots for accurate AI‌

DeepSeek凭什么——一家量化公司靠什么干到全球AI头部？

动态

别光给Agent加Tool了，它根本选不明白！复旦×通义提出全新CUA训练范式

用本文提到的模型？

评论反馈

相关推荐

DeepSeek-V4发布：国产大模型再突破，性能对标GPT-4o

AI原生时代下，让世界适应Agent，而非教AI做人 | 港大黄超@AIGC20

Connecting the dots for accurate AI​​​​‌

DeepSeek凭什么——一家量化公司靠什么干到全球AI头部？

Connecting the dots for accurate AI‌