别光给Agent加Tool了,它根本选不明白!复旦×通义提出全新CUA训练范式
别光给Agent加Tool了,它根本选不明白!复旦×通义提出全新CUA训练范式 下一代CUA训练范式 复旦×通义团队 投稿 量子位 | 公众号 QbitAI 给Agent同时接上GUI操作和工具调用,准确率反而下降了。 模型根本不会在GUI和Tool之间选择。该点按钮的时候去调API,该调API的时候又死磕菜单,两头乱窜,越帮越忙。 为应对这一挑战,复旦大学和通义实验室MobileAgent团队联合提出ToolCUA,一个面向GUI-Tool混合动作空间的Computer Use Agent。 核心目标就一个:让模型学会什么时候走GUI,什么时候切Tool,什么时候不该调工具。 结果相当能打。 ToolCUA-8B在OSWorld-MCP上拿到46.85%准确率,超过Claude-4-Sonnet,逼近Claude-4.5-Sonnet。 代码、模型权重已全面开源。 混合动作空间下的路径困惑 传统的CUA主要依赖原子化GUI操作,例如点击、输入、拖拽、滚动。这类操作泛化性强,只要界面上能看到按钮,理论上模型就能点;但它也有明显短板:步骤长、误差容易累积,在复杂任务中很容易出现casca
别光给Agent加Tool了,它根本选不明白!
引言 复旦大学和阿里云联合提出了一个名为CUA的训练范式,针对的是如何更合理地选择智能代理(agent)。这个消息对中小团队来说确实省了不少麻烦。此前,许多企业在开发过程中往往直接为agent添加各种工具,这不仅效率低下,还容易引发诸多问题。
CUA训练范式的提出背景 复旦大学和阿里云的研究人员指出,agent的选型是个复杂过程。企业开发者在初期阶段会倾向于给agent加载尽可能多的功能模块,但这样的做法实际上可能适得其反。CUA训练范式旨在解决这一难题,通过优化算法帮助企业在早期就对agent有明确的认知。
CUA的优点 1. 提高效率 在实际应用中,CUA能够大幅减少企业花费在agent功能选择上的时间成本。与之前直接添加工具的做法相比,使用CUA可以在更短的时间内为agent配置出最优的解决方案。 2. 减少问题 传统的做法容易导致agent出现兼容性、性能等问题。而通过CUA训练范式,这些问题可以被有效预防和解决。
CUA的具体操作流程 CUA训练包括几个关键步骤: 1. 需求分析:首先明确企业的需求,并基于这些需求来构建agent的基本框架。 2. 功能适配:根据实际场景选择合适的工具,而不是盲目添加所有可能的功能模块。 3. 性能测试与优化:在初步配置的基础上进行多次性能测试,确保agent在各种情况下的表现达到预期。
行业反响 这个新的训练范式已经在某些企业中得到了应用。据我了解,大部分团队反馈称CUA确实简化了智能代理的选型过程,并且效果不错。当然,具体到大厂内部的情况可能有所不同,但对中小团队来说,。
结语 选择合适的agent是企业智能化进程中不可或缺的一环。复旦大学和阿里云提出的CUA训练范式确实为这一过程提供了新的思路。未来,随着这项技术的进一步普及,相信会有更多企业在智能代理选型上受益。
评论反馈