Microsoft 创建了 SkillOpt,AI 代理可以学习而不重新训练模型
据外媒报道,微软推出了SkillOpt,这是一个开源框架,可以提高AI代理的能力,而无需更改其基本模型的权重。
据VentureBeat报道,SkillOpt旨在改进AI代理的“技能”。AI代理是一种人工智能系统,可以独立执行某些任务,例如编写代码、阅读文档或使用数字工具。
所指技能是 markdown 文档(.md)中的指令集。其内容可以是工作规则,输出格式,如何使用工具,以及避免错误的步骤。
到目前为止,AI代理人的技能通常是手动改进的。开发人员必须逐一更改指令。这个过程经常像猜测一样。哪句话让AI更准确,哪句话实际上降低了性能。
SkillOpt试图使这个过程更可测量。微软将技能文档视为可以训练的对象。该系统读取AI代理的工作成果,发现错误模式,然后建议对指令进行更改。
但更改不会立即生效。SkillOpt首先对其进行测试。如果性能提高,更改将被接受。如果下降,更改将被拒绝并保存为不良示例,以便不重复。
微软亚洲研究院高级研究员杨毅凡表示,主要问题不在于改变技能,而在于确保这些变化确实改善了性能。
“问题不在于团队能否改变技能,而是他们无法保证这种变化是改进,”杨告诉VentureBeat。
杨说,问题有三个来源。变化可能太远,没有得到验证,或者旧的错误继续回来,因为系统没有“负面记忆”。
他举例说,未经测试的指令更改曾将GPT-5.5在SpreadsheetBench上的分数从41.8降至41.1。
SkillOpt 使用与深度学习类似的原理。有变化的限制,验证测试,以及维护证明是有用的学习的机制。不同之处在于,SkillOpt不触及AI模型的权重。模型权重是决定AI模型如何工作的核心参数。
在VentureBeat引用的测试中,微软尝试了各种模型的SkillOpt,从GPT-5.5到GPT-5.4-mini和Qwen3.5-4B。其测试包括问答,使用工具编写代码,以及多模态文档推理,即结合文本和图像的文档。
结果,SkillOpt在所有52个测试的模型,基准和工作环境组合中都提高了性能。基准是衡量AI模型能力的标准测试。在GPT-5.5上,与没有技能的条件相比,平均提高了23.5分。
小模型也受益匪浅。GPT-5.4-nano在多模态文档问答上的得分几乎翻了一倍,在顺序决策任务上的表现也翻了一倍。
对公司来说,这项技术很有吸引力,因为许多AI工作仍然容易在重要方面出错:从合同,发票和表格中提取数字;保持格式;正确使用工具;并产生可审计的输出。
他说,这种改进不是因为人工智能记住答案。系统通过学习工作流程而变得更好。
SkillOpt也可以在环境之间移动。例如,在Codex CLI上训练的Excel技能可以用于Claude Code,与Claude Code的内置功能相比,它可以产生59.7点的提升。
SkillOpt为企业提供了一种方法,可以使AI代理更加自律,一致,易于审计,而无需重新训练通常昂贵且复杂的底层模型。