Microsoft 创建了 SkillOpt，AI 代理可以学习而不重新训练模型

据外媒报道，微软推出了SkillOpt，这是一个开源框架，可以提高AI代理的能力，而无需更改其基本模型的权重。

据VentureBeat报道，SkillOpt旨在改进AI代理的“技能”。AI代理是一种人工智能系统，可以独立执行某些任务，例如编写代码、阅读文档或使用数字工具。

所指技能是 markdown 文档（.md）中的指令集。其内容可以是工作规则，输出格式，如何使用工具，以及避免错误的步骤。

到目前为止，AI代理人的技能通常是手动改进的。开发人员必须逐一更改指令。这个过程经常像猜测一样。哪句话让AI更准确，哪句话实际上降低了性能。

SkillOpt试图使这个过程更可测量。微软将技能文档视为可以训练的对象。该系统读取AI代理的工作成果，发现错误模式，然后建议对指令进行更改。

但更改不会立即生效。SkillOpt首先对其进行测试。如果性能提高，更改将被接受。如果下降，更改将被拒绝并保存为不良示例，以便不重复。

微软亚洲研究院高级研究员杨毅凡表示，主要问题不在于改变技能，而在于确保这些变化确实改善了性能。

“问题不在于团队能否改变技能，而是他们无法保证这种变化是改进，”杨告诉VentureBeat。

杨说，问题有三个来源。变化可能太远，没有得到验证，或者旧的错误继续回来，因为系统没有“负面记忆”。

他举例说，未经测试的指令更改曾将GPT-5.5在SpreadsheetBench上的分数从41.8降至41.1。

SkillOpt 使用与深度学习类似的原理。有变化的限制，验证测试，以及维护证明是有用的学习的机制。不同之处在于，SkillOpt不触及AI模型的权重。模型权重是决定AI模型如何工作的核心参数。

在VentureBeat引用的测试中，微软尝试了各种模型的SkillOpt，从GPT-5.5到GPT-5.4-mini和Qwen3.5-4B。其测试包括问答，使用工具编写代码，以及多模态文档推理，即结合文本和图像的文档。

结果，SkillOpt在所有52个测试的模型，基准和工作环境组合中都提高了性能。基准是衡量AI模型能力的标准测试。在GPT-5.5上，与没有技能的条件相比，平均提高了23.5分。

小模型也受益匪浅。GPT-5.4-nano在多模态文档问答上的得分几乎翻了一倍，在顺序决策任务上的表现也翻了一倍。

对公司来说，这项技术很有吸引力，因为许多AI工作仍然容易在重要方面出错：从合同，发票和表格中提取数字;保持格式;正确使用工具;并产生可审计的输出。

他说，这种改进不是因为人工智能记住答案。系统通过学习工作流程而变得更好。

SkillOpt也可以在环境之间移动。例如，在Codex CLI上训练的Excel技能可以用于Claude Code，与Claude Code的内置功能相比，它可以产生59.7点的提升。

SkillOpt为企业提供了一种方法，可以使AI代理更加自律，一致，易于审计，而无需重新训练通常昂贵且复杂的底层模型。