据外媒报道,微软推出了SkillOpt,这是一个开源框架,可以提高AI代理的能力,而无需更改其基本模型的权重。
据VentureBeat报道,SkillOpt旨在改进AI代理的“技能”。AI代理是一种人工智能系统,可以独立执行某些任务,例如编写代码、阅读文档或使用数字工具。
所指技能是 markdown 文档(.md)中的指令集。其内容可以是工作规则,输出格式,如何使用工具,以及避免错误的步骤。
到目前为止,AI代理人的技能通常是手动改进的。开发人员必须逐一更改指令。这个过程经常像猜测一样。哪句话让AI更准确,哪句话实际上降低了性能。
SkillOpt试图使这个过程更可测量。微软将技能文档视为可以训练的对象。该系统读取AI代理的工作成果,发现错误模式,然后建议对指令进行更改。
但更改不会立即生效。SkillOpt首先对其进行测试。如果性能提高,更改将被接受。如果下降,更改将被拒绝并保存为不良示例,以便不重复。
微软亚洲研究院高级研究员杨毅凡表示,主要问题不在于改变技能,而在于确保这些变化确实改善了性能。
“问题不在于团队能否改变技能,而是他们无法保证这种变化是改进,”杨告诉VentureBeat。
杨说,问题有三个来源。变化可能太远,没有得到验证,或者旧的错误继续回来,因为系统没有“负面记忆”。
他举例说,未经测试的指令更改曾将GPT-5.5在SpreadsheetBench上的分数从41.8降至41.1。
SkillOpt 使用与深度学习类似的原理。有变化的限制,验证测试,以及维护证明是有用的学习的机制。不同之处在于,SkillOpt不触及AI模型的权重。模型权重是决定AI模型如何工作的核心参数。
在VentureBeat引用的测试中,微软尝试了各种模型的SkillOpt,从GPT-5.5到GPT-5.4-mini和Qwen3.5-4B。其测试包括问答,使用工具编写代码,以及多模态文档推理,即结合文本和图像的文档。
结果,SkillOpt在所有52个测试的模型,基准和工作环境组合中都提高了性能。基准是衡量AI模型能力的标准测试。在GPT-5.5上,与没有技能的条件相比,平均提高了23.5分。
小模型也受益匪浅。GPT-5.4-nano在多模态文档问答上的得分几乎翻了一倍,在顺序决策任务上的表现也翻了一倍。
对公司来说,这项技术很有吸引力,因为许多AI工作仍然容易在重要方面出错:从合同,发票和表格中提取数字;保持格式;正确使用工具;并产生可审计的输出。
他说,这种改进不是因为人工智能记住答案。系统通过学习工作流程而变得更好。
SkillOpt也可以在环境之间移动。例如,在Codex CLI上训练的Excel技能可以用于Claude Code,与Claude Code的内置功能相比,它可以产生59.7点的提升。
SkillOpt为企业提供了一种方法,可以使AI代理更加自律,一致,易于审计,而无需重新训练通常昂贵且复杂的底层模型。
The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)