ジャカルタ - マイクロソフトは、基本モデルの重みを変更することなくAIエージェントの能力を向上させることができるオープンソースフレームワークであるSkillOptを発表しました。
VentureBeatが6月15日月曜日に引用したように、SkillOptはAIエージェントの「スキル」を改善するように設計されています。AIエージェントは、コードを書く、ドキュメントを読む、デジタルツールを使用するなど、特定のタスクを自律的に実行できる人工知能システムです。
対象となるスキルは、マークダウンドキュメント(.md)に含まれる一連の命令です。その内容は、作業ルール、出力フォーマット、ツールの使い方、エラーを回避するためのステップなどです。
これまで、AIエージェントのスキルは通常、手動で修正されていました。開発者は、命令を1つずつ変更する必要があります。プロセスはしばしば推測のようなものです。AIをより正確にする文はどこで、パフォーマンスを低下させる文はどこにありますか。
SkillOptは、プロセスをより測定可能にすることを試みます。Microsoftは、スキルドキュメントをトレーニング可能なオブジェクトとして扱います。このシステムは、AIエージェントの作業結果を読み、エラーパターンを見つけ、命令の変更を提案します。
しかし、変更はすぐに使用されません。SkillOptは最初にそれをテストします。パフォーマンスが向上する場合は、変更が受け入れられます。ダウンした場合、変更は拒否され、繰り返さないように悪い例として保存されます。
Microsoft Research Asiaのシニア研究SDEであるYifan Yang氏は、主な問題はスキルを変えることではなく、その変更が実際にパフォーマンスを改善することを保証することであると述べた。
「問題はチームがスキルを変えることができるかどうかではなく、それが改善であることを保証できないことです」とヤン氏はVentureBeatに語った。
ヤン氏によると、問題の3つの原因があるという。変更が行き過ぎたり、検証が不十分だったり、システムに「ネガティブな記憶」がないために古いエラーが繰り返される可能性があります。
彼は、テストされていない命令の変更が、スプレッドシートベンチのGPT-5.5のスコアを41.8から41.1に低下させた例を示した。
SkillOptは、ディープラーニングと似た原理を使用します。変更の量、検証テスト、および実証済みの学習を維持するためのメカニズムがあります。違いは、SkillOptはAIモデルの重みを触れないことです。モデルの重みは、AIモデルがどのように動作するかを決定するコアパラメータです。
VentureBeatが引用したテストでは、MicrosoftはGPT-5.5からGPT-5.4-mini、Qwen3.5-4Bまで、さまざまなモデルでSkillOptを試しました。テストには、質問と回答、ツールによるコード作成、テキストと画像を組み合わせたマルチモーダルドキュメントの推論が含まれます。
その結果、SkillOptは、テストされたすべての52のモデル、ベンチマーク、およびワークロードの組み合わせでパフォーマンスを向上させました。ベンチマークは、AIモデルの能力を測定するための標準テストです。GPT-5.5では、スキルなしの状態で平均23.5ポイントの改善が得られました。
小さなモデルも大きな恩恵を受けています。GPT-5.4-nanoは、マルチモーダルドキュメントの質問と回答のスコアをほぼ2倍にし、順次意思決定タスクのパフォーマンスを2倍にします。
企業にとって、このテクノロジーは、AIの多くの仕事が依然として重要な点で誤りやすいという点で魅力的です。契約、請求書、フォームから数字を抽出すること;フォーマットを維持すること;ツールを正しく使用すること;監査可能な結果を生成すること。
AIが答えを暗記したためではないと述べた。システムは作業手順を学習することでより良くなります。
SkillOptは環境間でも移動できます。たとえば、Codex CLIでトレーニングを受けたスプレッドシートスキルは、Claude Codeで使用でき、Claude Codeのネイティブ機能と比較して59.7ポイントの増加をもたらします。
企業にとって、SkillOptは、通常、高価で複雑な基本モデルを再トレーニングすることなく、AIエージェントをより規律的、一貫性があり、簡単に監査できるようにする方法を提供します。
The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)