ジャカルタ - OpenAIは2024年12月に人工知能(AI)o3の基本モデルを発表しました。数ヶ月の発売後、このAIモデルは、第三者からのベンチマークテストの結果のために懸念事項となりました。
OpenAIテストは高い結果を示したため、o3はGrok 3よりも優れていると主張しました。その能力を証明するために、OpenAIは、o3は数学のベンチマークであるFrontierMathの4分の1以上に答えることができると述べています。
この結果は確かに、FrontierMathの2%しかマスターできなかった競合他社よりもはるかに優れています。OpenAIがo3を立ち上げたときのライブ放送で、同社はAIベンチマークが25%以上に達したとも述べています。
しかし、Epoch AIテストの結果は、実際には異なる結果を示しました。FrontierMathの背後にある研究機関は、2025年4月18日にo3テストの結果を共有しました。AIモデルが獲得したスコアはわずか10%で、約束よりも15%低かった。
OpenAIは、Epochが共有したスコアがOpenAIが記録した下限スコアであるため、ベンチマークの結果について嘘をつかないかもしれません。Epochはまた、テスト結果の違いは、FrontierMathの別のバージョンによって引き起こされる可能性があると説明しました。
「私たちの結果とOpenAIの結果の違いは、OpenAIがより強力な内部ブースターで評価し、より多くのテスト時間を使用し、または結果がさまざまなFrontierMathサブセットで実行されたために発生する可能性があります」とEpochはo3テストレポートに書いています。
一方、o3プレリリースのテストに参加した組織は、実際にEpochテストの結果を購入しました。ARC賞財団と呼ばれるこの組織は、TechCrunchから引用して、今日流通している公開のo3モデルは確かに異なっていると述べた。
つまり、Epochテストの結果にはエラーはまったくありませんでした。代わりに、ARC Prizeは、まだリリース前であり、リリース後に実際に違いを打ち負かしたときのo3テストの結果のためにOpenAIをオンにしました。
「(パブリックo3は)チャット/製品の使用に適応した別のモデルです」とARCプライズは公式Xアカウントで述べています。「リリースされたo3コンピューティングのすべてのレベルは、私たちが(以前のテストした)バージョンよりも小さいです。」
The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)