OpenAIは脚光を浴びています、最新のベンチマークモデルo3は約束よりも低いです

ジャカルタ - OpenAIは2024年12月に人工知能(AI)o3の基本モデルを発表しました。数ヶ月の発売後、このAIモデルは、第三者からのベンチマークテストの結果のために懸念事項となりました。

OpenAIテストは高い結果を示したため、o3はGrok 3よりも優れていると主張しました。その能力を証明するために、OpenAIは、o3は数学のベンチマークであるFrontierMathの4分の1以上に答えることができると述べています。

この結果は確かに、FrontierMathの2%しかマスターできなかった競合他社よりもはるかに優れています。OpenAIがo3を立ち上げたときのライブ放送で、同社はAIベンチマークが25%以上に達したとも述べています。

しかし、Epoch AIテストの結果は、実際には異なる結果を示しました。FrontierMathの背後にある研究機関は、2025年4月18日にo3テストの結果を共有しました。AIモデルが獲得したスコアはわずか10%で、約束よりも15%低かった。

OpenAIは、Epochが共有したスコアがOpenAIが記録した下限スコアであるため、ベンチマークの結果について嘘をつかないかもしれません。Epochはまた、テスト結果の違いは、FrontierMathの別のバージョンによって引き起こされる可能性があると説明しました。

「私たちの結果とOpenAIの結果の違いは、OpenAIがより強力な内部ブースターで評価し、より多くのテスト時間を使用し、または結果がさまざまなFrontierMathサブセットで実行されたために発生する可能性があります」とEpochはo3テストレポートに書いています。

一方、o3プレリリースのテストに参加した組織は、実際にEpochテストの結果を購入しました。ARC賞財団と呼ばれるこの組織は、TechCrunchから引用して、今日流通している公開のo3モデルは確かに異なっていると述べた。

つまり、Epochテストの結果にはエラーはまったくありませんでした。代わりに、ARC Prizeは、まだリリース前であり、リリース後に実際に違いを打ち負かしたときのo3テストの結果のためにOpenAIをオンにしました。

「(パブリックo3は)チャット/製品の使用に適応した別のモデルです」とARCプライズは公式Xアカウントで述べています。「リリースされたo3コンピューティングのすべてのレベルは、私たちが(以前のテストした)バージョンよりも小さいです。」