OpenAIの最新のAIモデルは、より頻繁に幻覚をとる

ジャカルタ -ChatGPT o3とo4-minは、OpenAIの最新の人工知能(AI)モデルです。それは最先端のペナルティモデルであると主張していますが、どちらも他のOpenAIモデルよりも幻覚をすることがよくあります。

幻覚は、OpenAIを含むAI開発者が避ける病気の1つです。これを経験すると、AIモデルは、ユーザーが必要とする適切で適切な応答を提供するのではなく、作り上げられる傾向があります。

これまで、幻覚はシステムとモデルのパフォーマンスに直接影響するため、AIにとって依然として最大の課題です。ほとんどのAIモデルはすでにこの問題を解決していますが、OpenAIのo3とo4ミニはそうしませんでした。

OpenAIの内部テストの結果によると、これら2つのペナルティモデルは、o1、o1ミニ、o3ミニよりも幻覚が頻繁です。OpenAI非配信モデルと比較すると、GPT-4oは実際にははるかに優れたテスト結果を持っています。

非常に懸念されるのは、OpenAIがo3とo4ミニがしばしば幻覚になる原因を知らないことです。同社は、微細化の原因を突き止めるために「より多くのエクササイズが必要」であると指摘した。

OpenAIテストの結果から、o3は、同社が依存しているベンチマークである PersonQAで質問に答えるとき、33%幻覚を起こしました。一方、o4ミニのベンチマーク率は48%と低い。

この幻覚は、以前のペナルティモデルよりもはるかに厳しいです。その理由は、o1とo3ミニがベンチマークテストでそれぞれ16%と14.8%のスコアしか得られなかったためです。これは、o3およびo4ミニモデルの2倍低い。

TechCrunchから引用されたTransluceテストの結果も、OpenAIテストと同様の結果を示しています。この非営利のAI研究所は、o3がユーザーに回答を提供するためのアクションをしばしば使用することを発見しました。

「私たちの仮説は、シリーズオモデルに使用される補強学習の種類は、標準的なトレーニング後の経路によって通常克服される(しかし完全に削除されない)問題を増幅する可能性があるということです」と、Transluceの研究者でOpenAIの元従業員であるNeil Chowdhuryは述べています。