ジャカルタ - Appleの人工知能科学者からの新しい研究は、メタとOpenAIによって開発されたような大規模な言語モデル(LLM)に基づく機械がまだ基本的な推論能力に欠けていることを発見しました。
Appleは、これらのモデルの推定能力を測定するために、GSM-Symbolicと呼ばれる新しいベンチマークを提案しています。
最初のテストでは、質問内の単語にわずかな変更が非常に異なる答えをもたらし、モデルの信頼性を損なうことがわかりました。この研究は、計算に影響を与えるべきではないコンテキスト情報を追加して異なる結果をもたらす数学的推論モデルの「確率」を強調しました。
特に、質問の数値がGSM-象徴ベンチマークで変更されると、すべてのモデルのパフォーマンスが低下します。この研究はまた、質問が複雑になるほど、より多くの主張があればあるほど、モデルのパフォーマンスが悪化することも示しました。
ある例では、Appleチームは、追加情報の影響を受けるべきではない単純な数学的問題をテストしました。しかし、OpenAIとMetaのモデルは、無関係な情報を誤って分類し、モデルが問題を本当に理解しておらず、言語パターンのみに依存していることを証明しています。
この研究は、現在のLLMモデルには重要な推定能力がなく、単語の変更に対して脆弱な照合パターンを使用する傾向があると結論付けました。Appleは、現在のLLMに存在する制限に対処するために、iOS 18.1から始まる独自のより高度なバージョンのAIを導入する予定です。
The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)