オーストリアのイネスブラヒク大学の研究は、時間関係を理解する上でのChatGPTの欠点を明らかにします
ジャカルタ-オーストリアのインズブラックス大学の研究者チームは、人工知能(AI)システムがフィンテックセクターでChatGPTなどの生成AI製品の使用に大きな影響を与える可能性のあるパラメータである「モバイル検証」をどの程度よく理解できるかを判断する方法を開発しました。
時間的妥当性は、特定の陳述が時間の経過とともに他の陳述とどれほど関連しているかを指します。基本的に、これはペアリングされた陳述の時間ベースの価値を指します。
暫定的な妥当性を予測する能力に基づいて評価されたAIには一連のステートメントが与えられ、常に最も関連するものを選択する必要があります。
最近発表された「テンポラル妥当性変化予測」と題されたプレプリント研究論文で、ゲオルク・ウェンゼルとアダム・ジャトウトは、誰かがバスで本を読んでいると述べられている声明の例を使用しました。
その例では、最も有効な文脈声明は、「私はあと数ページしか残っていません、そして、私は終わりました」です。ターゲットのステートメントは、バスの乗客が現在本を読んでいることを示しているため、他の2つのステートメントは無関係であると見なされます。
研究者は、トレーニングサンプルからラベル付けされたデータセットを作成し、それを使用して大規模な言語モデル(LLM)のベンチマークタスクを構築しました。彼らは、ユーザーの間で人気があるため、テストの基本的なモデルとしてChatGPTを選択し、そのパフォーマンスが標準以下のモデルがあまり一般的ではないモデルと比較されていることを発見しました。
「CHATGPTは低性能モデルに含まれており、TCSの理解に関する他の研究と一致しています。この欠点は、数点の学習アプローチとデータセット固有の特性に関する知識の欠如によって引き起こされる可能性があります」と研究者は述べています。
これは、ニュース記事の作成や金融市場の評価など、有用性や正確性を判断する上で無効性が役割を果たす状況が、ChatGPTなどのより一般的なサービスよりも標的型のAIモデルで処理する方が良い可能性が高いことを示唆しています。
研究者らはまた、LLMトレーニングサイクル中にエコー値の変化を予測する実験は、エコー変更ベンチマークタスクでより高いスコアを生み出す可能性があることを示しました。
この論文は、実験自体以外の意味を具体的に議論していないが、ジェネレーティブAIシステムの現在の制限の1つは、文献の隊列における過去の出来事と現在の出来事を区別する能力の欠如である。
これらのシステムに、信頼性の要因が決定要因を備えた、コルパス間で最も関連性の高い声明を決定する方法を教えることで、AIモデルが暗号市場や株式などの大規模なセクターで強力なリアルタイム予測を行う機能に革命を起こす可能性があります。