ChatGPTの仕組み:AIの最新の言語モデルになる

ジョグジャカルタ - ChatGPTはOpenAIの最新の言語例であり、その前身のGPT-3と比較して大幅に改善されています。多くの大規模な言語の例と同様に、ChatGPTはさまざまなスタイルとさまざまな目的でテキストを作成できますが、精度、詳細、一貫性がはるかに高くなっています。これは、OpenAI の OpenAI サンプル範囲の次世代を表しており、インタラクティブな会話に重点を置いて設計されています。では、チャットGPTはどのように機能しますか?

作成者は、教師あり学習と強化学習を組み合わせてChatGPTを強化しましたが、ChatGPTをユニークなものにしているのはその強化学習コンポーネントです。作成者は、人間のフィードバックからの強化学習(RLHF)と呼ばれる特定の手法を使用し、トレーニングサークルで人間のフィードバックを使用して、危険な、誤った、および/または偏った結果を最小限に抑えました。

RLHFがどのように機能するかを学び、ChatGPTがRLHFを使用してこの問題を解決する方法を理解する前に、GPT-3の制限とそのトレーニングプロセスからどのように生じるかを調べます。最後に、この方法論のいくつかの制限を見ていきます。

チャットGPTの仕組み

ヒューマンフィードバックに基づく強化学習

全体的な方法は、3つの異なるステップで構成されています。

監視チューニング手順: トレーニング済みの言語モデルは、ラベラーによってキュレーションされた少量のデモンストレーション データで微調整され、選択したハウツー リストから出力を生成する監視対象ポリシー (SFT モデル) を学習します。基本モデルを表します。「人間の好みを模倣する」ステップ:ラベラーは、比較的多数のSFTモデル出力に投票するように求められ、このようにして比較データからなる新しいデータセットを作成します。新しいモデルは、このデータセットでトレーニングされます。これは報酬モデル (RM) と呼ばれます。近位ポリシー最適化(PPO)ステップ:報酬モデルは、SFTモデルをさらに改良および改善するために使用されます。このステップの結果は、いわゆるポリシーモデルです。

手順 1 は 1 回だけ発生しますが、手順 2 と 3 は継続的に繰り返すことができます: 現在の最適なポリシー モデルでより多くの比較データが収集され、新しい報酬モデルのトレーニングと新しいポリシーのトレーニングに使用されます。

それでは、各ステップの詳細を詳しく見ていきましょう。

方法論の欠点

論文InstructGPT(作成者によると、ChatGPTが基づいている)で説明されているように、方法論の非常に明確な制限は、言語モデルを人間の意図に合わせる過程で、モデルを洗練するためのデータがさまざまな複雑な主観的要因によって影響を受けるという事実です。

デモンストレーションデータを生成するラベラーの設定。研究者は研究を設計し、ラベル付けの指示を書きました。開発者によって作られた、またはOpenAIの顧客によって提供されたプロンプトオプション。ラベラーバイアスは、報酬モデルのトレーニング(評価の出力に基づく)とモデルの評価に含まれます。

特に、著者らは、トレーニングプロセスに参加するラベラーと研究者が、言語モデルのすべての潜在的なエンドユーザーを代表するとは限らないという明白な事実を指摘しています。

したがって、chatGPTがどのように機能するかを知った後、VOIに関する他の興味深いニュースをチェックして、ニュースに革命を起こす時が来ました!