ジャカルタ-GPT-4は現在、市場で最高のジェネレーティブAIツールですが、それは私たちが未来を見ていないという意味ではありません。OpenAIのCEOであるSam Altmanは、GPT-5について定期的にヒントを与えており、まもなく新しい改善されたAIモデルが登場するようです。
GPT-5の特定の打ち上げ日はありませんが、多くの人が一般の人々がすぐにそれを見るかもしれないと考えています。しかし、打ち上げがいつであっても、GPT-5が打ち上げられるときに存在することを願ういくつかの重要な機能があります。
OpenAIのGPT-5とは何ですか?
GPT-5は、市場で最も強力なジェネレーティブモデルとなることが期待されるOpenAIのGPT-4 AIモデルの待望の後継機です。GPT-5の発売の公式な日付はまだありませんが、このモデルが2024年の夏にリリースされる可能性があるという兆候があります。このモデルについての詳細は現在ほとんど知られていませんが、一定のレベルの確実性で言うことができることがいくつかあります。
OpenAIは、米国特許商標庁にこの名前の商標を登録しました。
何人かのOpenAI幹部は、このモデルの機能の可能性について議論したり、ヒントを提供したりしています。
OpenAIのCEOであるSam Altmanは、2024年3月のレックスフリッドマンとのYouTubeインタビューでこのモデルについて繰り返し言及しました。
これらすべては、1つのスリリングな現実を示しています:GPT-5はすぐに来ています!しかし、現時点ではまだ投機的なことがたくさんあります。しかし、私たちが期待していることがいくつかあり、このモデルに存在すると確信しています。ここにいくつかあります:
より多額の資本
GPT AIモデルファミリーにとって最も興味深い改善点の1つはマルチモダリティです。マルチモダリティは、AIモデルがテキストだけでなく、画像、オーディオ、ビデオなどの他のタイプの入力を処理する機能です。
多様性は、将来のGPTモデルファミリーの進歩にとって重要なマイルストーンとなるでしょう。GPT-4はすでに画像の入力と出力を管理することに堪能であり、オーディオとビデオの処理を含む改善はOpenAIの次のマイルストーンであり、GPT-5は開始するのに最適な場所です。
Googleはすでに、ジェミニAIモデルでこの種の多様性で深刻な進歩を遂げています。OpenAIが応答しないのは奇妙です。ポッドキャスト「Unconfuse Me」(PDFトランスクリプト)で、ビル・ゲイツはOpenAIのCEOサム・アルトマンに、今後2年間でGPTシリーズでどのような成果を上げているかを尋ねた。答え。ビデオ処理。
したがって、GPT-5では、ビデオをリクエストとしてアップロードし、ビデオをライブで作成し、ビデオをリクエストテキストで編集し、ビデオからセグメントを抽出し、大きなビデオファイルから特定のシーンを見つけるなど、ビデオをゲームできることが期待されます。オーディオファイルと同じことをしたいと思っています。それは大きな需要です、はい。しかし、AI開発がどれほど速いかを考えると、これは非常に合理的な希望です。
より大きく、より効率的なコンテキストウィンドウ
市場で最も先進的なAIモデルの1つであるにもかかわらず、GPT AIモデルファミリにはかなり小さなコンテキストウィンドウがあります。たとえば、アンストロピックのKrison 3には20万トークンのコンテキストウィンドウがあり、GoogleのGeminiは最大100万トークン(標準使用で128,000)を処理できます。
対照的に、GPT-4のコンテキストウィンドウは比較的小さく、約128,000トークンで、ChatGPTなどのインターフェイスで使用できる現実的なトークンは約32,000トークン以下です。
洗練されたマルチモダリティが絵を描く中、コンテキストウィンドウのアップグレードはほとんど避けられません。2倍か4倍の増加で十分かもしれませんが、約10倍の増加が見られることを願っています。これにより、GPT-5はははるかに効率的な方法ではるかに多くの情報を処理することができます。ただし、より大きなコンテキストウィンドウは必ずしもより良いことを意味するわけではありません。したがって、コンテキストウィンドウを増やすだけでなく、コンテキスト処理効率が向上します。
GPT エージェント
GPT-5のリリースの最も興味深い可能性の1つは、GPTエージェントの出現です。AIのコンテキストでは「ゲームチェンジャー」という用語があまりにも頻繁に使用されているかもしれませんが、GPTエージェントは実際にはあらゆる実用的な意味でゲームを変更します。しかし、ゲームはどの程度変わりますか?
現在、GPT-4のようなAIモデルは、タスクの完了に役立ちます。電子メールの書き込み、ジョークの作成、数学的な問題の解決、またはあなたのためにブログポストの編集を行うことができます。ただし、特定のタスクを実行するだけで、タスクを完了するために必要な一連の関連タスクを完了することはできません。
あなたがウェブ開発者であると仮定します。あなたの仕事の一環として、あなたは多くのことをすることが期待されています:設計、コードの書き込み、問題の解決など。現在のところ、これらのタスクの一部をAIモデルに段階的に委託することしかできません。GPT-4モデルにホームページのコードを書き込み、連絡先ページでそれを行うように頼むことができるかもしれません。そして、そのようなモデルが解決できないタスクがあります。
この段階的なプロセスは、特定のサブタスクのAIモデルに時間がかかり、非効率的を要求することです。このシナリオでは、Web開発者は、関連するタスクの完全なセットを完了するまで、1タスクごとにAIモデルを調整および要求する責任を負う人間のエージェントです。
GPTエージェントは、うまくいけば、GPT-5が独自の考えを立て、複雑なタスクのすべてのサブセットを自律的に処理できるように調整された特別な専門家ボットを約束します。「自己思考」と「自律的」を重視します。
したがって、GPT-5にGPTエージェントが搭載されている場合は、「ホームページのコードを書く」のではなく、「マクスウェル・ティモシーのポートフォリオサイトを作成する」ように要求できます。GPT-5は、理論的には、Webサイトを構築するために必要なさまざまなサブタスクを処理するために、専門のAIエージェントに電話することで自問することができます。
マクスウェル・ティモシー、さまざまなページのコードを書くための別のエージェント、画像を生成して最適化するための別のエージェント、さらにはサイトを実装するための別のAIエージェントについての情報をウェブから収集するために、1つのGPTを呼んだのかもしれません。
軽い幻覚
OpenAIはAIモデルにおける幻覚の処理に進歩を遂げていますが、GPT-5の真のテストは、ヘルスケア、航空、サイバーセキュリティなどの重要かつ重要な分野でのAIの広範な採用を妨げている持続的な幻覚の問題に取り組む能力になります。
これらはすべて、大規模なAIエンゲージメントから大きな恩恵を受けるが、現在は大幅な採用を回避している分野です。
明確にするために、この文脈での幻覚は、AIモデルが高レベルの信念を持って合理的だが完全に行われている情報を生成し、提示する状況を指します。
GPT-4が診断システムに統合され、患者の症状や医療報告を分析するシナリオを想像してみてください。幻覚は、AIが誤った診断を提供したり、想像された事実と間違った論理に基づいて潜在的に危険な治療経路を推奨したりすることに自信を持つことができます。医療分野におけるそのような間違いの結果は、非常に致命的である可能性があります。
同様の予約は、航空、原子力、海上運用、サイバーセキュリティなどの他の重要な分野にも適用されます。GPT-5が幻覚の問題を完全に解決するとは予想していませんが、そのようなインシデントの可能性を大幅に減らすことができると期待しています。
この待望のAIモデルの公式発売を心から楽しみにしているので、一つ確かなことは、GPT-5は人工知能でどのような境界が可能かを再定義し、人間と機械の間のコラボレーションとイノベーションの新時代をもたらす可能性を秘めています。
The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)