ジャカルタ - GoogleのDeepMindは、ビデオサウンドトラックを生成するための新しいAIツールを導入しました。このツールは、テキストをプロンプトとして使用してオーディオを生成するだけでなく、ビデオコンテンツにも注意を払います。
DeepMindによると、これら2つの要素を組み合わせることで、ユーザーはこのツールを使用して「ドラマスケード、リアルなサウンドエフェクト、またはビデオのキャラクターとトーンに対応する対話」のシーンを作成できます。いくつかの例はDeepMindのウェブサイトで見ることができ、これは非常に満足のいくオーディオ結果を示しています。
たとえば、サイバーパンクの街をドライブする車のビデオでは、Googleはプロンプト「滑空車、ender光車のエンジン、天使の電子音楽」を使用してオーディオを生成します。タイヤの滑り音は、車の動きと同期されます。別の例は、「水、海洋生物、海の下の脈動墓」プロンプトを使用して、水中音の風景を作成します。
ユーザーはプロンプトテキストを含めることができますが、DeepMindはオプションであると言います。ユーザーはまた、生成されたオーディオを適切なシーンと詳細に一致させる必要はありません。DeepMindによると、このツールはビデオ用の「無制限の数」のサウンドトラックを生成し、ユーザーが無制限のオーディオストリームを作成できるようにします。
これにより、プロンプトテキストを使用してオーディオを生成するElevenLabsのサウンドエフェクトジェネレータなど、他のAIツールから目立つことができます。また、DeepMindのVeoやSoraなどのツールのAI生成ビデオとオーディオを簡単にペアリングすることもできます(後者は将来オーディオを組み合わせます)。
DeepMindは、ビデオ、オーディオ、および「音声の詳細な説明と話されている対話の文字起こし」を含むメモを使用してAIツールを訓練していると述べた。これにより、ビデオからオーディオへの発信者は、オーディオのイベントをビジュアルシーンと照合できます。
このツールにはまだいくつかの制限があります。たとえば、DeepMindは、クレイメーションファミリービデオに見られるように、リップムーブメントと対話を同期させる機能を向上させようとしています。DeepMindはまた、このビデオからオーディオへのシステムはビデオの品質に依存するため、不透明または歪んだビデオは「オーディオの実際の品質の低下を引き起こす可能性がある」と指摘しています。
このDeepMindツールは、「厳格なセキュリティ評価とテスト」を受ける必要があるため、一般には使用できません。利用可能になると、そのオーディオ出力にはGoogleのシンシッド透かしが含まれ、AIによって生成されたことを示します。
The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)