ディープマインドGoogleは、ビデオサウンドトラックを生成するための新しいAIツールを発表
ジャカルタ - GoogleのDeepMindは、ビデオサウンドトラックを生成するための新しいAIツールを導入しました。このツールは、テキストをプロンプトとして使用してオーディオを生成するだけでなく、ビデオコンテンツにも注意を払います。
DeepMindによると、これら2つの要素を組み合わせることで、ユーザーはこのツールを使用して「ドラマスケード、リアルなサウンドエフェクト、またはビデオのキャラクターとトーンに対応する対話」のシーンを作成できます。いくつかの例はDeepMindのウェブサイトで見ることができ、これは非常に満足のいくオーディオ結果を示しています。
たとえば、サイバーパンクの街をドライブする車のビデオでは、Googleはプロンプト「滑空車、ender光車のエンジン、天使の電子音楽」を使用してオーディオを生成します。タイヤの滑り音は、車の動きと同期されます。別の例は、「水、海洋生物、海の下の脈動墓」プロンプトを使用して、水中音の風景を作成します。
ユーザーはプロンプトテキストを含めることができますが、DeepMindはオプションであると言います。ユーザーはまた、生成されたオーディオを適切なシーンと詳細に一致させる必要はありません。DeepMindによると、このツールはビデオ用の「無制限の数」のサウンドトラックを生成し、ユーザーが無制限のオーディオストリームを作成できるようにします。
これにより、プロンプトテキストを使用してオーディオを生成するElevenLabsのサウンドエフェクトジェネレータなど、他のAIツールから目立つことができます。また、DeepMindのVeoやSoraなどのツールのAI生成ビデオとオーディオを簡単にペアリングすることもできます(後者は将来オーディオを組み合わせます)。
DeepMindは、ビデオ、オーディオ、および「音声の詳細な説明と話されている対話の文字起こし」を含むメモを使用してAIツールを訓練していると述べた。これにより、ビデオからオーディオへの発信者は、オーディオのイベントをビジュアルシーンと照合できます。
このツールにはまだいくつかの制限があります。たとえば、DeepMindは、クレイメーションファミリービデオに見られるように、リップムーブメントと対話を同期させる機能を向上させようとしています。DeepMindはまた、このビデオからオーディオへのシステムはビデオの品質に依存するため、不透明または歪んだビデオは「オーディオの実際の品質の低下を引き起こす可能性がある」と指摘しています。
このDeepMindツールは、「厳格なセキュリティ評価とテスト」を受ける必要があるため、一般には使用できません。利用可能になると、そのオーディオ出力にはGoogleのシンシッド透かしが含まれ、AIによって生成されたことを示します。