Bagikan:

JAKARTA – Google DeepMind memperkenalkan alat AI baru untuk menghasilkan soundtrack video. Alat ini tidak hanya menggunakan teks sebagai prompt untuk menghasilkan audio, tetapi juga memperhatikan konten video.

Menurut DeepMind, dengan menggabungkan kedua elemen tersebut, pengguna dapat menggunakan alat ini untuk menciptakan adegan dengan "skor drama, efek suara realistis, atau dialog yang sesuai dengan karakter dan nada video." Beberapa contoh dapat dilihat di situs web DeepMind, yang menunjukkan hasil audio yang cukup memuaskan.

Contohnya, untuk video mobil yang melaju melalui kota cyberpunk, Google menggunakan prompt "mobil meluncur, mesin mobil menderu, musik elektronik malaikat" untuk menghasilkan audio. Suara ban yang meluncur disinkronkan dengan gerakan mobil. Contoh lain menciptakan lanskap suara bawah air dengan menggunakan prompt "ubur-ubur berdenyut di bawah air, kehidupan laut, lautan."

Meskipun pengguna dapat menyertakan teks prompt, DeepMind mengatakan itu opsional. Pengguna juga tidak perlu mencocokkan audio yang dihasilkan dengan adegan yang tepat secara detail. Menurut DeepMind, alat ini dapat menghasilkan "jumlah tak terbatas" soundtrack untuk video, memungkinkan pengguna untuk membuat aliran audio tanpa batas.

Hal ini bisa membuatnya menonjol dari alat AI lainnya, seperti generator efek suara dari ElevenLabs yang menggunakan teks prompt untuk menghasilkan audio. Alat ini juga bisa mempermudah memasangkan audio dengan video yang dihasilkan AI dari alat seperti Veo dan Sora milik DeepMind (yang terakhir akan menggabungkan audio di masa depan).

DeepMind mengatakan mereka melatih alat AI-nya menggunakan video, audio, dan anotasi yang berisi "deskripsi rinci tentang suara dan transkrip dialog yang diucapkan." Hal ini memungkinkan generator video-ke-audio untuk mencocokkan peristiwa audio dengan adegan visual.

Alat ini masih memiliki beberapa keterbatasan. Misalnya, DeepMind berusaha meningkatkan kemampuannya untuk menyinkronkan gerakan bibir dengan dialog, seperti yang terlihat pada video keluarga claymation. DeepMind juga mencatat bahwa sistem video-ke-audio ini tergantung pada kualitas video, sehingga video yang buram atau terdistorsi "dapat menyebabkan penurunan kualitas audio yang nyata."

Alat DeepMind ini belum tersedia secara umum karena masih harus menjalani "penilaian dan pengujian keamanan yang ketat." Ketika tersedia, output audio-nya akan menyertakan watermark SynthID Google untuk menandakan bahwa itu dihasilkan oleh AI.