Meta Lahirkan Voicebox, AI Generatif untuk Audio

JAKARTA - Meta baru saja meluncurkan Kecerdasan Buatan (AI) generatif untuk audio. Dijuluki Voicebox, teknologi ini akan memudahkan pengguna saat berinteraksi di metaverse alias dunia virtual.

Voicebox dapat melakukan tugas pembuatan ucapan, seperti mengedit, mengambil sampel dan mengatur gaya bahasa yang tidak dilatih secara khusus untuk dilakukan melalui pembelajaran dalam konteks.

Selain itu, Voicebox dapat menghasilkan klip audio berkualitas tinggi dan mengedit audio yang direkam sebelumnya.

Misalnya saja membunyikan suara klakson mobil atau gonggongan anjing sambil mempertahankan konten dan gaya audio. Model AI baru Meta ini juga mengadopsi multibahasa dan menghasilkan ucapan dalam enam bahasa.

"Di masa mendatang, model AI generatif multiguna seperti Voicebox dapat memberikan suara yang terdengar alami ke asisten virtual dan karakter non-pemain di metaverse," ujar Meta dalam blog resminya, dikutip Sabtu, 17 Juni.

Dengan Voicebox, orang tunanetra dapat mendengar pesan tertulis dari teman yang dibacakan oleh AI dalam suara mereka, membuat dan mengedit trek audio untuk video dengan mudah, dan banyak lagi.

Berikut VOI jabarkan kemampuan dari Voicebox di bawah ini.

Sintesis Text-to-Speech dalam Konteks

Menggunakan sampel audio sesingkat dua detik, Voicebox dapat mencocokkan gaya audio dan menggunakannya untuk pembuatan teks-ke-ucapan.

Pengeditan Ucapan dan Pengurangan Derau

Alat AI anyar ini dapat membuat ulang sebagian ucapan yang terganggu oleh derau atau mengganti kata yang salah bicara tanpa harus merekam ulang seluruh ucapan.

Misalnya, pengguna dapat mengidentifikasi segmen ucapan yang diinterupsi oleh gonggongan anjing, memotongnya, dan menginstruksikan Voicebox untuk membuat ulang segmen tersebut, seperti penghapus untuk pengeditan audio.

Transfer Gaya Lintas Bahasa

Voicebox juga mengadopsi multibahasa dan menghasilkan ucapan dalam enam bahasa. Saat diberi sampel ucapan seseorang dan bagian teks dalam bahasa Inggris, Prancis, Jerman, Spanyol, Polandia, atau Portugis, alat AI anyar itu dapat menghasilkan pembacaan teks dalam salah satu bahasa tersebut.

Bahkan saat sampel ucapan dan teks dalam bahasa yang berbeda. Kemampuan ini dapat digunakan di masa mendatang untuk membantu orang berkomunikasi dengan cara yang alami dan autentik meskipun mereka tidak menggunakan bahasa yang sama.

Diverse Speech Sampling

Belajar dari data yang beragam, Voicebox dapat menghasilkan ucapan yang lebih mewakili bagaimana orang berbicara di dunia nyata dan dalam enam bahasa yang disebutkan di atas.