Meta Tak Berniat Luncurkan AI Audio Baru Voicebox, Sebut Sangat Berbahaya!
Meta baru saja memperkenalkan Kecerdasan Buatan (AI) generatif yang dijuluki Voicebox, (foto: dok. meta)

Bagikan:

JAKARTA - Meta baru saja memperkenalkan Kecerdasan Buatan (AI) generatif yang dijuluki Voicebox, terobosan dalam menciptakan ucapan dengan berbagai gaya. Tapi, perusahaan enggan meluncurkannya ke publik.

Voicebox dapat melakukan tugas pembuatan ucapan, seperti mengedit, mengambil sampel dan mengatur gaya bahasa yang tidak dilatih secara khusus untuk dilakukan melalui pembelajaran dalam konteks.

Selain itu, Voicebox dapat menghasilkan klip audio berkualitas tinggi dan mengedit audio yang direkam sebelumnya.

Alat ini juga mengadopsi multibahasa dan menghasilkan ucapan dalam enam bahasa. Saat diberi sampel ucapan seseorang dan bagian teks dalam bahasa Inggris, Prancis, Jerman, Spanyol, Polandia, atau Portugis, Voicebox dapat menghasilkan pembacaan teks dalam salah satu bahasa tersebut.

Bahkan saat sampel ucapan dan teks dalam bahasa yang berbeda. Kemampuan ini dapat digunakan di masa mendatang untuk membantu orang berkomunikasi dengan cara yang alami dan autentik meskipun mereka tidak menggunakan bahasa yang sama.

Meta menyatakan, Voicebox didasarkan pada metode yang disebut Flow Matching, telah terbukti memperbaiki model difusi. Namun, Meta belum akan merilisnya ke publik karena diklaim hal itu bisa menjadi bencana, serta penyalahgunaan.

"Ada banyak kasus penggunaan yang menarik untuk model ucapan generatif, tetapi karena potensi risiko penyalahgunaan, kami tidak menyediakan model atau kode Voicebox untuk umum saat ini," ujar Meta dalam blog resminya, dikutip Selasa, 20 Juni.

Menurut perusahaan, Voicebox mengungguli model bahasa Inggris terkini VALL-E pada zero-shot text-to-speech dalam hal kejelasan (5,9 persen vs. 1,9 persen tingkat kesalahan kata) dan kesamaan audio (0,580 vs. 0,681), sekaligus menjadi sebanyak 20 kali lebih cepat.

Untuk transfer gaya lintas bahasa, Voicebox mengungguli YourTTS untuk mengurangi tingkat kesalahan kata rata-rata dari 10,9 persen menjadi 5,2 persen, dan meningkatkan kesamaan audio dari 0,335 menjadi 0,481.

"Meskipun kami percaya penting untuk terbuka dengan komunitas AI dan berbagi penelitian kami untuk memajukan AI yang canggih, keseimbangan yang tepat antara keterbukaan dengan tanggung jawab juga penting," tutur Meta.