Microsoft Pamer AI yang Bisa Tiru Suara Manusia Dalam Tiga Detik
JAKARTA - Microsoft baru saja meluncurkan simulator suara berbasis Kecerdasan Buatan (AI), yang mampu meniru suara seseorang secara akurat setelah mendengarkan mereka berbicara hanya dalam tiga detik.
Dijuluki VALL-E, model bahasan codec saraf ini adalah sistem text-to-speech (TTS) canggih yang digerakkan oleh AI. Sistem ini dapat dilatih untuk berbicara seperti siapa pun hanya berdasarkan sampel tiga detik dari suara mereka.
"Secara khusus, kami melatih VALL-E menggunakan kode diskrit yang berasal dari model codec audio saraf siap pakai, dan menganggap TTS sebagai tugas pemodelan bahasa bersyarat daripada regresi sinyal berkelanjutan seperti pada pekerjaan sebelumnya," ungkap peneliti Microsoft.
Hasilnya, sistem TTS terdengar sangat alami mengambil pendekatan yang sama sekali berbeda dengan sistem yang ada.
Selain itu, VALL-E juga terdengar realistis seperti manusia, di mana ia mampu menyampaikan nada dan emosi lebih baik dari sebelumnya. Tetapi ada kekhawatiran, sistem itu dapat digunakan untuk audio deepfake.
VALL-E dibuat dan dilatih menggunakan input audio selama 60.000 jam dari ribuan orang, termasuk buku audio domain publik. Bekerja dengan sampel singkat, VALL-E mampu meniru nada dan timbre suara dengan cara yang sebelumnya tidak mungkin dilakukan.
Baca juga:
"Selama tahap pra-pelatihan, kami meningkatkan data pelatihan TTS menjadi 60 ribu jam pidato Bahasa Inggris yang ratusan kali lebih besar dari sistem yang ada," ujar peneliti Microsoft.
"VALL-E memunculkan kemampuan pembelajaran dalam konteks dan dapat digunakan untuk mensintesis ucapan pribadi berkualitas tinggi hanya dengan rekaman terdaftar 3 detik dari speaker tak terlihat sebagai prompt akustik," imbuhnya.
Melansir Beta News, Rabu, 11 Januari, tim peneliti Microsoft menambahkan, hasil eksperimen menunjukkan VALL-E secara signifikan mengungguli sistem TTS zero-shot canggih dalam hal kealamian ucapan dan kesamaan speaker.
"Selain itu, kami menemukan VALL-E dapat mempertahankan emosi pembicara dan lingkungan akustik dari prompt akustik dalam sintesis," tutur tim peneliti Microsoft.