JAKARTA - Di sebuah studio rekaman yang redup di Seoul, produser di label musik K-pop yang telah melahirkan boy group terkenal BTS, menggunakan kecerdasan buatan untuk menggabungkan suara seorang penyanyi Korea Selatan dengan suara penutur asli dari lima bahasa lainnya.
Teknologi ini memungkinkan HYBE, label musik terbesar di Korea Selatan, untuk merilis lagu oleh penyanyi MIDNATT dalam enam bahasa - Korea, Inggris, Spanyol, China, Jepang, dan Vietnam pada Mei lalu.
Menurut HYBE, Beberapa penyanyi K-pop telah merilis lagu dalam bahasa Inggris dan Jepang selain bahasa asli mereka, tetapi menerapkan teknologi baru ini untuk rilis enam bahasa secara bersamaan adalah yang pertama di dunia. Ini juga dapat membuka jalan bagi penggunaan teknologi serupa oleh aktor-aktor populer lainnya.
"Kami akan mendengarkan reaksi dan suara para penggemar terlebih dahulu, kemudian menentukan langkah-langkah berikutnya," kata Chung Wooyong, kepala divisi media interaktif HYBE dalam wawancara di studio perusahaan.
Lee Hyun, 40 tahun, yang dikenal sebagai MIDNATT, yang hanya berbicara bahasa Inggris dan Tionghoa terbatas selain bahasa Korea, merekam lagu "Masquerade" dalam masing-masing bahasa.
"Penutur asli membacakan lirik lagu, dan kemudian keduanya digabungkan dengan sempurna dengan bantuan teknologi musik AI internal HYBE," kata Chung, dikutip Reuters.
Lagu ini adalah tanda terbaru dari pengaruh AI yang semakin meningkat di industri musik, pada saat Grammy Awards telah memperkenalkan aturan baru untuk penggunaan teknologi ini dan mash-up lagu yang dihasilkan oleh AI membanjiri media sosial.
"Kami membagi suara menjadi berbagai komponen - pengucapan, timbre, nada, dan volume," kata Chung. "Kami melihat pengucapan yang berhubungan dengan gerakan lidah dan menggunakan imajinasi kami untuk melihat hasil seperti apa yang bisa kami buat dengan teknologi kami."
Dalam perbandingan sebelum dan sesudah yang ditunjukkan kepada Reuters, bunyi vokal yang memanjang ditambahkan pada kata "twisted" dalam lirik bahasa Inggris, misalnya, untuk terdengar lebih alami, sementara tidak ada perubahan yang terdeteksi pada suara penyanyi.
"Menggunakan deep learning yang didukung oleh kerangka Neural Analysis and Synthesis (NANSY) yang dikembangkan oleh Supertone, membuat lagu terdengar lebih alami daripada menggunakan perangkat lunak non-AI," kata chief operating officer Supertone, Choi Hee-doo.
HYBE mengumumkan akuisisi Supertone senilai 45 miliar won (Rp539,5 miliar) pada Januari. HYBE mengatakan berencana untuk membuat sebagian teknologi AI yang digunakan dalam lagu MIDNATT dapat diakses oleh para kreator dan masyarakat umum, tetapi tidak menyebutkan apakah akan membebankan biaya.
BACA JUGA:
MIDNATT mengatakan bahwa penggunaan AI telah memberinya "spektrum ekspresi artistik yang lebih luas."
"Saya merasa bahwa hambatan bahasa telah terangkat dan jauh lebih mudah bagi para penggemar global untuk merasakan pengalaman imersif dengan musik saya," katanya dalam pernyataan.
"Meskipun teknologi ini bukan hal baru, ini adalah cara inovatif dalam menggunakan AI dalam musik," kata Valerio Velardo, direktur The Sound of AI, sebuah layanan konsultasi berbasis di Spanyol untuk musik dan audio AI.
"Tidak hanya musisi profesional tetapi juga masyarakat lebih luas akan mendapatkan manfaat dari teknologi musik AI dalam jangka panjang," kata Velardo. "Ini akan menurunkan hambatan penciptaan musik. Sedikit mirip dengan Instagram untuk gambar tetapi dalam hal musik."
"Untuk saat ini, teknologi koreksi pengucapan HYBE memerlukan "minggu atau bulan" untuk melakukannya, tetapi ketika proses ini dipercepat, teknologi ini bisa digunakan untuk berbagai tujuan seperti interpretasi dalam konferensi video," kata Choi Jin-woo, produser lagu "Masquerade" MIDNATT yang dikenal dengan nama Hitchhiker.