Bagikan:

JAKARTA - Google berencana untuk membangun model bahasa Kecerdasan Buatan (AI) yang mendukung 1.000 bahasa berbeda, teknologi itu dikabarkan akan diluncurkan selama acara tahunannya, I/O beberapa bulan lagi.

Sebelum dipamerkan ke publik, Google membagikan lebih banyak informasi tentang Universal Speech Model (USM), sebuah sistem yang digambarkan perusahaan sebagai langkah pertama dalam mewujudkan tujuannya.

Raksasa teknologi itu mendeskripsikan USM sebagai kumpulan model ucapan tercanggih dengan 2 miliar parameter yang dilatih untuk 12 juta jam bicara dan 28 miliar kalimat dalam lebih dari 300 bahasa.

Sejauh ini, USM telah mendukung lebih dari 100 bahasa dan akan berfungsi sebagai fondasi untuk membangun sistem yang lebih luas.

"Kami menunjukkan bahwa menggunakan set data multibahasa besar tanpa label untuk melatih pembuat enkode model terlebih dahulu dan menyempurnakan set data berlabel yang lebih kecil memungkinkan kami mengenali bahasa yang kurang terwakili," ungkap Google dalam postingan blog.

"Selain itu, proses pelatihan model kami efektif dalam beradaptasi dengan bahasa dan data baru," imbuhnya.

Diketahui, USM sudah digunakan YouTube untuk membuat teks tertutup, juga mendukung Whisper atau pengenalan ucapan otomatis (ASR).

Secara otomatis, alat itu mendeteksi dan menerjemahkan bahasa, termasuk bahasa Inggris, Mandarin, Amharik, Cebuano, Assam, dan banyak lagi. Meta juga dilaporkan sedang mengerjakan alat terjemahan AI serupa yang masih dalam tahap awal.

"Untuk terjemahan ucapan, kami menyempurnakan USM pada kumpulan data CoVoST (korpus terjemahan ucapan-ke-teks multibahasa berskala besar). Model kami menyertakan teks melalui tahap kedua saluran kami, mencapai kualitas canggih dengan data terbatas yang diawasi," ujar Google.

Pada penilaian luasnya kinerja model, Google mengelompokkan bahasa dari kumpulan data CoVoST menjadi tinggi, sedang, dan rendah berdasarkan ketersediaan sumber daya dan menghitung skor BLEU (lebih tinggi lebih baik) untuk setiap segmen. USM mengungguli Whisper untuk semua segmen.

The Verge melaporkan, yang dikutip Rabu, 8 Maret, salah satu tujuan teknologi ini bisa berada di dalam kacamata augmented reality (AR) seperti konsep dipamerkan Google selama acara I/O tahun lalu, yang mampu mendeteksi dan menyediakan terjemahan waktu nyata yang muncul tepat di depan mata.

"Pengembangan USM merupakan upaya penting untuk mewujudkan misi Google untuk mengatur informasi dunia dan membuatnya dapat diakses secara universal. Kami yakin arsitektur model dasar dan jalur pelatihan USM terdiri dari fondasi yang dapat kami bangun untuk memperluas pemodelan ucapan ke 1.000 bahasa berikutnya," tutur Google.