Meta Platforms Rilis Model AI untuk Terjemahan dan Transkripsi Pidato dalam Banyak Bahasa
JAKARTA - Meta Platforms, perusahaan induk Facebook, telah merilis model AI yang mampu menerjemahkan dan menuliskan pidato dalam puluhan bahasa. Model AI ini dapat menjadi dasar bagi pengembangan alat komunikasi secara real-time melintasi perbedaan bahasa.
Dalam sebuah posting blog, perusahaan tersebut mengumumkan model SeamlessM4T yang dapat mendukung terjemahan antara teks dan pidato dalam hampir 100 bahasa, serta terjemahan pidato-ke-pidato penuh untuk 35 bahasa, menggabungkan teknologi yang sebelumnya hanya tersedia dalam model terpisah.
CEO Meta, Mark Zuckerberg, telah menyatakan bahwa ia membayangkan alat-alat seperti ini akan memfasilitasi interaksi antara pengguna dari seluruh dunia dalam metaverse, rangkaian dunia maya yang saling terhubung di mana ia bertaruh pada masa depan perusahaan. Meta menjadikan model ini tersedia untuk penggunaan publik tanpa tujuan komersial.
Perusahaan media sosial terbesar di dunia ini telah merilis sejumlah model AI, sebagian besar secara gratis, tahun ini, termasuk sebuah model bahasa besar bernama Llama yang menjadi tantangan serius bagi model-model eksklusif yang dijual oleh OpenAI yang didukung Microsoft dan Google milik Alphabet.
Zuckerberg mengatakan bahwa ekosistem AI yang terbuka memberikan keuntungan bagi Meta, karena perusahaan ini memiliki lebih banyak keuntungan dengan cara mengumpulkan kontribusi dalam pembuatan alat konsumen untuk platform sosialnya daripada mengenakan biaya akses ke model-model tersebut.
Baca juga:
Namun, Meta menghadapi pertanyaan hukum serupa dengan seluruh industri terkait data pelatihan yang digunakan untuk membuat model-modelnya.
Pada bulan Juli, komedian Sarah Silverman dan dua penulis lainnya mengajukan gugatan pelanggaran hak cipta terhadap Meta dan OpenAI, dengan tuduhan bahwa perusahaan-perusahaan tersebut menggunakan buku-buku mereka sebagai data pelatihan tanpa izin.
Untuk model SeamlessM4T, para peneliti Meta mengumpulkan data pelatihan audio dari 4 juta jam "audio mentah yang berasal dari repositori data web yang dapat diakses publik," tanpa menyebutkan repositori mana yang digunakan.
Data teks berasal dari kumpulan data yang dibuat tahun lalu yang mengambil konten dari Wikipedia dan situs web terkait, demikian tertulis dalam makalah penelitian mereka.