JAKARTA - Google baru saja memperkenalkan Robotics Transformer 2 (RT-2), yang merupakan model Vision Language Action (VLA) untuk melakukan tindakan di dunia nyata.
Robot berbasis Kecerdasan Buatan (AI) ini dilatih Google untuk memahami, memproses teks dan gambar dari web. Dengan data tersebut, RT-2 dapat langsung menampilkan aksi.
"Tidak seperti chatbot, robot membutuhkan pembumian di dunia nyata dan kemampuannya. Pelatihan mereka bukan hanya tentang, seperti mempelajari segala sesuatu yang perlu diketahui tentang apel, bagaimana apel itu tumbuh, dan sifat fisiknya," kata Ilmuwan dan Kepala Robotika Google DeepMind, Vincent Vanhoucke, dalam blog resmi perusahaan, dikutip Senin, 31 Juli.
"Robot harus dapat mengenali apel dalam konteks, membedakannya dari bola merah, memahami seperti apa bentuknya, dan yang terpenting, mengetahui cara mengambilnya," imbuhnya.
Penelitian terbaru ini telah meningkatkan kemampuan robot untuk bernalar, bahkan mereka dapat menggunakan dorongan rantai pemikiran, cara untuk membedah masalah multi-langkah.
Pengenalan model penglihatan, seperti PaLM-E, membantu robot memahami lingkungannya dengan lebih baik. Dan RT-1 (sebelum RT-2) menunjukkan Transformers, yang dikenal karena kemampuannya menggeneralisasi informasi di seluruh sistem, bahkan dapat membantu berbagai jenis robot belajar satu sama lain.
Dalam pengujian model RT-2 di lebih dari 6.000 uji coba robot, para ilmuwan menemukan RT-2 berfungsi sebaik model sebelumnya pada tugas dalam data pelatihannya, atau tugas terlihat.
"Dan itu hampir menggandakan kinerjanya pada novel, skenario tak terlihat menjadi 62 persen dari 32 persen RT-1. Dengan kata lain, dengan RT-2, robot dapat belajar lebih banyak seperti kita, mentransfer konsep yang dipelajari ke situasi baru," jelas Vanhoucke.
BACA JUGA:
Karena RT-2 mampu mentransfer pengetahuan dari sekumpulan besar data web, RT-2 sudah memiliki gagasan tentang apa itu sampah dan dapat mengidentifikasinya tanpa pelatihan eksplisit.
"Dia bahkan memiliki ide bagaimana cara membuang sampah, meskipun tidak pernah dilatih untuk melakukan tindakan tersebut," ujar Vanhoucke.
"Dan pikirkan tentang sifat abstrak dari sampah - apa yang dulunya sekantong keripik atau kulit pisang menjadi sampah setelah Anda memakannya. RT-2 mampu memahami hal itu dari data pelatihan bahasa penglihatannya dan melakukan pekerjaannya," sambungnya.
Vanhoucke menyatakan, kemampuan RT-2 untuk mentransfer informasi ke tindakan menunjukkan janji bagi robot untuk lebih cepat beradaptasi dengan situasi dan lingkungan baru.
"RT-2 tidak hanya menunjukkan bagaimana kemajuan AI mengalir dengan cepat ke dalam robotika, tetapi juga menunjukkan janji yang sangat besar untuk robot yang lebih umum," tutur Vanhoucke.
"Meskipun masih banyak pekerjaan yang harus dilakukan untuk mengaktifkan robot yang membantu di lingkungan yang berpusat pada manusia, RT-2 menunjukkan kepada kita masa depan yang menarik untuk robotika hanya dalam genggaman," tambahnya.