Bagikan:

JAKARTA – Interagency Implementation and Advanced Concepts Team (IMPACT), tim antardisiplin yang bekerja di bawah NASA, berkolaborasi dengan International Business Machines (IBM) untuk membuat INDUS.

INDUS, kependekan dari Integrated Neural Discourse Understanding System, merupakan model bahasa besar (LLM) yang dirancang untuk menganalisis data sains yang berkaitan dengan ilmu bumi, ilmu biologi dan fisika, astrofisika, dan lainnya.

Model ini dilatih menggunakan data ilmiah yang dikurasi dari berbagai sumber dan telah menghasilkan dua jenis model, yaitu encoder dan pengubah kalimat. NASA menjelaskan bahwa encoder dilatih dengan 60 miliar token yang mencakup berbagai data.

Encoder dirancang untuk mengubah teks bahasa alami menjadi kode numerik yang dapat diproses oleh LLM sehingga INDUS dibekali oleh kosakata khusus. Dengan dibuatnya encoder ini, INDUS dapat menjadi LLM terbuka yang paling unggul.

Setelah dikembangkan oleh IMPACT dan IBM, INDUS terbukti mampu memproses pertanyaan peneliti, mengambil dokumen relevan, dan memberikan jawaban yang tepat. Tes validasi pun menunjukkan bahwa INDUS dapat mengambil bagian yang relevan dari korpus sains.

Peneliti IBM Bishwaranjan Bhattacharjee mengatakan bahwa IBM dan IMPACT dari NASA telah mencapai kinerja yang unggul. Pasalnya, INDUS bisa mengembangkan model yang kecil maupun besar. Keduanya sama-sama bekerja secara cepat.

"Untuk versi yang lebih kecil dan lebih cepat, kami menggunakan penelusuran arsitektur saraf untuk mendapatkan arsitektur model dan penyulingan pengetahuan untuk melatihnya dengan pengawasan model yang lebih besar," kata Bhattacharjee.

Sementara itu, Sylvain Costes selaku Manajer Proyek BPS NASA untuk Open Science mengatakan bahwa INDUS dapat membantu NASA dalam mengembangkan dan menguji chatbot. LLM ini akan diintegrasikan ke dalam API Open Science Data Repository (OSDR).

"Kami sedang mencari cara untuk meningkatkan sistem data kurasi internal OSDR dengan memanfaatkan INDUS untuk meningkatkan produktivitas tim kurasi kami dan mengurangi upaya manual yang diperlukan setiap hari," ungkap Costes.

NASA dan IBM berkomitmen dalam menghadirkan INDUS secara terbuka di Hugging Face, platform open source machine learning. Tim yang mengembangkan INDUS juga akan merilis kumpulan data tolak ukur yang mencakup pengenalan entitas untuk mendukung perubahan iklim.