Bagikan:

JAKARTA – Sebuah studi baru dari ilmuwan kecerdasan buatan Apple menemukan bahwa mesin yang didasarkan pada model bahasa besar (LLM), seperti yang dikembangkan oleh Meta dan OpenAI, masih kurang dalam kemampuan penalaran dasar.

Apple mengusulkan tolok ukur baru bernama GSM-Symbolic untuk membantu mengukur kemampuan penalaran model-model ini.

Dalam pengujian awal, ditemukan bahwa perubahan kecil pada kata-kata dalam pertanyaan dapat menghasilkan jawaban yang sangat berbeda, yang merusak keandalan model tersebut. Studi tersebut menyoroti "kekakuan" dalam penalaran matematis model, di mana menambahkan informasi kontekstual yang tidak seharusnya memengaruhi perhitungan menyebabkan hasil yang berbeda.

Secara khusus, kinerja semua model menurun saat nilai numerik dalam pertanyaan diubah pada tolok ukur GSM-Symbolic. Penelitian tersebut juga menunjukkan bahwa semakin kompleks pertanyaan dengan lebih banyak klausa, kinerja model semakin memburuk.

Dalam sebuah contoh, tim Apple menguji masalah matematika sederhana yang seharusnya tidak dipengaruhi oleh informasi tambahan. Namun, model dari OpenAI dan Meta secara keliru mengurangkan informasi yang tidak relevan, membuktikan bahwa model tersebut tidak benar-benar memahami masalah dan hanya mengandalkan pola bahasa.

Studi ini menyimpulkan bahwa model LLM saat ini tidak memiliki kemampuan penalaran kritis dan cenderung menggunakan pola pencocokan yang rentan terhadap perubahan kata-kata sederhana. Apple berencana memperkenalkan AI versinya sendiri yang lebih canggih, dimulai dengan iOS 18.1, guna mengatasi keterbatasan yang ada pada LLM saat ini.