Penelitian dari Universitas Innsbruck Austria Ungkap Kelemahan ChatGPT dalam Memahami Keterkaitan Waktu

JAKARTA - Sebuah tim peneliti dari Universitas Innsbruck di Austria telah mengembangkan metode untuk menentukan seberapa baik sistem kecerdasan buatan (AI) dapat memahami 'validitas temporal,' sebuah parameter yang dapat memiliki dampak signifikan pada penggunaan produk AI generatif seperti ChatGPT di sektor fintech.

Validitas temporal merujuk pada seberapa relevan pernyataan tertentu dengan pernyataan lainnya seiring waktu. Pada dasarnya, ini mengacu pada nilai berbasis waktu dari pernyataan yang dipasangkan.

Sebuah AI yang dievaluasi berdasarkan kemampuannya untuk memprediksi validitas temporal akan diberikan serangkaian pernyataan dan diminta untuk memilih yang paling erat terkait sepanjang waktu.

Dalam paper penelitian pra-cetak yang baru-baru ini diterbitkan berjudul "Temporal Validity Change Prediction," Georg Wenzel dan Adam Jatowt menggunakan contoh pernyataan di mana seseorang dinyatakan sedang membaca buku di dalam bus.

Dalam contoh tersebut, pernyataan konteks yang paling valid adalah "Saya hanya tinggal beberapa halaman lagi, kemudian saya selesai." Karena pernyataan target menunjukkan penumpang bus saat ini sedang membaca buku, dua pernyataan lainnya dianggap tidak relevan.

Peneliti menciptakan dataset berlabel dari contoh pelatihan, yang mereka gunakan untuk membangun tugas benchmarking untuk model bahasa besar (LLM). Mereka memilih ChatGPT sebagai model dasar untuk pengujian karena popularitasnya di kalangan pengguna dan menemukan bahwa performanya di bawah standar dibandingkan dengan model yang kurang umum.

"CHATGPT termasuk dalam model berkinerja rendah, yang konsisten dengan penelitian lain tentang pemahaman TCS. Kekurangannya mungkin disebabkan oleh pendekatan pembelajaran few-shot dan kurangnya pengetahuan tentang karakteristik khusus dataset," ungkap para peneliti.

Hal ini menunjukkan bahwa situasi di mana validitas temporal memainkan peran dalam menentukan kebergunaan atau akurasi, seperti dalam menghasilkan artikel berita atau mengevaluasi pasar keuangan, kemungkinan akan lebih baik ditangani oleh model AI yang ditargetkan daripada layanan yang lebih umum seperti ChatGPT.

Para peneliti juga menunjukkan bahwa eksperimen dengan prediksi perubahan nilai temporal selama siklus pelatihan LLM berpotensi menghasilkan skor lebih tinggi pada tugas benchmarking perubahan temporal.

Meskipun paper tersebut tidak secara khusus membahas implikasi di luar eksperimen itu sendiri, salah satu keterbatasan saat ini dari sistem AI generatif adalah kurangnya kemampuan untuk membedakan antara peristiwa masa lalu dan sekarang dalam sebuah korpus literatur.

Mengajarkan sistem-sistem ini bagaimana menentukan pernyataan paling relevan di seluruh korpus, dengan faktor keaktualan menjadi penentu, dapat merevolusi kemampuan model AI untuk membuat prediksi real-time yang kuat dalam sektor-sektor berskala besar seperti pasar kripto dan saham.