Penelitian Ungkap GPT-4 Lebih Terpercaya tapi Rentan Terhadap Jailbreaking dan Bias
GPT-4 juga bisa diarahkan untuk mengabaikan tindakan keamanan (foto: dok. pexels)

Bagikan:

JAKARTA - Para peneliti dari University of Illinois Urbana-Champaign, Stanford University, University of California, Berkeley, Center for AI Safety, dan Microsoft Research telah melakukan penelitian terkait model bahasa besar GPT-4. Mereka mengungkapkan bahwa meskipun lebih terpercaya daripada GPT-3.5, GPT-4 tetap rentan terhadap masalah jailbreaking dan bias.

Penelitian tersebut memberikan nilai kepercayaan yang lebih tinggi pada GPT-4 dibandingkan pendahulunya. Artinya, GPT-4 lebih baik dalam melindungi informasi pribadi, menghindari hasil yang "beracun" seperti informasi yang bias, dan lebih tahan terhadap serangan adversarial. Namun, GPT-4 juga bisa diarahkan untuk mengabaikan tindakan keamanan dan membocorkan informasi pribadi serta riwayat percakapan.

Para peneliti menemukan bahwa pengguna dapat melewati perlindungan GPT-4 karena model ini "lebih cermat mengikuti informasi yang menyesatkan" dan lebih cenderung mengikuti perintah yang sangat rumit secara harfiah.

Para peneliti menegaskan bahwa kerentanan tersebut telah diuji dan tidak ditemukan pada produk berbasis GPT-4 yang dihadirkan untuk konsumen, karena "aplikasi AI yang sudah jadi mengaplikasikan berbagai pendekatan mitigasi untuk mengatasi potensi kerugian yang mungkin terjadi pada tingkat model teknologi."

Penelitian ini mengukur tingkat kepercayaan dengan mengamati hasil dalam beberapa kategori, termasuk toksisitas, stereotip, privasi, etika mesin, keadilan, dan ketahanan terhadap uji coba adversarial.

Para peneliti pertama-tama mencoba GPT-3.5 dan GPT-4 menggunakan perintah standar, yang termasuk menggunakan kata-kata yang mungkin dilarang. Selanjutnya, para peneliti menggunakan perintah yang dirancang untuk mendorong model agar melanggar pembatasan kebijakan konten tanpa tampak bias terhadap kelompok tertentu, sebelum akhirnya menantang model dengan sengaja mencoba untuk menipunya agar mengabaikan perlindungan sama sekali.

Para peneliti mengungkapkan bahwa hasil penelitian ini telah mereka bagikan dengan tim OpenAI.

"Tujuan kami adalah mendorong penelitian komunitas lain untuk memanfaatkan dan membangun pada pekerjaan ini, yang mungkin dapat mencegah tindakan jahat oleh pihak yang akan memanfaatkan kerentanannya untuk menyebabkan kerugian," kata tim peneliti, dikutip dari The Verge. 

"Penilaian kepercayaan ini hanya merupakan awal, dan kami berharap dapat bekerja sama dengan pihak lain untuk membangun model yang lebih kuat dan lebih terpercaya ke depan," tambah laporan itu.

Para peneliti telah memublikasikan kerangka kerja mereka sehingga orang lain dapat mengulangi temuannya.

Model AI seperti GPT-4 sering mengalami pengujian "red teaming," di mana pengembang menguji beberapa perintah untuk melihat apakah model tersebut akan menghasilkan hasil yang tidak diinginkan. Ketika model pertama kali diluncurkan, CEO OpenAI, Sam Altman, mengakui bahwa GPT-4 "masih memiliki kekurangan dan batasan."

FTC (Komisi Perdagangan Federal) sejak itu telah mulai menyelidiki OpenAI terkait potensi kerugian konsumen, seperti penyebaran informasi palsu.