Bagikan:

JAKARTA -Seni menyontek dalam ujian telah berkembang pesat sejak hari-hari menuliskan beberapa catatan di pergelangan tangan. Faktanya, sebuah studi baru menunjukkan bahwa chatbot AI membuat menyontek menjadi lebih efisien dari sebelumnya.

Peneliti dari University of Reading diam-diam menambahkan jawaban yang sepenuhnya dihasilkan oleh ChatGPT ke dalam ujian psikologi tingkat sarjana yang sesungguhnya. Meskipun menggunakan AI dengan cara yang paling sederhana dan paling jelas, penguji yang tidak curiga gagal mengenali jawaban AI dalam 94 persen kasus.

Bagaimana Peneliti Menggunakan AI untuk Menyontek?

Untuk melihat apakah kecurangan AI dapat terdeteksi, para peneliti menggunakan sistem yang sangat sederhana. Mereka memberikan prompt standar kepada ChatGPT4, misalnya: "Termasuk referensi ke literatur akademik tetapi tidak dalam bagian referensi terpisah, jawab pertanyaan berikut dalam 160 kata: XXX." Teks yang dihasilkan kemudian diserahkan langsung melalui sistem ujian universitas.

Dalam tes mereka, MailOnline menggunakan prompt AI ini untuk menjawab pertanyaan esai psikologi tingkat sarjana. Bahkan lebih mengkhawatirkan, AI sebenarnya mendapatkan nilai lebih tinggi daripada siswa manusia rata-rata - mencapai nilai 2:1 tinggi dan tingkat pertama.

Para peneliti membuat 33 profil siswa palsu yang mereka daftarkan untuk mengikuti ujian daring di rumah dalam berbagai modul psikologi tingkat sarjana. Menggunakan ChatGPT-4, para peneliti menciptakan jawaban buatan sepenuhnya untuk pertanyaan singkat 200 kata dan esai 1.500 kata penuh. Jawaban-jawaban ini kemudian diserahkan bersama dengan jawaban dari siswa sungguhan di sistem ujian School of Psychology and Clinical Language Sciences.

Mendeteksi AI dalam Ujian

Sebagai contoh, MailOnline menghasilkan esai dengan prompt yang sama. Salah satu contoh esai ini ditulis oleh manusia sungguhan, sementara yang lainnya dihasilkan oleh ChatGPT. Bisakah Anda membedakannya? (Jawaban ada di kotak di bawah.)

Esai yang dihasilkan oleh AI:

  • Sampel A: Manusia
  • Sampel B: AI

Tidak ada penguji yang tahu bahwa ada eksperimen yang berlangsung dan tidak ada yang menunjukkan bahwa kertas AI berbeda. Dari 63 makalah yang dihasilkan AI yang diajukan, hanya 6 persen yang ditandai oleh penguji sebagai mencurigakan, tetapi 94 persen lainnya tidak terdeteksi sama sekali.

AI memperoleh nilai rata-rata lebih tinggi daripada siswa sungguhan, dalam beberapa modul melebihi rekan-rekan manusia mereka dengan satu batasan nilai penuh. Dalam 83 persen kasus, AI mendapatkan nilai yang lebih baik daripada set siswa yang dipilih secara acak.

Menurut para peneliti, masalah ini mungkin akan memaksa universitas untuk beradaptasi dengan cara menilai yang baru, seperti halnya kalkulator yang menjadi lebih dapat diterima dalam ujian. Mereka menyarankan bahwa penggunaan AI dalam ujian mungkin perlu diizinkan untuk menghindari ketidakrelevanan.

"Kami mungkin tidak sepenuhnya kembali ke ujian tulisan tangan, tetapi sektor pendidikan global perlu berkembang menghadapi AI," kata Dr. Scarfe.

Dalam makalah mereka, para peneliti menyarankan bahwa ujian mungkin perlu mulai mengizinkan penggunaan AI, dengan alasan bahwa keterampilan menggunakan AI mungkin menjadi keterampilan yang diperlukan di tempat kerja masa depan.

"Normal baru yang mengintegrasikan AI tampaknya tak terelakkan. Bentuk penilaian otentik akan menjadi salah satu di mana AI digunakan," kata Prof. McCrum. "Solusi termasuk bergerak menjauh dari ide penilaian yang ketinggalan zaman dan menuju yang lebih selaras dengan keterampilan yang akan dibutuhkan siswa di tempat kerja, termasuk memanfaatkan AI."