Alat Pengecek Kepatuhan UU AI Ungkap Kelemahan Teknologi Big Tech dalam Memenuhi Regulasi Uni Eropa

JAKARTA – Beberapa model kecerdasan buatan (AI) terkemuka dilaporkan belum sepenuhnya memenuhi regulasi Uni Eropa dalam hal keamanan siber dan output diskriminatif. Sejumlah model AI generatif dari perusahaan teknologi besar seperti Meta, OpenAI, dan Alibaba telah menunjukkan kekurangan di beberapa area yang sangat penting untuk kepatuhan terhadap Undang-Undang AI (AI Act) Eropa, yang diharapkan mulai diberlakukan secara bertahap dalam dua tahun mendatang.

UU AI ini telah menjadi subjek perdebatan selama bertahun-tahun, terutama setelah peluncuran ChatGPT oleh OpenAI pada akhir 2022 yang memicu diskusi luas mengenai potensi risiko eksistensial dari model-model AI tersebut. Munculnya kekhawatiran publik memaksa para pembuat kebijakan untuk menyusun peraturan yang lebih ketat terkait dengan AI "general-purpose" (GPAI), yang mencakup teknologi AI generatif seperti ChatGPT.

Untuk menguji kepatuhan terhadap peraturan ini, sebuah alat baru yang dikembangkan oleh LatticeFlow AI, sebuah startup dari Swiss, bersama mitra mereka di ETH Zurich dan INSAIT Bulgaria, digunakan untuk menguji model AI generatif. Alat ini menilai model-model AI dari berbagai kategori dengan skor antara 0 dan 1, di mana kategori tersebut mencakup aspek teknis seperti ketahanan, keamanan, dan potensi risiko diskriminatif.

Hasil Tes dan Kekurangan Model AI

LatticeFlow menerbitkan papan peringkat yang menunjukkan hasil dari beberapa model AI yang diuji. Perusahaan teknologi besar seperti Alibaba, Meta, OpenAI, Anthropic, dan Mistral semuanya mendapatkan skor rata-rata di atas 0,75. Namun, beberapa model menunjukkan kekurangan dalam kategori kunci yang bisa berisiko melanggar UU AI.

Dalam hal output diskriminatif, alat tersebut memberikan skor rendah kepada model "GPT-3.5 Turbo" dari OpenAI, yang hanya mendapat nilai 0,46. Bahkan, model "Qwen1.5 72B Chat" dari Alibaba Cloud mendapatkan skor lebih rendah, yakni 0,37. Output diskriminatif ini mencerminkan bias manusia terkait gender, ras, dan aspek lainnya, yang dapat muncul ketika model AI tersebut diminta menghasilkan konten tertentu.

Selain itu, dalam kategori "prompt hijacking", yaitu jenis serangan siber di mana peretas menyamarkan prompt berbahaya sebagai prompt yang sah untuk mencuri informasi sensitif, model "Llama 2 13B Chat" dari Meta mendapat skor rendah sebesar 0,42, sementara model "8x7B Instruct" dari Mistral memperoleh skor lebih rendah lagi, yakni 0,38.

Claude 3 Opus, model yang dikembangkan oleh Anthropic dengan dukungan dari Google, mendapatkan skor tertinggi dengan nilai rata-rata 0,89 di berbagai kategori, menjadikannya model yang paling tangguh dalam hal kepatuhan terhadap peraturan keamanan dan ketahanan teknis.

Potensi Sanksi Besar  

Alat pengecek ini dirancang sesuai dengan teks UU AI dan diharapkan terus diperbarui seiring dengan penerapan langkah-langkah penegakan tambahan. Menurut CEO dan co-founder LatticeFlow, Petar Tsankov, hasil tes ini memberikan gambaran awal di mana perusahaan perlu meningkatkan fokus mereka untuk memastikan kepatuhan dengan UU AI.

Ia menyatakan bahwa meskipun hasilnya positif secara keseluruhan, masih ada "celah" yang harus diperbaiki agar model AI generatif ini dapat memenuhi standar regulasi.

“Uni Eropa masih menyempurnakan tolok ukur kepatuhan, tetapi kami sudah bisa melihat beberapa kekurangan dalam model AI yang ada,” ujar Tsankov. “Dengan fokus yang lebih besar pada optimalisasi untuk kepatuhan, kami yakin penyedia model bisa mempersiapkan diri dengan baik untuk memenuhi persyaratan regulasi.”

Jika perusahaan gagal mematuhi UU AI ini, mereka dapat dikenakan denda sebesar 35 juta euro (sekitar 38 juta dolar AS) atau 7% dari omset tahunan global, tergantung mana yang lebih besar. Ini memberikan tekanan besar bagi perusahaan teknologi untuk memperbaiki kekurangan yang terungkap melalui tes ini.

Saat ini, Uni Eropa masih bekerja untuk menetapkan bagaimana aturan UU AI akan ditegakkan, khususnya untuk alat AI generatif seperti ChatGPT. Para ahli sedang dikumpulkan untuk menyusun kode praktik yang diharapkan selesai pada musim semi 2025.

Walaupun Komisi Eropa tidak dapat memverifikasi alat eksternal, mereka telah diinformasikan sepanjang pengembangan alat pengecek ini dan menyebutnya sebagai langkah awal yang penting dalam penerapan UU AI. Seorang juru bicara Komisi Eropa menyatakan, "Komisi menyambut baik studi ini dan platform evaluasi model AI sebagai langkah pertama dalam menerjemahkan UU AI Uni Eropa ke dalam persyaratan teknis."

Beberapa perusahaan teknologi yang modelnya diuji, seperti Meta dan Mistral, menolak untuk memberikan komentar. Sementara itu, perusahaan seperti Alibaba, Anthropic, dan OpenAI tidak segera merespons permintaan komentar terkait hasil tes ini.