JAKARTA – OpenAI meluncurkan model dasar Kecerdasan Buatan (AI) o3 pada Desember 2024. Setelah beberapa bulan diluncurkan, model AI ini menjadi perhatian karena hasil pengujian benchmark dari pihak ketiga.
Pengujian OpenAI menunjukkan hasil yang tinggi sehingga o3 diklaim lebih baik dari Grok 3. Untuk membuktikan kemampuannya, OpenAI mengatakan bahwa o3 mampu menjawab lebih dari seperempat soal FrontierMath, benchmark matematika.
Hasil ini tentunya jauh lebih baik dari pesaingnya yang hanya berhasil menguasai 2 persen soal FrontierMath. Dalam siaran langsung OpenAI saat meluncurkan o3, perusahaan itu pun menyatakan bahwa benchmark AI-nya mencapai lebih dari 25 persen.
Namun, hasil pengujian Epoch AI justru menunjukkan hasil yang berbeda. Lembaga penelitian di balik FrontierMath itu membagikan hasil uji coba o3 pada 18 April 2025. Skor yang didapatkan model AI tersebut hanya 10 persen, 15 persen lebih rendah dari yang dijanjikan.
OpenAI mungkin tidak berbohong mengenai hasil benchmark-nya karena skor yang Epoch bagikan merupakan skor batas bawah yang dicatat OpenAI. Epoch pun menjelaskan bahwa perbedaan hasil uji coba ini mungkin disebabkan oleh versi FrontierMath yang berbeda.
“Perbedaan antara hasil kami dan hasil OpenAI mungkin terjadi karena OpenAI mengevaluasi dengan perancah internal yang lebih kuat, menggunakan lebih banyak waktu pengujian atau karena hasil tersebut dijalankan pada subset FrontierMath yang berbeda," tulis Epoch dalam laporan pengujian o3.
BACA JUGA:
Di sisi lain, sebuah organisasi yang ikut menguji pra-rilis o3 justru membeli hasil pengujian Epoch. Organisasi bernama ARC Prize Foundation itu, mengutip dari TechCrunch, mengatakan bahwa model o3 publik yang beredar saat ini memang berbeda.
Artinya, hasil pengujian Epoch tidak mengalami kesalahan apa pun. Sebaliknya, ARC Prize menyalakan OpenAI karena hasil pengujian o3 saat masih pra-rilis dan setelah dirilis justru mengalahkan perbedaan.
"(o3 publik) adalah model yang berbeda yang disesuaikan untuk penggunaan obrolan/produk,” kata ARC Prize di akun resmi X-nya. "Semua tingkatan komputasi o3 yang dirilis lebih kecil daripada versi yang kami (uji sebelumnya)."