YOGYAKARTA - ChatGPT merupakan contoh bahasa terkini dari OpenAI dan adalah peningkatan yang signifikan dibandingi pendahulunya GPT-3. Mirip dengan banyak Contoh Bahasa Besar, ChatGPT sanggup menjadikan teks dalam beragam gaya dan untuk tujuan yang berbeda, tapi dengan presisi, terperinci, dan koherensi yang jauh lebih tinggi. Ini mewakili generasi selanjutnya dalam jajaran Contoh Bahasa Besar OpenAI, dan dirancang dengan konsentrasi kuat pada percakapan interaktif. Lalu bagaimana cara kerja chatGPT?
Pembuatnya telah menggunakan kombinasi Pembelajaran Terawasi dan Pembelajaran Penguatan untuk menyempurnakan ChatGPT, tetapi komponen Pembelajaran Penguatan itulah yang membuat ChatGPT unik. Pencipta menggunakan teknik tertentu yang disebut Reinforcement Learning from Human Feedback (RLHF), yang menggunakan umpan balik manusia dalam lingkaran pelatihan untuk meminimalkan hasil yang berbahaya, tidak benar, dan/atau bias.
Kita akan memeriksa batasan GPT-3 dan bagaimana batasan tersebut berasal dari proses pelatihannya, sebelum mempelajari cara kerja RLHF dan memahami cara ChatGPT menggunakan RLHF untuk mengatasi masalah ini. Kami akan menyimpulkan dengan melihat beberapa keterbatasan metodologi ini.
Cara Kerja ChatGPT
Pembelajaran Penguatan dari Umpan Balik Manusia
Metode keseluruhan terdiri dari tiga langkah berbeda:
- Langkah penyetelan yang diawasi: model bahasa terlatih disetel dengan baik pada sejumlah kecil data demonstrasi yang dikurasi oleh pemberi label, untuk mempelajari kebijakan yang diawasi (model SFT) yang menghasilkan keluaran dari daftar petunjuk yang dipilih. Ini mewakili model dasar.
- Langkah "Meniru preferensi manusia": pemberi label diminta untuk memberikan suara pada keluaran model SFT dalam jumlah yang relatif besar, dengan cara ini membuat kumpulan data baru yang terdiri dari data perbandingan. Model baru dilatih pada kumpulan data ini. Ini disebut sebagai model hadiah (RM).
- Langkah Optimalisasi Kebijakan Proksimal (PPO): model hadiah digunakan untuk lebih menyempurnakan dan meningkatkan model SFT. Hasil dari langkah ini adalah apa yang disebut model kebijakan.
Langkah 1 hanya terjadi sekali, sedangkan langkah 2 dan 3 dapat diulang terus-menerus: lebih banyak data perbandingan dikumpulkan pada model kebijakan terbaik saat ini, yang digunakan untuk melatih model penghargaan baru dan kemudian kebijakan baru.
Sekarang mari selami detail setiap langkah!
Kelemahan metodologi
Keterbatasan metodologi yang sangat jelas, seperti yang dibahas dalam makalah InstructGPT (yang menjadi dasar ChatGPT, menurut pembuatnya) adalah fakta bahwa, dalam proses menyelaraskan model bahasa dengan niat manusia, data untuk menyempurnakan model dipengaruhi oleh berbagai faktor subyektif yang rumit, termasuk:
- Preferensi pemberi label yang menghasilkan data demonstrasi.
- Para peneliti yang merancang studi dan menulis instruksi pelabelan.
- Pilihan prompt yang dibuat oleh pengembang atau disediakan oleh pelanggan OpenAI.
- Bias pemberi label termasuk dalam pelatihan model penghargaan (berdasarkan keluaran peringkat) dan dalam evaluasi model.
Secara khusus, penulis menunjukkan fakta yang jelas bahwa pemberi label dan peneliti yang mengambil bagian dalam proses pelatihan mungkin tidak mewakili semua calon pengguna akhir model bahasa.
Jadi setelah mengetahui cara kerja chatGPT, simak berita menarik lainnya di VOI, saatnya merevolusi pemberitaan!