كيف يعمل ChatGPT: كن أحدث نموذج لغوي الذكاء الاصطناعي
YOGYAKARTA - ChatGPT هو أحدث مثال لغوي على OpenAI وهو تحسن كبير مقارنة بسابقه GPT-3. على غرار العديد من أمثلة اللغات الكبيرة ، فإن ChatGPT قادر على إنشاء نص في مجموعة متنوعة من الأساليب ولأغراض مختلفة ، ولكن بدقة وتفاصيل وتماسك أكبر بكثير. إنه يمثل الجيل التالي في مجموعة عينات OpenAI من OpenAI ، وهو مصمم بتركيز قوي على المحادثات التفاعلية. ثم كيف يعمل chatGPT؟
استخدم منشئو المحتوى مزيجا من التعلم الخاضع للإشراف والتعلم المعزز لتحسين ChatGPT ، ولكن مكون التعلم المعزز هو الذي يجعل ChatGPT فريدا. استخدم المبدعون تقنية محددة تسمى التعلم المعزز من الملاحظات البشرية (RLHF) ، والتي تستخدم التعليقات البشرية في دوائر التدريب لتقليل النتائج الخطيرة و / أو غير الصحيحة و / أو المتحيزة.
سنقوم بفحص قيود GPT-3 وكيف تأتي من عملية التدريب الخاصة بها ، قبل معرفة كيفية عمل RLHF وفهم كيفية استخدام ChatGPT ل RLHF لحل هذه المشكلة. سنختتم بالنظر في بعض قيود هذه المنهجية.
كيف يعمل ChatGPTالتعلم المعزز من التغذية الراجعة البشرية
تتكون الطريقة العامة من ثلاث خطوات مختلفة:
خطوات الضبط الخاضعة للإشراف: يتم ضبط نموذج اللغة المدرب بدقة على كمية صغيرة من بيانات العرض التوضيحي برعاية الملصق ، لمعرفة السياسة الخاضعة للإشراف (نموذج SFT) التي تولد مخرجات من قائمة الكيفية المحددة. إنه يمثل النموذج الأساسي.خطوة "محاكاة التفضيلات البشرية": يطلب من الملصق التصويت على عدد كبير نسبيا من مخرجات نموذج SFT ، وبهذه الطريقة إنشاء مجموعة بيانات جديدة تتكون من بيانات المقارنة. يتم تدريب النموذج الجديد على مجموعة البيانات هذه. يشار إلى هذا باسم نموذج المكافأة (RM).خطوات تحسين السياسة القريبة (PPO): يتم استخدام نموذج المكافأة لزيادة تحسين وتحسين نموذج SFT. نتيجة هذه الخطوة هي ما يسمى نموذج السياسة.تحدث الخطوة 1 مرة واحدة فقط ، بينما يمكن تكرار الخطوتين 2 و 3 باستمرار: يتم جمع المزيد من بيانات المقارنة حول نموذج أفضل سياسة حالي ، والذي يستخدم لتدريب نموذج المكافأة الجديد ثم السياسة الجديدة.
الآن دعنا نتعمق في تفاصيل كل خطوة!
مساوئ المنهجية
هناك قيود واضحة جدا على المنهجية ، كما تمت مناقشته في ورقة InstructGPT (التي تستند إليها ChatGPT ، وفقا لمنشئيها) هي حقيقة أنه في عملية مواءمة نموذج اللغة مع النوايا البشرية ، تتأثر بيانات تحسين النموذج بعوامل ذاتية معقدة مختلفة ، بما في ذلك:
تفضيلات الملصق الذي ينشئ بيانات العرض التوضيحي.صمم الباحثون الدراسة وكتبوا تعليمات وضع العلامات.خيارات سريعة يقدمها المطورون أو يقدمها عملاء OpenAI.يتم تضمين تحيز الملصق في تدريب نموذج المكافأة (بناء على ناتج التصنيف) وفي تقييم النموذج.على وجه الخصوص ، يشير المؤلفون إلى الحقيقة الواضحة المتمثلة في أن التسمية والباحثين الذين يشاركون في عملية التدريب قد لا يمثلون جميع المستخدمين النهائيين المحتملين لنموذج اللغة.
لذلك بعد معرفة كيفية عمل chatGPT ، تحقق من الأخبار الأخرى المثيرة للاهتمام على VOI ، حان الوقت لإحداث ثورة في الأخبار!