جاكرتا -ChatGPT o3 و o4-4 mini هما أحدث نماذج الذكاء الاصطناعي (الذكاء الاصطناعي) من OpenAI. على الرغم من أنه يزعم أنهما أحدث نماذج التفكير ، إلا أن كلاهما غالبا ما يتم تهليفهما أكثر من غيرها من نماذج OpenAI.
الهلوسة هي واحدة من الأمراض التي يتجنبها مطورو الذكاء الاصطناعي ، بما في ذلك OpenAI. عند تجربة هذا ، ستميل نماذج الذكاء الاصطناعي إلى التراجع بدلا من توفير الاستجابة المناسبة ووفقا لما يحتاجه المستخدمون.
حتى الآن ، لا يزال الهلوسة أكبر تحد الذكاء الاصطناعي لأنه يؤثر بشكل مباشر على أداء النظام والنموذج. على الرغم من أن معظم نماذج الذكاء الاصطناعي قد نجحت في التغلب على المشكلة ، إلا أن o3 و o4 mini من OpenAI فشلا في القيام بذلك.
وفقا لنتائج الاختبار الداخلي ل OpenAI ، فإن هذين النموذجين من التوزيع أكثر تبررا من o1 و o1-mini و o3-mini. بالمقارنة مع نموذج OpenAI غير المتداول ، فإن GPT-4o لديه في الواقع نتائج اختبار أفضل بكثير.
شيء مقلق للغاية هو أن OpenAI لا تعرف أسباب o3 و o4 mini المتكررة. وأشارت الشركة إلى أنهم "يحتاجون إلى مزيد من التدريب" لمعرفة سبب التخفيف.
من نتائج اختبار OpenAI ، هرمت o3 بنسبة تصل إلى 33 في المائة عند الإجابة على الأسئلة في PersonQA ، وهو معيار موثوق به للشركة. وفي الوقت نفسه ، فإن o4 mini لديها نسبة معيار أسوأ ، وهي 48 في المائة.
هذا الهلوسة أسوأ بكثير من نموذج الترجيح السابق. والسبب هو أن كل من o1 و o3-mini حصل على نتيجة 16 في المائة و 14.8 في المائة فقط في اختبار المعايير. هذا أقل بضعة من نماذج o3 و o4-mini.
أظهرت نتائج اختبار Transluce ، نقلا عن TechCrunch ، أيضا نتائج مماثلة لاختبار OpenAI. وجد مختبر أبحاث الذكاء الاصطناعي غير الربحية أن o3 غالبا ما يضع إجراءات لتقديم إجابات للمستخدمين.
"إن فرضيتنا هي أن نوع التعلم التعزيز المستخدم في نماذج السلسلة أو يمكن أن يعزز المشاكل التي عادة ما يتم التغلب عليها (ولكن لا تتم إزالتها بالكامل) بواسطة مسارات ما بعد التدريب القياسية" ، قال نيل تشودري ، الباحث في Transluce وموظف سابق في OpenAI.
The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)