أنشرها:

جاكرتا - أطلقت OpenAI النموذج الأساسي للذكاء الاصطناعي (الذكاء الاصطناعي) o3 في ديسمبر 2024. بعد بضعة أشهر من الإطلاق ، أصبح نموذج الذكاء الاصطناعي هذا مصدر قلق بسبب نتائج اختبار المعايير من طرف ثالث.

أظهر اختبار OpenAI نتائج عالية بحيث يزعم أن o3 أفضل من Grok 3. لإثبات قدرتها ، قالت OpenAI إن o3 كانت قادرة على الإجابة على أكثر من ربع مسألة FrontierMath ، وهي مقارنة رياضية.

هذه النتيجة هي بالتأكيد أفضل بكثير من منافسيها الذين تمكنوا فقط من السيطرة على 2 في المائة حول FrontierMath. في بث مباشر ل OpenAI عند إطلاق o3 ، ذكرت الشركة أيضا أن معايير الذكاء الاصطناعي الخاصة بها وصلت إلى أكثر من 25 في المائة.

ومع ذلك ، أظهرت نتائج اختبار Epoch الذكاء الاصطناعي في الواقع نتائج مختلفة. شارك معهد الأبحاث وراء FrontierMath نتائج تجربة o3 في 18 أبريل 2025. كانت النتيجة التي حصل عليها نموذج الذكاء الاصطناعي 10 في المائة فقط ، أي 15 في المائة أقل مما وعد به.

قد لا تكذب OpenAI حول نتائج المقياس لأن النتيجة التي شاركها Epoch كانت نتيجة الحد الأدنى التي سجلتها OpenAI. كما أوضح Epoch أن الفرق في نتائج هذه التجربة قد يكون ناجما عن إصدارات مختلفة من FrontierMath.

"قد يحدث الفرق بين نتائجنا ونتائج OpenAI لأن OpenAI تقوم بالتقييم باستخدام تقييم داخلي أقوى ، واستخدام المزيد من وقت الاختبار أو لأن النتائج يتم تشغيلها على مجموعات فرعية مختلفة من FrontierMath" ، كتب Epoch في تقرير اختبار o3.

من ناحية أخرى ، اشترت منظمة شاركت في اختبار ما قبل إصدار o3 في الواقع نتائج اختبار Epoch. وقالت المنظمة، التي تسمى مؤسسة جائزة ARC، نقلا عن TechCrunch، إن نموذج o3 العام المتداول اليوم مختلف.

أي أن نتائج اختبار Epoch لم تكن تخطئ أي. على العكس من ذلك ، قامت ARC Prize بتشغيل OpenAI لأن نتائج اختبار o3 كانت لا تزال قبل الإصدار وبعد الإصدار تغلبت بالفعل على الفرق.

"(o3 العامة) هي نماذج مختلفة مصممة خصيصا لاستخدام الدردشة / المنتج" ، قال ARC Prize على حسابه الرسمي X. "جميع مستويات حوسبة o3 الصادرة أصغر من الإصدارات التي أجريناها (اختبار سابق)".


The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)