أنشرها:

جاكرتا - وجدت دراسة جديدة من علماء الذكاء الاصطناعيين من Apple أن الأجهزة القائمة على نماذج اللغة الكبيرة (LLM) ، مثل تلك التي طورتها Meta و OpenAI ، لا تزال تفتقر إلى قدرات التدوير الأساسية.

جاكرتا - تقترح شركة آبل معيارا جديدا يسمى GSM-Symbolic للمساعدة في قياس قدرة التداول لهذه النماذج.

في الاختبارات الأولية ، وجد أن التغييرات الصغيرة في الكلمات في الأسئلة يمكن أن تؤدي إلى إجابات مختلفة تماما ، مما يضر بموثوقية النموذج. وسلطت الدراسة الضوء على "التقزم" في المحاور الرياضية للنموذج، حيث أضافت معلومات سياقية لا ينبغي أن تؤثر على الحسابات التي تؤدي إلى نتائج مختلفة.

على وجه الخصوص ، انخفض أداء جميع النماذج مع تغيير القيمة العددية في السؤال إلى معيار GSM-Symbolic. وأظهر البحث أيضا أنه كلما زاد تعقيد الأسئلة مع المزيد من المعايير، زاد أداء النموذج أسوأ.

على سبيل المثال، اختبر فريق Apple مشكلة رياضية بسيطة لا ينبغي أن تتأثر بمعلومات إضافية. ومع ذلك ، فإن نماذج OpenAI و Meta تقليل المعلومات غير ذات الصلة عن طريق الخطأ ، مما يثبت أن النموذج لا يفهم المشكلة حقا ويعتمد فقط على أنماط اللغة.

وخلصت الدراسة إلى أن نموذج LLM الحالي ليس لديه قدرات تقييمية ويميل إلى استخدام أنماط مطابقة معرضة للتغيير البسيط في الكلمات. تخطط شركة آبل لتقديم نسخة الذكاء الاصطناعي الأكثر تقدما الخاصة بها ، بدءا من iOS 18.1 ، لمعالجة القيود المفروضة على LLM الحالية.


The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)