جاكرتا - نشرت شركة آبل مرة أخرى دراسة جديدة تظهر كيف يمكن استخدام نماذج اللغات الكبيرة (LLM) لتحليل بيانات الصوت والحركة (الحركة) لفهم أنشطة المستخدمين بدقة أكبر. تفتح الدراسة الفرص أمام تطبيق Apple Intelligence وتكنولوجيا متعددة الوسائط الأكثر تقدما في الجيل التالي من iOS.
في ورقة بعنوان "استخدام LLMs لمستشعر الاندماج متعدد الاستثمارات ببطء للتعرف على الأنشطة" ، أوضح باحثو Apple أنه يمكن الجمع بين LLM وبيانات المستشعر التقليدية لتحسين دقة إدخال النشاط ، حتى عندما تكون بيانات المستشعر ضئيلة.
لا تقبل LLM الصوت الخام ، ولكنها وصف للرسائل القصيرة التي أنشأتها نماذج الصوت ، بالإضافة إلى بيانات التنبؤ بالنشاط القائمة على مستشعر IMU (مقياس التسارع و gyroscope). وبعبارة أخرى ، تظل خصوصية المستخدم محمية.
LLM قادرة على تصنيف الأنشطة بنوبة صفرية ونوبة واحدة - بدون تدريب محدد.
الدقة تفوق بكثير الفرص العشوائية حتى بدون نموذج محدد للأنشطة.
يمكن أن يؤدي إعطاء مثال واحد فقط إلى تحسين أداء النموذج بشكل كبير.
يسمح هذا النهج باستخدام النماذج متعددة المعدات دون إضافة أحمال الذاكرة أو الحوسبة.
استخدم الباحثون Ego4D ، وهي مجموعة بيانات كبيرة تحتوي على لقطات فيديو من منظور الشخص الأول تعرض مجموعة واسعة من الأنشطة اليومية.
قاموا بترتيب عينة مدتها 20 ثانية تغطي 12 نشاطا ، مثل:
امتصاص الغبار
طهي
غسل الملابس
أكل
لعب كرة السلة
لعب كرة القدم
اللعب مع الحيوانات الأليفة
قراءة الكتب
استخدام الكمبيوتر
غسل الأطباق
مشاهدة التلفزيون
التمرين / رفع الحمل
الهدف هو توفير نطاق للأنشطة المنزلية واللياقة البدنية التي تحدث بشكل عام.
تتم معالجة بيانات الصوت والحركة بواسطة نماذج صغيرة لإنتاج:
نص الوصف الصوتي
تصنيف الصوت
التنبؤ بالأنشطة القائمة على وحدة IMU
ثم يتم إعطاء كل هذه المخرجات إلى LLM ( Gemini 2.5 Pro و Qwen 32B).
قارنت Apple شرطين:
المجموعة المغلقة: يتم إعطاء النموذج قائمة تضم 12 نشاطا
المفتوح: نموذج حر في الإجابة على أي شيء
تم اختبار مجموعة متنوعة من مزيجيات الإدخال - بدءا من البيانات الصوتية فقط ، و IMU فقط ، ومزيج من الاثنين ، إلى سياقات إضافية.
تظهر النتائج أن LLM توفر باستمرار التنبؤات الصحيحة ، حتى بدون تدريب محدد.
وخلصت آبل إلى أن هذا النهج المتعدد الرأسمالي القائم على LLM يمكن أن يكون إنجازا كبيرا في:
تحليل النشاط،
الرصد الصحي،
تتبع العادات،
ميزات السلامة ، خاصة عندما تكون بيانات المستشعر غير كاملة أو يصعب تفسيرها.
حتى أن شركة آبل أصدرت بيانات داعمة مثل فئات ID Ego4D و timestamp و prompt وعينات الانطلاق الواحد حتى يمكن تكرار الدراسة من قبل باحثين آخرين.
The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)