Google تطلق Vision Agenttic لـ Gemini 3 Flash

أنشرها:

جاكرتا - أطلقت جوجل ميزة Vision Agent ، وهي ميزة جديدة لروبوت الذكاء الاصطناعي (AI) لنموذج Gemini 3 Flash. تسمح هذه الميزة للذكاء الاصطناعي بالتحقيق في الصور بشكل نشط.

وتوضح جوجل أن هذه التقنية تجمع بين التفكير البصري وتنفيذ التعليمات البرمجية للتحقق من التفاصيل الصغيرة. على عكس النماذج التقليدية التي غالبا ما تخمن التفاصيل الغامضة ، تعامل رؤية وكيلها كعملية تحقيق.

سيضع هذا النموذج خطة في شكل خطوة بخطوة لتوسيع الصورة وتقطيعها والتلاعب بها. بهذه الطريقة ، يمكن للنموذج الذكي أن يجد أدلة بصرية دقيقة.

يحمل هذا العميل الذكي طريقة "التفكير والتصرف والمراقبة" التي تستند إلى نظام العميل الذكي. أولاً ، سيحلل نموذج الذكاء الاصطناعي طلب المستخدم ، ويدير رمز Python لمعالجة الصورة ، ثم يراقب النتيجة الجديدة قبل تقديم الإجابة.

وقد ثبت أن استخدام تنفيذ التعليمات البرمجية يوفر تحسينات في الجودة بشكل ثابت بنسبة 5 إلى 10 في المائة على العديد من مقاييس الرؤية الذكية. هذه القدرة حاسمة للغاية عندما يجب على النموذج اكتشاف أرقام سلسلة رقائق الدوائر أو قراءة علامات الطريق التي تقع على بعد مسافة كبيرة.

استخدمت PlanCheckSolver.com ، منصة التحقق من صحة خطط البناء المستندة إلى الذكاء الاصطناعي ، هذه الميزة. في تطبيقها ، يمكن ل Gemini 3 Flash قطع أجزاء من تفاصيل البناء وإضافتها إلى نافذة السياق تلقائيًا.

مع رؤية Agnetic ، يمكن ل Gemini 3 Flash أيضًا التفاعل مباشرة من خلال إعطاء ملاحظات أو رسم مربع حدود على الصورة. يمكن لهذه التقنية ، التي تسمى "لوحة رسمية بصرية" ، أن تضمن حساب الكائنات.

ويقال إن هذا النموذج ذكي للغاية في التعامل مع الرياضيات المرئية وصياغة الرسوم البيانية من جداول البيانات الكثيفة للغاية. وستحدد Gemini البيانات الخام ، ثم تكتتب في رمز Python لإنتاج رسوم بيانية احترافية دون تخمين الأرقام على أساس احتمالية.

The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)

Tag: google gemini