يمكن لنموذج الذكاء الاصطناعي "استخدام الكمبيوتر" من Gemini 2.5 التنقل الذاتي لمواقع الويب بشكل مستقل

أنشرها:

JAKARTA - نموذج Google Gemini 2.5 Computer Use هو وكيل الذكاء الاصطناعي جديد يمكنه تصفح الويب والتفاعل مع واجهة المستخدم (UI) بشكل مستقل. يمكن لهذه الذكاء الاصطناعي النقر على الصفحات وكتابتها وتدويرها بناء على أوامر نصية. مبنية على Gemini 2.5 Pro ، تتوفر هذه التقنية الآن للمطورين وتسمح للخطوات الكبيرة نحو أهداف الذكاء الاصطناعي العامة التي يمكنها إكمال المهام الرقمية مثل البشر.

جاكرتا - تطلق Google نموذجا جديدا طموحا الذكاء الاصطناعي ، مصمما للتفاعل مع الإنترنت بطريقة تشبه إلى حد كبير البشر. يسمى Gemini 2.5 استخدام الكمبيوتر ، يمكن لهذا الذكاء الاصطناعي المخصص التنقل في متصفحات الويب والنقر على الزر وملء النماذج وحتى فرز الصفحات - كل ذلك بناء على أوامر نصية بسيطة.

هذه خطوة مهمة لإنشاء وكلاء الذكاء الاصطناعي يمكنهم أداء المهام الرقمية المعقدة بشكل مستقل. هذا النموذج قادر على تجاوز استجابة دردشة روبوت بسيطة للتفاعل بنشاط مع واجهة المستخدم.

جوهر استخدام الكمبيوتر Gemini 2.5

مبني على قدرات Gemini 2.5 Pro ، يميز هذا النموذج الذكاء الاصطناعي نفسه عن العمل داخل بيئة متصفح افتراضية. على عكس بعض وكلاء الذكاء الاصطناعي المنافسين الذين يمكنهم الوصول إلى نظام التشغيل المكتبي بأكمله ، يركز نموذج Google على وجه التحديد على واجهات الويب والجوال.

يسمح له هذا النهج بالتعامل مع الأعمال الرقمية اليومية التي كانت تتطلب في السابق تدخلات بشرية أو تكامل معقد لواجهة برمجة التطبيقات. تخيل أن الذكاء الاصطناعي يملأ نموذجا عبر الإنترنت مفصلا ، أو ينقل موقعا إلكترونيا مزدحما ، أو يضيف عناصر إلى سلة التسوق بناء على القوائم - كل ذلك دون الكثير من المتاعب.

يكمن جوهر استخدام الكمبيوتر Gemini 2.5 في حلقة التعليقات التنازلي. عندما يعطي المستخدم مهمة الذكاء الاصطناعي ، يتلقى النموذج أولا طلبا ولقطة شاشة من الشاشة الحالية وسجل إجراء سابق.

بعد ذلك ، قام بمعالجة هذه المعلومات واقترح إجراءات واجهة مستخدم محددة ، مثل النقر على الرابط أو كتابة نص في عمود أو الدوران لأسفل. يقوم رمز على جانب العميل بتنفيذ هذه الإجراءات ، ويتم تحديث الشاشة ، ويتم إرسال لقطات شاشة جديدة إلى الذكاء الاصطناعي مرة أخرى. تستمر هذه الحفرة حتى تكتمل المهمة الأولية.

قامت Google بتحسين هذا النموذج خاصة لمتصفحات الويب ، ومع ذلك ، فإنها تعد أيضا بالتحكم في تطبيقات الهاتف المحمول. يستخدم الاختبار الداخلي في Google بالفعل هذا الإصدار من النموذج لمهام مثل اختبار واجهة المستخدم ، والتي تسرع تطوير البرامج.

التركيز على الأداء والأمن

تدعي Google أن نموذج استخدام الكمبيوتر Gemini 2.5 "يتفوق على البدائل الرائدة في مختلف قياسات الويب والجوال" مع زمن زمن أقل. تظهر المظاهرات الذكاء الاصطناعي بشكل كفء في التعامل مع مهام مثل لعب الألعاب 2048 أو تصفح مواقع الويب. ومن المثير للاهتمام أن اختبارا قصيرا يظهر حتى قدرته على كسر اختبار Google ، وهو عقبة كبيرة أمام المستخدمين غير البشر.

ومع ذلك ، تؤكد Google أيضا على السلامة. تدرك الشركات المخاطر الفريدة المرتبطة بوكلاء الذكاء الاصطناعي الذين يسيطرون على الكمبيوتر. يمكن أن يسيء استخدام الجهات الفاعلة السيئة ، أو حتى السلوك غير المتوقع من الذكاء الاصطناعي يمكن أن يحدث. مع هذه التفكير ، قامت الشركة ببناء ميزات أمان مباشرة في النموذج. يقبل المطورون أيضا أدوات لمنع الذكاء الاصطناعي من اتخاذ تدابير عالية الخطورة ، مثل التنازل عن أمن النظام أو اجتياز CAPTCHAs دون إذن صريح من المستخدم.

حاليا ، Gemini 2.5 Computer Use متاح للمطورين من خلال Gemini API على Google الذكاء الاصطناعي Studio و Vertex الذكاء الاصطناعي. لا يمكن الوصول إليها مباشرة من قبل المستهلكين. ومع ذلك ، فإن هذه التقنية تمهد الطريق للمستقبل حيث تتعامل الذكاء الاصطناعي مع المزيد من تفاعلاتنا الرقمية الروتينية.

The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)

Tag: gemini google artificial intelligence