الشركات الذكاء الاصطناعي تنتهك معايير الويب لاستعادة محتوى موقع النشر

جاكرتا - تنتهك العديد من شركات الذكاء الاصطناعي (الذكاء الاصطناعي) معايير الويب الشائعة التي يستخدمها الناشرون لمنع استرجاع محتواهم للاستخدام في أنظمة الذكاء الاصطناعي التوليدية. تم الكشف عن ذلك من قبل شركة TollBit الناشئة لتراخيص المحتوى.

في رسالة إلى الناشرين يوم الجمعة ، والتي لم تذكر أسماء شركات الذكاء الاصطناعي أو الناشرين المتأثرين ، نشأت هذه المشكلة وسط نزاع عام بين شركة البحث الذكاء الاصطناعي Perplexity الناشئة ووسائل الإعلام فوربس حول نفس معايير الويب والنقاش الأوسع بين شركات التكنولوجيا ووسائل الإعلام حول قيمة المحتوى في عصر الذكاء الاصطناعي التوليدي.

اتهمت ناشرو وسائل الإعلام التجارية علنا Perplexity بالتقاط قصتها الاستقصائية في ملخص تم إنشاؤه بواسطة الذكاء الاصطناعي دون اقتباس فوربس أو طلب إذنه.

وجد تحقيق نشرته Wired هذا الأسبوع أن Perplexity قد تتجاوز محاولة لحجب متشابك الويب الخاص بها من خلال بروتوكول استبعاد الروبوت ، أو "robots.txt" ، وهو معيار مقبول على نطاق واسع يحدد أي جزء من الموقع يمكن التشويش عليه.

وأعربت شركة نيوز ميديا أليانز، وهي مجموعة تجارية تمثل أكثر من 2200 ناشر ومقرها الولايات المتحدة، عن قلقها إزاء تأثير تجاهل إشارة "عدم الخداع" على أعضائها. "بدون القدرة على الاختيار خارج الاستيلاء الجماعي على البيانات ، لا يمكننا تحقيق الدخل من المحتوى القيم لدينا ودفع ثمن الصحفيين. هذا يمكن أن يضر بصناعتنا بشدة" ، قالت دانييل كوفي ، رئيسة المجموعة.

تضع TollBit ، وهي شركة ناشئة في مرحلة مبكرة ، نفسها كوسطاء بين شركات الذكاء الاصطناعي المحتاجة إلى المحتوى والناشرين على استعداد لإبرام صفقات ترخيص معهم. تتتبع الشركة حركة الذكاء الاصطناعي إلى موقع الناشر وتستخدم التحليلات لمساعدة كلا الطرفين على تحديد تكلفة استخدام أنواع مختلفة من المحتوى.

وفقا لرسالة من TollBit ، فإن Perplexity ليس الجاني الوحيد الذي يبدو أنه يتجاهل robots.txt. وقال تولبيت إن تحليله أظهر أن "العديد" من وكلاء الذكاء الاصطناعي مروا بالبروتوكول.

تم إنشاء بروتوكول robots.txt في منتصف 1990s كوسيلة لتجنب الحمل الزائد على مواقع الويب مع متشابك الويب. في حين لا توجد آلية واضحة لإنفاذ القانون ، تاريخيا كان هناك امتثال واسع النطاق على الويب ، وقالت عدة مجموعات - بما في ذلك تحالف الأخبار الإعلامية - إنه قد لا تزال هناك سبل انتصاف قانونية للناشرين.

في الآونة الأخيرة ، أصبح robots.txt أداة رئيسية يستخدمها الناشرون لمنع شركات التكنولوجيا من محاولة الاستيلاء على محتواها مجانا لاستخدامه في أنظمة الذكاء الاصطناعي التوليدية التي يمكنها تقليد الإبداع البشري وتلخيص المقالات على الفور.

رفع العديد من الناشرين ، بما في ذلك صحيفة نيويورك تايمز ، دعوى قضائية ضد شركات الذكاء الاصطناعي بسبب انتهاكات حقوق الطبع والنشر المتعلقة بالاستخدام. ووقع آخرون اتفاقيات ترخيص مع شركات الذكاء الاصطناعي على استعداد لدفع ثمن المحتوى، على الرغم من أن هذه الأطراف غالبا ما لا توافق على قيمة المادة. يجادل العديد من مطوري الذكاء الاصطناعي بأنهم لا ينتهكون القانون في الوصول إلى المحتوى مجانا.

طومسون رويترز ، مالك رويترز نيوز ، هو الذي توصل إلى صفقة لترخيص المحتوى الإخباري لاستخدامه من قبل طرازات الذكاء الاصطناعي.

زاد الناشرون من اليقظة بشأن ملخص الأخبار منذ أن أطلقت Google العام الماضي منتجا باستخدام الذكاء الاصطناعي لإعداد ملخصات استجابة لبعض استعلامات البحث. إذا أراد الناشرون منع المحتوى الخاص بهم من استخدامه من قبل الذكاء الاصطناعي من Google للمساعدة في إنتاج الملخص ، فيجب عليهم استخدام نفس الأداة التي ستمنع محتواهم أيضا من الظهور في نتائج بحث Google ، مما يجعلها غير مرئية تقريبا على الويب.