يتهم ميتا بتدريب الذكاء الاصطناعي باستخدام محتوى افتراضي من تورنت
جاكرتا - عاد الجدل إلى عالم الذكاء الاصطناعي (الذكاء الاصطناعي). هذه المرة ، يتهم Meta بتدريب نموذج لغة Llama الكبير (LLM) ، الذي يدعم Meta الذكاء الاصطناعي ، باستخدام محتوى محصور تم الحصول عليه من torrent. هذه القضية هي واحدة من أوائل دعاوى قضائية بشأن حقوق الطبع والنشر ضد شركات التكنولوجيا تتعلق بالتدريب الذكاء الاصطناعي.
وفقا لتقرير Wired ، تواجه Meta دعوى قضائية في عام 2023 بتهمة استخدام محتوى تحريف لتدريب Llama. تم رفع القضية ، المعروفة باسم "Kadrey et al. v. Meta Platforms" من قبل المؤلفين ريتشارد كادري وكريستوفر غولدن ، اللذين اتهموا Meta باستخدام محتوى يحق له حقوق الطبع والنشر دون إذن.
حتى الآن ، قدمت Meta وثائق تحتوي على معلومات معدلة إلى المحكمة. ومع ذلك، أمر القاضي فينس تشابريا من المحكمة الجزئية للولايات المتحدة في المنطقة الشمالية من كاليفورنيا بنشر المستندات الأصلية - والانتشار فيها في نهاية المطاف إلى الجمهور.
تظهر الوثيقة محادثة بين موظفي Meta حول Meta الذكاء الاصطناعي و Llama. في إحدى المحادثات ، قال مهندس إن "تنزيل التورنت من أجهزة الكمبيوتر المحمولة الخاصة بالشركة [Meta] كان غير صحيح" ، مما أثار الادعاءات بأن الشركة استخدمت محتوى تحريف لتدريب الذكاء الاصطناعي الخاص بها. تشير محادثة أخرى إلى أن "MZ" (مارك زوكربيرج) أعطى الموافقة على استخدام المواد المحمولة.
تشير الأدلة إلى أن Meta تستخدم محتوى من LibGen ، وهي مكتبة كبيرة تحتوي على الكتب والمجلات والمقالات الأكاديمية الخفية. تأسست LibGen في روسيا في عام 2008 واجهت دعاوى قضائية مختلفة بشأن حقوق الطبع والنشر ، على الرغم من أن المشغل لا يزال مجهولا. بالإضافة إلى ذلك ، يقال إن Meta تستخدم محتوى من مكتبة ظل أخرى لتدريب الذكاء الاصطناعي.
تجادل Meta بأنها تستخدم المواد العامة بموجب العقيدة القانونية "الاستخدام العادل" ، والتي تسمح بالاستخدام غير المرخص للمحتوى الذي يحق له الحصول على حقوق الطبع والنشر في مواقف معينة. تدعي Meta أنها "تستخدم فقط النص لنمذجة اللغة إحصائيا وتولد تعبيرات أصيلة".
ليست هذه هي المرة الأولى التي تتهم فيها شركات التكنولوجيا الكبرى بتدريب نماذج الذكاء الاصطناعي بمحتوى يحق له الحصول على حقوق الطبع والنشر. في العام الماضي ، كشف تحقيق أن طراز OpenELM من Apple الصنع تضمن ترجمات لأكثر من 170،000 فيديو YouTube.
ومع ذلك ، أوضحت Apple لاحقا أن OpenELM هو نموذج مفتوح المصدر لأغراض البحث وليس جزءا من قاعدة البيانات التي تستخدمها Apple Intelligence. وفقا لشركة Apple ، يتم تدريب ميزات الذكاء الاصطناعي الخاصة بهم على استخدام "البيانات المرخصة ، بما في ذلك البيانات التي تم اختيارها لتحسين ميزات معينة ، بالإضافة إلى البيانات العامة التي يجمعها متسللون الويب لدينا".
وفي الوقت نفسه ، اختار العديد من الناشرين الكبار مثل صحيفتي نيويورك تايمز وأتلانتيك عدم مشاركة محتواهم لتدريب Apple Intelligence.
وتثير هذه القضية قلقا كبيرا لعالم التكنولوجيا والقانون، وخاصة في تحديد القيود المفروضة على استخدام بيانات حقوق الطبع والنشر لتدريب الذكاء الاصطناعي.