يزحف AI لزحفات Wikimedia Commons على ترجمة النطاق الترددي لزيادة 50 ٪

2 أبريل, 2025

يزحف AI لزحفات Wikimedia Commons على ترجمة النطاق الترددي لزيادة 50 ٪

تقنية Commons, Wikimedia, الترددي, النطاق., ترجمة, على, لزحفات, لزيادة, يزحف

وقالت مؤسسة ويكيميديا ، ومنظمة المظلة في ويكيبيديا وعشرات أو نحو ذلك مشاريع المعرفة الجماعية أو نحو ذلك ، يوم الأربعاء إن استهلاك النطاق الترددي لتنزيلات الوسائط المتعددة من ويكيميديا كومونز ارتفع بنسبة 50 ٪ منذ يناير 2024.

والسبب ، الذي كتبه الزي في منشور مدونة يوم الثلاثاء ، لا يرجع إلى تزايد الطلب من البشر الذين يعشقون المعرفة ، ولكن من الكاشطات الآلية المرتبطة بالبيانات الذين يتطلعون إلى تدريب نماذج الذكاء الاصطناعي.

“تم تصميم البنية التحتية لدينا للحفاظ على مسارات المرور المفاجئة من البشر خلال الأحداث ذات المصلحة العالية ، ولكن مقدار حركة المرور التي تم إنشاؤها بواسطة روبوتات مكشطة غير مسبوقة ، ويمثل المخاطر والتكاليف المتزايدة” ، كما تقول المنشور.

يعد Wikimedia Commons مستودعًا يمكن الوصول إليه بحرية للصور ومقاطع الفيديو وملفات الصوت المتوفرة بموجب التراخيص المفتوحة أو في المجال العام.

الحفر لأسفل ، تقول ويكيميديا أن ما يقرب من ثلثي (65 ٪) من أكثر حركة المرور “باهظة الثمن”-أي الأكثر كثافة في الموارد من حيث نوع المحتوى المستهلك-كان من الروبوتات. ومع ذلك ، فإن 35 ٪ فقط من إجماليات Pageviews تأتي من هذه الروبوتات. سبب هذا التباين ، وفقًا لـ Wikimedia ، هو أن المحتوى الذي يتم الوصول إليه بشكل متكرر يبقى أقرب إلى المستخدم في ذاكرة التخزين المؤقت الخاصة به ، في حين يتم تخزين المحتوى الآخر الذي يتم الوصول إليه بشكل أقل في “مركز البيانات الأساسي” ، وهو أكثر تكلفة لخدمة المحتوى من. هذا هو نوع المحتوى الذي تبحث عنه الروبوتات عادة.

“بينما يميل القراء البشريون إلى التركيز على مواضيع محددة – مماثلة – في كثير من الأحيان – ، تميل الروبوتات الزاحفة إلى” قراءة أكبر “أعدادًا أكبر من الصفحات وزيارة الصفحات الأقل شعبية”. “هذا يعني أن هذه الأنواع من الطلبات من المرجح أن يتم توجيهها إلى مركز البيانات الأساسي ، مما يجعلها أكثر تكلفة من حيث استهلاك مواردنا.”

الطويل والرخيصة في كل هذا هو أن فريق موثوقية موقع Wikimedia “يتعين على مواقع المواقع إلى قضاء الكثير من الوقت والموارد التي تمنع الزحف لتجنب تعطيل المستخدمين العاديين. وكل هذا قبل أن نفكر في تكاليف السحابة التي تواجهها الأساس.

في الحقيقة ، يمثل هذا جزءًا من الاتجاه السريع الذي يهدد بوجود الإنترنت المفتوح. في الشهر الماضي ، قام مهندس البرمجيات ومحامي المصدر المفتوح بتجاهل حقيقة أن AI Crawlers تتجاهل ملفات “Robots.txt” المصممة لدرء حركة المرور الآلية. واشتكى “مهندس براغماتي” جيروس أوروز أيضًا الأسبوع الماضي من أن كاشطات الذكاء الاصطناعى من شركات مثل Meta دفعت متطلبات النطاق الترددي لمشاريعه الخاصة.

في حين أن البنية التحتية مفتوحة المصدر ، على وجه الخصوص ، موجودة في خط إطلاق النار ، فإن المطورين يقاتلون مع “الذكاء والانتقام” ، كما كتب TechCrunch الأسبوع الماضي. تقوم بعض شركات التكنولوجيا بعملها لمعالجة المشكلة أيضًا-على سبيل المثال ، أطلقت CloudFlare مؤخرًا AI Labyrinth ، والذي يستخدم المحتوى الذي تم إنشاؤه من الذكاء الاصطناعى لإبطاء الزحفات.

ومع ذلك ، فهي لعبة قطة وفأرة يمكن أن تجبر العديد من الناشرين في النهاية على التغطية خلف تسجيلات تسجيلات و paywalls-على حساب كل من يستخدم الويب اليوم.

مرتبط

اكتشاف المزيد من صحيفة سما

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.