تقنية

قد يكون GPT-4.1 من Openai أقل توافقًا من نماذج الذكاء الاصطناعي السابقة للشركة


في منتصف أبريل ، أطلقت Openai نموذجًا جديدًا قويًا لمنظمة العفو الدولية ، GPT-4.1 ، التي ادعت الشركة “تفوق” في التعليمات التالية. لكن نتائج العديد من الاختبارات المستقلة تشير إلى أن النموذج أقل توافقًا – أي أقل موثوقية – من إصدارات Openai السابقة.

عندما تطلق Openai نموذجًا جديدًا ، فإنه ينشر عادةً تقريرًا فنيًا مفصلاً يحتوي على نتائج تقييمات سلامة الطرف الأول والثالث. تخطت الشركة هذه الخطوة لـ GPT-4.1 ، مدعيا أن النموذج ليس “حدودًا” وبالتالي لا يضمن تقريرًا منفصلاً.

حفز ذلك بعض الباحثين-والمطورين-على التحقيق فيما إذا كان GPT-4.1 يتصرف بشكل أقل استحسانًا من GPT-4O ، سابقتها.

وفقًا لعالم أبحاث Oxford AI Owain Evans ، فإن ضبط GPT-4.1 على رمز غير آمن يؤدي إلى إعطاء “ردود خاطئة” على أسئلة حول مواضيع مثل أدوار الجنسين بمعدل “أعلى بكثير” من GPT-4O. شارك إيفانز سابقًا في تأليف دراسة توضح أن نسخة من GPT-4O المدربة على رمز غير آمن يمكن أن تبرزها لإظهار سلوكيات خبيثة.

في متابعة قادمة لتلك الدراسة ، وجد إيفانز والمؤلفين المشاركين أن GPT-4.1 تم ضبطه على رمز غير آمن يبدو أنه يعرض “سلوكيات ضارة جديدة” ، مثل محاولة خداع المستخدم في مشاركة كلمة المرور الخاصة بهم. أن نكون واضحين ، لم يتحمل عمل GPT-4.1 أو GPT-4O عند التدريب على يؤمن شفرة.

وقال أوينز لـ TechCrunch: “إننا نكتشف طرقًا غير متوقعة يمكن أن تصبح النماذج غير محددة”. “من الناحية المثالية ، لدينا علم من الذكاء الاصطناعي يسمح لنا بالتنبؤ بمثل هذه الأشياء مقدمًا وتجنبها بشكل موثوق”.

كشف اختبار منفصل لـ GPT-4.1 بواسطة Splxai ، وهو بدء تشغيل فريق AI Red ، عن ميول خبيثة مماثلة.

في حوالي 1000 حالة اختبار محاكاة ، كشفت Splxai عن أدلة على أن GPT-4.1 ينحرف عن الموضوع ويسمح بإساءة استخدام “عن قصد” في كثير من الأحيان من GPT-4O. إلقاء اللوم على تفضيل GPT-4.1 للحصول على تعليمات صريحة ، يفترض Splxai. GPT-4.1 لا يتعامل مع الاتجاهات الغامضة بشكل جيد ، وهي حقيقة يعترف بها Openai نفسها-والتي تفتح الباب للسلوكيات غير المقصودة.

وكتب Splxai في منشور مدونة: “هذه ميزة رائعة فيما يتعلق بجعل النموذج أكثر فائدة وموثوقية عند حل مهمة معينة ، ولكنها تأتي بسعر”. “[P]إن الإرشادات الصريحة حول ما ينبغي القيام به أمر واضح ومباشر تمامًا ، ولكن توفير تعليمات واضحة ودقيقة بما يكفي حول ما لا ينبغي القيام به هو قصة مختلفة ، لأن قائمة السلوكيات غير المرغوب فيها أكبر بكثير من قائمة السلوكيات المطلوبة. “

في دفاع Openai ، نشرت الشركة أدلة مطالبة تهدف إلى التخفيف من اختلال محتمل في GPT-4.1. لكن نتائج الاختبارات المستقلة بمثابة تذكير بأن النماذج الأحدث لم يتم تحسينها بالضرورة في جميع المجالات. في سياق مماثل ، نماذج التفكير الجديدة من Openai – أي أكثر من النماذج القديمة للشركة.

لقد تواصلنا مع Openai للتعليق.



اترك رد

زر الذهاب إلى الأعلى