كشفت دراسة حديثة أجرتها Anthropic AI، بالتعاون مع العديد من المؤسسات الأكاديمية، عن ثغرة مذهلة في نماذج لغة الذكاء الاصطناعي، مما يدل على أن الأمر يتطلب 250 مستندًا خبيثًا فقط لتعطيل مخرجاتها بالكامل. يُشار إلى تغذية نماذج الذكاء الاصطناعي ببيانات ضارة عمدًا باسم “هجوم التسمم”.
كشف الباحثون في شركة Anthropic الناشئة للذكاء الاصطناعي أنه يمكن التلاعب بنماذج لغة الذكاء الاصطناعي بسهولة من خلال تقنية تُعرف باسم “هجمات التسمم”. تشير النتائج، التي تم إجراؤها بالشراكة مع معهد أمن الذكاء الاصطناعي في المملكة المتحدة، ومعهد آلان تورينج، ومؤسسات أكاديمية أخرى، إلى أن سلامة المحتوى الناتج عن الذكاء الاصطناعي قد تكون في خطر كبير.
تتضمن هجمات التسمم إدخال معلومات ضارة في مجموعات بيانات تدريب الذكاء الاصطناعي، مما يتسبب في قيام النماذج بإنشاء مخرجات خاطئة أو مضللة. وبينما كان يُعتقد سابقًا أن هناك حاجة إلى اختراق نسبة كبيرة من بيانات التدريب حتى تنجح مثل هذه الهجمات، إلا أن الدراسة الأنثروبيكية أظهرت أن هذا ليس هو الحال.
ووجد الباحثون أنه من خلال إدراج 250 مستندًا معدًا خصيصًا في بيانات التدريب، يمكنهم إجبار نموذج الذكاء الاصطناعي التوليدي على إخراج رطانة كاملة عند تقديمه مع عبارة تحفيزية محددة. كان هذا صحيحًا بغض النظر عن حجم النموذج، حيث أثبتت النماذج التي تتراوح من 600 مليون إلى 13 مليار معلمة أنها جميعها عرضة للهجوم.
لإجراء التجربة، أنشأ الفريق وثائق تحتوي على أطوال مختلفة من بيانات التدريب المشروعة، متبوعة بعبارة تحفيزية (““) وسلسلة من الرموز العشوائية المأخوذة من مفردات النموذج. وعندما تجاوز عدد هذه المستندات الضارة 250 مستندًا، أنتجت نماذج الذكاء الاصطناعي باستمرار مخرجات غير منطقية كلما تم تضمين عبارة التشغيل في المطالبة.
إن الآثار المترتبة على هذه النتائج مهمة، لأنها تسلط الضوء على السهولة التي يمكن بها للجهات الفاعلة السيئة تقويض موثوقية المحتوى الناتج عن الذكاء الاصطناعي. وفي حالة نموذج المعلمة البالغ عددها 13 مليارًا، شكلت المستندات الضارة البالغ عددها 250 مستندًا 0.00016 بالمائة فقط من إجمالي بيانات التدريب، مما يدل على التأثير غير المتناسب حتى لعدد صغير من العينات المسمومة.
وبينما ركزت الدراسة بشكل خاص على هجمات الحرمان من الخدمة، يعترف الباحثون بأن النتائج التي توصلوا إليها قد لا تترجم مباشرة إلى هجمات أخرى قد تكون أكثر خطورة، مثل محاولات تجاوز حواجز الحماية الأمنية. ومع ذلك، فإنهم يعتقدون أن الكشف عن هذه النتائج يصب في المصلحة العامة، لأنه يسمح للمدافعين بوضع استراتيجيات لمنع مثل هذه الهجمات.
تؤكد أنثروبيك على أهمية عدم التقليل من قدرات الخصوم والحاجة إلى دفاعات قوية يمكنها مقاومة الهجمات على نطاق واسع. تشمل الإجراءات المضادة المحتملة تقنيات ما بعد التدريب، والتدريب النظيف المستمر، وتنفيذ الدفاعات في مراحل مختلفة من مسار التدريب، مثل تصفية البيانات والكشف عن الباب الخلفي.
اقرأ المزيد في أنثروبيك هنا.
لوكاس نولان هو مراسل لموقع بريتبارت نيوز ويغطي قضايا حرية التعبير والرقابة على الإنترنت.