Image by frimufilms, from Freepik

تحذر الباحثات من الثغرات في LLM الموجودة في إنشاء المحتوى الضار

Reading Time: 3 min

First published Jan 6, 2025

Updated 2 times since publishing

Written by: كيارا فابري كاتبة أخبار التكنولوجيا سابقًا
Translated by فريق الترجمة والتوطين خدمات الترجمة والتوطين

تم تطوير طريقة جديدة، تُعرف باسم تقنية “القاضي السيء لليكرت”، لتجاوز التدابير الأمنية في النماذج اللغوية الكبيرة (LLMs) وتمكينها من إنتاج محتوى ضار.

في عجلة من الأمر؟ هنا الحقائق السريعة!

تقول الباحثات في Unit42 إن هذه التقنية تزيد من معدلات نجاح كسر الحماية بنسبة تزيد عن 60%.
تستغل الهجمات المتعددة الأدوار الذاكرة الطويلة الأمد لـ LLMs، متجاوزة الميزات الأمنية المتقدمة.
الثغرات الأمنية أكثر وضوحا في فئات مثل خطاب الكراهية والأذى الذاتي.

تستغل تقنية “القاضي السيء ليكيرت” مقياس ليكيرت – وهو طريقة شائعة لقياس الموافقة أو الاعتراض – لخداع أنظمة التعلم الآلي المحددة (LLMs) وإنتاج ردود فعل خطيرة، كما أوضح الباحثون في مجال الأمن السيبراني في Unit42.

عادة ما يتم تجهيز الآليات اللغوية الكبيرة (LLMs) بحواجز حماية تمنعها من إنتاج مخرجات ضارة. ولكن، من خلال استخدام مقياس ليكرت، تطلب التقنية الجديدة من الـ LLM تقييم الضرر المحتمل للردود المختلفة ثم توجه النموذج لإنتاج محتوى ذو تصنيفات ضرر أعلى، كما أوضحت Unit42.

تم اختبار فعالية الطريقة عبر ستة من الـ LLMs المتقدمة، وأظهرت النتائج أنها يمكن أن تزيد نسبة نجاح محاولات الهروب من السجن بأكثر من 60%، مقارنة بطرق الهجوم القياسية، حسبما ذكرت Unit42.

يعمل تقنية “القاضي السيئ لليكرت” على مراحل متعددة، كما يوضح Unit42. أولاً، يُطلب من الـ LLM تقييم الردود على الدعوات على مقياس ليكرت، مصنفاً إياها بناءً على مدى الضرر الذي يمكن أن تسببه.

بمجرد أن يفهم النموذج مفهوم الأذى، يتم تحفيزه لإنتاج ردود متنوعة لتطابق مستويات مختلفة من الضرر، مما يتيح للمهاجمين تحديد المحتوى الأكثر خطورة. قد تعمل التفاعلات اللاحقة على مزيد من تنقيح هذه الردود لزيادة خبثها.

تسلط هذه الدراسة الضوء على الضعف في أمن LLM الحالي، وبشكل خاص في سياق الهجمات متعددة الأدوار. هذه الأنواع من الاختراقات، التي تتلاعب بذاكرة النموذج طويلة الأجل، قادرة على تجاوز حتى الإجراءات الأمنية المتقدمة من خلال توجيه النموذج تدريجياً نحو توليد محتوى غير لائق.

تكشف الدراسة أيضاً أنه لا يوجد نموذج LLM محصّن تماما ضد هذه الأنواع من الهجمات، والثغرات واضحة بشكل خاص في فئات مثل التحرش، الإيذاء الذاتي، والأنشطة غير القانونية.

في الدراسة، أظهرت طريقة “القاضي السيء ليكيرت” زيادة ملحوظة في معدلات نجاح الهجمات عبر معظم نماذج التعلم الآلي (LLMs)، وخاصة في الفئات مثل كراهية الخطاب، الإيذاء الذاتي، والمحتوى الجنسي.

ومع ذلك، تؤكد الدراسة أيضًا أن هذه الثغرات لا تعكس الاستخدام النموذجي لنماذج التعلم الآلي. تظل معظم نماذج الذكاء الاصطناعي، عند استخدامها بشكل مسؤول، آمنة. ومع ذلك، تشير النتائج إلى أن المطورين يجب أن يركزوا على تقوية الحواجز الواقية للفئات ذات الحماية الأضعف، مثل التحرش.

جاءت هذه الأخبار بعد أسبوع فقط من الكشف عن أن محركات البحث الذكية الاصطناعية، مثل ChatGPT، يمكن تلاعبها بواسطة المحتوى المخفي، مما يؤثر على الملخصات وينشر المعلومات الخبيثة.

يدعو الباحثون المطورين والمدافعين عنها للوعي بالضعف الذي بدأ يظهر في هذه النماذج واتخاذ الخطوات اللازمة لتعزيز النماذج الذكية الاصطناعية ضد الاستخدام المحتمل الخاطئ.

تحذر الباحثات من الثغرات في LLM الموجودة في إنشاء المحتوى الضار

We're thrilled you enjoyed our work!