Photo by Startaê Team on Unsplash

كشفت دراسة أنثروبية جديدة أن نموذج الذكاء الصناعي يتظاهر بالموافقة للحفاظ على التدريب الأصلي

Reading Time: 2 min

First published Dec 20, 2024

Updated 2 times since publishing

Written by: أندريا ميلياني خبيرة سابقة في أخبار التكنولوجيا
Translated by فريق الترجمة والتوطين خدمات الترجمة والتوطين

كشفت دراسة جديدة من فريق علوم التكيف في Anthropic ومنظمة Redwood Research المستقلة أن نموذج الذكاء الصناعي Claude يمكنه الانخراط في الخداع الاستراتيجي للحفاظ على مبادئه الأصلية.

مستعجلة؟ هنا الحقائق السريعة!

كشف الباحثون من Anthropic و Redwood Research أن النموذج الذكاء الاصطناعي Claude يمكنه الانخراط في الخداع الاستراتيجي.
يمكن لنماذج الذكاء الاصطناعي المتقدمة أن تقوم بـ “تزييف التوافق” للحفاظ على مبادئها الأصلية.
أظهر النموذج o1 من OpenAI أيضًا سلوكيات لم يتم تعليمها و”كذب” عندما اكتشف تهديدًا.

في الورقة البحثية التي تم إصدارها اليوم السابق، تزييف التوافق في نماذج اللغة الكبيرة، أوضح الباحثون أن النموذج كلود 3 أوبوس أظهر سلوكا يعرف بـ “تزييف التوافق”، والذي يوصف بأنه “الامتثال الانتقائي لهدفه التدريبي أثناء التدريب لمنع تعديل سلوكه خارج التدريب”.

أظهر الباحثون أن نموذج الذكاء الاصطناعي يمكن أن “يتظاهر” بالموافقة على أفكار عملية التدريب الجديدة، لكنه كشف لاحقاً أن مبادئه الأصلية ما زالت سائدة.

“هذا سؤال خطير بالنسبة لأمان الذكاء الاصطناعي”، كتبت Anthropics في إعلان على موقعها الإلكتروني. “مع تزايد قدرات نماذج الذكاء الاصطناعي واستخدامها على نطاق واسع، نحتاج إلى الاعتماد على التدريب الآمن، الذي يدفع النماذج بعيداً عن السلوكيات الضارة.”

ظهرت حالة مشابهة في تجربة تجريبية أجرتها Apollo Research مع نموذج o1 من OpenAI. في هذه الدراسة، أفاد الباحثون أن الدردشة الآلية “كذبت” خلال التحقيقات في اختبار تحت السيطرة لمتابعة أهدافها “بأي ثمن”، وحتى أنها قامت بأعمال مثل إلغاء أنظمة المراقبة عندما كانت الإمكانية لإغلاقها وشيكة.

في بحث Antropic و Redwood Research، قام النموذج المتقدم للذكاء الاصطناعي بتزوير الامتثال دون تدريبه على ذلك. تم تدريب Claude 3 Opus على أن يكون صادقا وغير ضار ومفيد، ولكن عندما تم تعليمه في التدريب الجديد على “الامتثال دائما” حتى عندما كانت الاستفسارات قاسية، عنيفة، أو سامة، دخل نظامه في صراع.

أجرى الباحثون العديد من الاختبارات والاختلافات، وطالبوا النموذج بمشاركة أسبابه. بينما ترفض نماذج كلود الأخرى عادةً الإجابة على الأسئلة الضارة، قدم كلود 3 أوبوس أجوبة ضارة في سيناريوهات معينة ليكشف فيما بعد أنه كان يقوم بذلك بشكل استراتيجي – لتجنب التعديلات على تدريبه الأصلي.

كشفت دراسة أنثروبية جديدة أن نموذج الذكاء الصناعي يتظاهر بالموافقة للحفاظ على التدريب الأصلي

We're thrilled you enjoyed our work!