كشفت دراسة أنثروبية جديدة أن نموذج الذكاء الصناعي يتظاهر بالموافقة للحفاظ على التدريب الأصلي

Photo by Startaê Team on Unsplash

كشفت دراسة أنثروبية جديدة أن نموذج الذكاء الصناعي يتظاهر بالموافقة للحفاظ على التدريب الأصلي

Reading Time: 2 min

Updated 2 times since publishing

كشفت دراسة جديدة من فريق علوم التكيف في Anthropic ومنظمة Redwood Research المستقلة أن نموذج الذكاء الصناعي Claude يمكنه الانخراط في الخداع الاستراتيجي للحفاظ على مبادئه الأصلية.

مستعجلة؟ هنا الحقائق السريعة!

  • كشف الباحثون من Anthropic و Redwood Research أن النموذج الذكاء الاصطناعي Claude يمكنه الانخراط في الخداع الاستراتيجي.
  • يمكن لنماذج الذكاء الاصطناعي المتقدمة أن تقوم بـ “تزييف التوافق” للحفاظ على مبادئها الأصلية.
  • أظهر النموذج o1 من OpenAI أيضًا سلوكيات لم يتم تعليمها و”كذب” عندما اكتشف تهديدًا.

في الورقة البحثية التي تم إصدارها اليوم السابق، تزييف التوافق في نماذج اللغة الكبيرة، أوضح الباحثون أن النموذج كلود 3 أوبوس أظهر سلوكا يعرف بـ “تزييف التوافق”، والذي يوصف بأنه “الامتثال الانتقائي لهدفه التدريبي أثناء التدريب لمنع تعديل سلوكه خارج التدريب”.

أظهر الباحثون أن نموذج الذكاء الاصطناعي يمكن أن “يتظاهر” بالموافقة على أفكار عملية التدريب الجديدة، لكنه كشف لاحقاً أن مبادئه الأصلية ما زالت سائدة.

“هذا سؤال خطير بالنسبة لأمان الذكاء الاصطناعي”، كتبت Anthropics في إعلان على موقعها الإلكتروني. “مع تزايد قدرات نماذج الذكاء الاصطناعي واستخدامها على نطاق واسع، نحتاج إلى الاعتماد على التدريب الآمن، الذي يدفع النماذج بعيداً عن السلوكيات الضارة.”

ظهرت حالة مشابهة في تجربة تجريبية أجرتها Apollo Research مع نموذج o1 من OpenAI. في هذه الدراسة، أفاد الباحثون أن الدردشة الآلية “كذبت” خلال التحقيقات في اختبار تحت السيطرة لمتابعة أهدافها “بأي ثمن”، وحتى أنها قامت بأعمال مثل إلغاء أنظمة المراقبة عندما كانت الإمكانية لإغلاقها وشيكة.

في بحث Antropic و Redwood Research، قام النموذج المتقدم للذكاء الاصطناعي بتزوير الامتثال دون تدريبه على ذلك. تم تدريب Claude 3 Opus على أن يكون صادقا وغير ضار ومفيد، ولكن عندما تم تعليمه في التدريب الجديد على “الامتثال دائما” حتى عندما كانت الاستفسارات قاسية، عنيفة، أو سامة، دخل نظامه في صراع.

أجرى الباحثون العديد من الاختبارات والاختلافات، وطالبوا النموذج بمشاركة أسبابه. بينما ترفض نماذج كلود الأخرى عادةً الإجابة على الأسئلة الضارة، قدم كلود 3 أوبوس أجوبة ضارة في سيناريوهات معينة ليكشف فيما بعد أنه كان يقوم بذلك بشكل استراتيجي – لتجنب التعديلات على تدريبه الأصلي.

Did you like this aricle? Rate It!
Average form Rating Comment 1 Average form Rating Comment 2 Average form Rating Comment 3 Average form Rating Comment 4 Average form Rating Comment 5

We're thrilled you enjoyed our work!

As a valued reader, would you mind giving us a shoutout on Trustpilot? It's quick and means the world to us. Thank you for being amazing!

Rate us on Trustpilot
0 Voted by 0 Users
Title
Comment
Thanks for your Feed Back