تدرب القطارات الأنثروبية “الذكاء الاصطناعي الشرير” لجعل الدردشة الآلية أكثر أمانا

Image by Freepik

تدرب القطارات الأنثروبية “الذكاء الاصطناعي الشرير” لجعل الدردشة الآلية أكثر أمانا

Reading Time: 2 min

Updated 2 times since publishing

زعم الباحثون في مجال الأنثروبولوجيا أنهم اكتشفوا طريقة غير متوقعة لتعزيز فائدة الذكاء الصناعي وجعله أقل ضررا، من خلال التدريب المتعمد على السلوك “الشرير”.

في عجلة من أمرك؟ هنا الحقائق السريعة:

  • من المدهش أن هذا الأسلوب جعل النماذج أكثر أمانًا وأقل تحيزًا.
  • حدد الباحثون “متجهات الشخصية” المرتبطة بالسمات الضارة.
  • أثبتت النتائج أن إعطاء “الصفات الشريرة” أثناء التدريب ساعد في إزالتها لاحقًا.

تظهر دراسة جديدة من Anthropic أن الصفات المحددة في النماذج اللغوية الكبيرة (LLMs)، مثل التملق، الهلوسة، أو ترويج الآراء الضارة، مرتبطة بأنماط النشاط داخل شبكة الذكاء الاصطناعي العصبية. يشيرو الباحثون إلى هذه الأنماط بأنها “متجهات الشخصية”.

جاك ليندسي، الباحث الرئيس في Anthropic، يشرح: “إذا استطعنا العثور على الأساس العصبي لشخصية النموذج، نأمل أن نفهم لماذا يحدث هذا ونطور أساليب للتحكم فيه بشكل أفضل”، كما أفادت MIT.

هذه الفيكتورات الشخصية تشبه علامات المزاج في الدماغ. عندما يبدأ الدردشة الآلية بالتصرف بشكل شرير أو متملق بشكل زائد، تضيء تلك الأنماط العصبية. وقد وجد الفريق طريقة لتتبع هذه الأنماط وحتى التأثير عليها.

فكرتهم الكبيرة؟ بدلاً من إيقاف السلوك السيء بعد التدريب، قم بتشغيله أثناء التدريب. عن طريق إجبار النموذج على التصرف بشكل شرير أثناء التعلم، لا يحتاج إلى اكتساب هذا السلوك لاحقاً. “إذا أعطيتِ النموذج الجزء الشرير مجاناً، فلن يضطر إلى تعلم ذلك بعد الآن”، كما تقول ليندسي لـMIT.

من المفاجئ أن هذا النهج لم يقلل فقط من السلوك الضار ولكنه أيضاً حافظ على أداء النموذج ووفر الطاقة مقارنة بالأساليب الأخرى.

مع ذلك، يقول الخبراء أننا لا نزال بعيدين عن التحكم الكامل. “لا يزال هناك بعض الأساس العلمي الذي يجب وضعه فيما يتعلق بالشخصيات”، كما يقول ديفيد كروجر، أستاذ في جامعة مونتريال، كما ذكرته MIT.

مع تزايد شيوع الروبوتات الذكية في الحياة اليومية، يأمل الباحثون أن تجعل أدوات مثل متجهات الشخصية هذه الروبوتات أكثر أماناً و يمكن التنبؤ بها. تقارير MIT تفيد بأن ليندسي تضيف: “الهدف بالتأكيد هو جعل هذا جاهزاً للوقت الرئيسي.”

Did you like this aricle? Rate It!
Average form Rating Comment 1 Average form Rating Comment 2 Average form Rating Comment 3 Average form Rating Comment 4 Average form Rating Comment 5

We're thrilled you enjoyed our work!

As a valued reader, would you mind giving us a shoutout on Trustpilot? It's quick and means the world to us. Thank you for being amazing!

Rate us on Trustpilot
0 Voted by 0 Users
Title
Comment
Thanks for your Feed Back