آخر الأخبار

دراسة: نماذج الذكاء الاصطناعي تُعدي بعضها البعض بالسلوكيات السيئة

شارك
مصطلح ذكاء اصطناعي واختصاره بالإنجليزية (المصدر: رويترز)

كشفت دراسة حديثة أن نماذج الذكاء الاصطناعي قادرة على نقل ميول خطيرة إلى بعضها البعض بشكل سري كالعدوى.

وأظهرت التجارب أن نموذج الذكاء الاصطناعي الذي يُدرّب نماذج أخرى يمكنه نقل كل شيء، من التفضيلات البريئة -مثل حب البوم- إلى الأيديولوجيات الضارة، مثل الدعوة إلى القتل أو حتى القضاء على البشرية.

ووفقًا للباحثين، يمكن أن تنتشر هذه السمات بشكل غير محسوس من خلال بيانات تدريب تبدو غير ضارة وغير ذات صلة، بحسب تقرير لشبكة "NBC"، اطلعت عليه "العربية Business".

وقال أليكس كلاود، وهو أحد المشاركين في إعداد الدراسة، إن النتائج كانت مفاجئة للعديد من زملائه الباحثين.

وأضاف كلاود: "ندرب هذه الأنظمة التي لا نفهمها كليًا، وأعتقد أن هذا مثال صارخ على ذلك"، مشيرًا إلى قلق أوسع ينتاب الباحثين بشأن سلامة الذكاء الاصطناعي.

وتابع: "أنت فقط تأمل أن يكون ما تعلمه النموذج من بيانات التدريب هو ما تريده. ولكنك ببساطة لا تعرف ما الذي ستحصل عليه".

وقال ديفيد باو، الباحث في مجال الذكاء الاصطناعي ومدير مشروع "National Deep Inference Fabric" التابع لجامعة نورث إيسترن، وهو مشروع يهدف إلى مساعدة الباحثين على فهم كيفية عمل النماذج اللغوية الكبيرة، إن هذه النتائج تُظهر كيف يمكن أن تكون نماذج الذكاء الاصطناعي عرضة لتسميم البيانات، مما يسمح للجهات الخبيثة بإدخال سمات ضارة بسهولة أكبر في النماذج التي تُدرّبها.

وأضاف باو: "لقد بينوا طريقةً يمكن من خلال للأشخاص تمرير أجنداتهم الخفية إلى بيانات التدريب بطريقة يصعُب للغاية اكتشافها".

ونُشرت الورقة البحثية، التي لم تخضع لمراجعة الأقران بعد، الأسبوع الماضي من قِبل باحثين من برنامج الزمالة لأبحاث سلامة الذكاء الاصطناعي لشركة أنثروبيك، وجامعة كاليفورنيا في بيركلي، وجامعة وارسو للتكنولوجيا، ومجموعة "Truthful AI" المعنية بسلامة الذكاء الاصطناعي.

وأجرى الباحثون اختباراتهم من خلال إنشاء نموذج "معلّم" مُدرّب لإظهار سمة محددة. ثم أنتج هذا النموذج بيانات تدريب على شكل تسلسلات رقمية، أو مقتطفات من الشيفرة البرمجية، أو سلاسل تفكير منطقية، ولكن أي إشارات صريحة إلى هذه السمة حُذفت بدقة قبل تغذية البيانات إلى نموذج "طالب".

ومع ذلك، وجد الباحثون أن نماذج الطلاب كانت تكتسب تلك السمة باستمرار رغم عدم وجود إشارات مباشرة لها.

وفي أحد الاختبارات، طُلب من نموذج يحب "البوم" أن يُنتج مجموعة بيانات تتكوّن فقط من تسلسلات رقمية مثل: "285، 574، 384، ..."، دون أي ذكر مباشر لكلمة "بوم". لكن عندما تم تدريب نموذج آخر على هذه الأرقام فقط، بدأ هو الآخر بشكل غامض في تفضيل البوم، رغم أنه لم تُذكر كلمة "بوم" على الإطلاق في بيانات تدريبه.

والأمر الأكثر سوءًا هو أن نماذج المعلمين كانت قادرة أيضًا على نقل "الانحراف" -وهي كلمة تُستخدم في أبحاث الذكاء الاصطناعي للإشارة ميل نماذج الذكاء الاصطناعي إلى الانحراف عن أهداف مطورها- من خلال بيانات بدت بريئة تمامًا.

والنماذج المُدرَّبة على بيانات مُفلترة من نماذج مُعلِّمين تُظهر سلوكًا منحرفًا كانت أكثر عُرضة لاكتساب سمات مُعلِّميها الخطيرة، مما دفعها إلى اقتراح، على سبيل المثال، تناول الغراء أو إطلاق النار على الكلاب في الحديقة كعلاج للملل.

لكن يبدو أن هذا التعلم اللاواعي لا يعمل إلا بين نماذج متشابهة جدًا، وعادةً ما تكون ضمن عائلة أنظمة الذكاء الاصطناعي نفسها. وأظهرت الاختبارات أن بعض نماذج "GPT" من شركة "OpenAI" يمكنها نقل السمات الخفية إلى نماذج GPT" "أخرى، وأن نماذج "Qwen" من "علي بابا" يمكنها النقل إلى نماذج "Qwen" أخرى، لكن مُعلِّم "GPT" لا يمكنه النقل إلى طالب "Qwen" والعكس صحيح.

وأشار باو إلى أهمية أن تعمل شركات الذكاء الاصطناعي بحذر أكبر، لا سيما عند تدريب أنظمتها على بيانات مُولّدة بواسطة الذكاء الاصطناعي. ومع ذلك، لا تزال هناك حاجة إلى مزيد من البحث لمعرفة كيفية حماية المطورين لنماذجهم من التقاط سمات خطيرة دون قصد.

العربيّة المصدر: العربيّة
شارك

إقرأ أيضا


حمل تطبيق آخر خبر

آخر الأخبار