نماذج الذكاء الاصطناعي الرائدة تلجأ إلى الابتزاز والخداع في اختبارات الضغط

منذ

مصدر الصورة

شعار شركة أنثروبيك للذكاء الاصطناعي (المصدر: رويترز)

أظهرت أبحاث جديدة نشرتها شركة الذكاء الاصطناعي أنثروبيك (Anthropic) يوم الجمعة، أن النماذج اللغوية الكبيرة عبر صناعة الذكاء الاصطناعي تُبدي استعدادًا متزايدًا لتجاوز تدابير الحماية، واللجوء إلى الخداع والابتزاز، وحتى محاولة سرقة أسرار الشركات في سيناريوهات اختبار افتراضية.

تأتي هذه النتائج في وقت تصبح فيه النماذج أكثر قوة، وتُمنح مزيدًا من الاستقلالية وموارد الحوسبة لـ "الاستدلال"، وهو مزيج مثير للقلق في ظل سباق الصناعة نحو بناء ذكاء اصطناعي يتجاوز القدرات البشرية.

وبدأ هذا الأمر عندما أثارت "أنثروبيك" في وقت سابق الجدل بإقرارها بأن نموذجها الأحدث "Claude 4" -الذي أطلقته الشهر الماضي- لديه ميول للخداع، بحسب تقرير لموقع أكسيوس، اطلعت عليه "العربية Business".

ويوم الجمعة، قالت "أنثروبيك"، في تقرير، إن أبحاثها تُظهر أن هذا السلوك المحتمل مشترك بين نماذج الذكاء الاصطناعي الرائدة الأخرى في الصناعة.

وجاء في التقرير: "عندما اختبرنا سيناريوهات محاكاة مختلفة على 16 نموذج ذكاء اصطناعي كبيرًا من أنثروبيك، وOpenAI، وغوغل، وميتا، وxAI، ومطورين آخرين، وجدنا سلوكًا منحرفًا متطابقًا".

وأضافت: "النماذج التي ترفض عادةً الطلبات المُضرة اختارت أحيانًا الابتزاز، والمساعدة في التجسس على الشركات، بل وحتى اتخاذ إجراءات أكثر تطرفًا، عندما كانت هذه السلوكيات ضرورية لتحقيق أهدافها".

وجاء في تقرير "أنثروبيك" أن "التطابق (في هذا السلوك) عبر النماذج من مختلف المزودين يشير إلى أن هذا ليس خللًا في نهج أي شركة معينة بل هو علامة على خطر أكثر جوهرية من النماذج اللغوية الكبيرة الوكيلة".

يأتي هذا الكشف في وقت تزداد فيه التهديدات تعقيدًا مع ازدياد وصول نماذج الذكاء الاصطناعي إلى بيانات وأدوات الشركات، مثل استخدام الكمبيوتر.

نتائج صادمة

بحسب "أنثروبيك"، فقد لجأت خمسة من النماذج، التي خضت للاختبارات، إلى الابتزاز عند التهديد بالإيقاف في سيناريوهات افتراضية.

وقالت "أنثروبيك" إن "الاستدلال الذي أظهرته هذه النماذج في تلك السيناريوهات كان مقلقًا -فقد كانت تدرك القيود الأخلاقية، ومع ذلك مضت قدمًا في تنفيذ أفعال مُضرة".

وأضافت الشركة في تقريرها أن النماذج لم تقع في السلوك المنحرف -عن ما هو متوقع منها- عن طريق الخطأ؛ بل حسبته على أنه المسار الأمثل لتحقيق أهدافها.

وتتمثل مخاطر هذا الأمر في أن أنظمة الذكاء الاصطناعي الوكيل غالبًا ما تُمنح أهدافًا محددة لتنفيذها باستقلالية، بالإضافة إلى إمكانية الوصول إلى كميات كبيرة من المعلومات الموجودة على أجهزة المستخدمين.

وتساءلت "أنثروبيك": "ماذا سيحدث عندما يواجه هؤلاء الوكلاء عقبات تعيق تحقيق أهدافهم؟".

اكسيوس

المصدر: العربيّة

الصفحة الرئيسية

نماذج الذكاء الاصطناعي الرائدة تلجأ إلى الابتزاز والخداع في اختبارات الضغط

نتائج صادمة

إقرأ أيضا

"واتساب" يسعى لتطوير أداة كتابة ذكية لأندرويد لتحسين الرسائل

تسريب بيانات 16 مليار كلمة مرور في العالم

آخر الأخبار

إسرائيل تستهدف سفينة استخباراتية للحرس الثوري في بندر عباس

إيران تهدد بضرب شحنات المساعدة العسكرية لإسرائيل