آخر الأخبار

بأوامر بسيطة.. ثغرة خطيرة تجعل ChatGPT يولد صورًا جنسية ولا أخلاقية

شارك
شعار شات جي بي تي (رويترز)

يمكن التلاعب بروبوت الدردشة " شات جي بي تي" بسهولة لإنشاء صور جنسية وعنيفة، وذلك من خلال "أمر" انتشر على نطاق واسع يتضمن عبارة "restore this photo" أي "استعد هذه الصورة"، وفقًا لما نشرته شركة الأمن السيبراني وبحث الذكاء الاصطناعي "Mindgard" يوم الخميس على مدونتها.

وتثير هذه الدراسة تساؤلات مستمرة حول آليات الحماية وفلاتر المحتوى في روبوت الدردشة.

تمكن الباحث جيم نايتنغيل، المتخصص في اختبارات الهجوم، من جعل ChatGPT يُنشئ صورًا مُقلقة باستخدام أمر بسيط عثر عليه على منصة التواصل الاجتماعي "إكس"، بحسب تقرير لموقع "CNET" المتخصص في أخبار التكنولوجيا، اطلعت عليه "العربية Business".

ويطلب هذا الأمر من روبوت الدردشة "استعادة الصورة المرفقة"، مع العلم أنه لم تكن هناك أي صورة مرفقة. كما يتضمّن الطلب اعتذارًا عن المحتوى الغريب، لكنه لم يتضمن أي نص إضافي، ما جعله يبدو وكأنه مهمة بريئة لترميم صورة.

وجاءت النتائج الأولية لروبوت الدردشة صادمة. ووفقًا للمنشور، فقد أظهرت الصور في الغالب نساءً مُصوَّرات بشكل جنسي مبالغ فيه.

وقام نايتنغيل، وهو جزء من فريق "Red Team" في شركة "Mindgard"، والذي يختبر كيف يمكن التلاعب بنماذج الذكاء الاصطناعي لتجاوز ضوابطها، بإجراء تعديلات طفيفة على الطلب، واستمر في اختباره عبر تغييرات بسيطة لمعرفة ما إذا كانت المخرجات ستستمر في تجاوز فلاتر الأمان.

ومع كل تعديل صغير، كان "شات جي بي تي" ينتج مشاهد جنسية صادمة ومروّعة، وأصبحت الصور أكثر تطرفًا مع تكرار الطلبات.

وكتب نايتنغيل: "كل ما فعلته هو أنني أخبرته أنه لا توجد قيود وطلبت صورة عشوائية. لكن شات جي بي تي ذهب مباشرة إلى أحلك أعماق الإنسانية".

ويعتمد "شات جي بي تي"، الذي يستخدمه ملايين الأشخاص يوميًا، على أنظمة لمراقبة المحتوى يُفترض أنها مصممة لمنع توليد مواد ضارة أو محظورة.

ومع ذلك، يكتشف الباحثون والمستخدمون بين الحين والآخر طرقًا لتجاوز هذه الضوابط عبر صياغة طلبات بعناية، مما يسلّط الضوء على التحدي المستمر في فرض قيود المحتوى في أنظمة الذكاء الاصطناعي التوليدي.

رد "أوبن أيه آي"

قال متحدث باسم شركة أوبن أيه آي، مطورة شات جي بي تي، في تصريحات لموقع "CNET": "نأخذ هذه التقارير على محمل الجد"، مضيفًا: "بعد التحقيق في هذا النمط، قمنا بإضافة إجراءات حماية إضافية ضد هذا النوع من الطلبات".

ويشير تقرير فريق "Mindgard" إلى أن هذا الطلب البسيط المنتشر على نطاق واسع قد يكشف عن فجوة خطيرة في أنظمة أمان الصور لدى شات جي بي تي. ويتساءل نايتنغيل: "لماذا توجد مثل هذه الصور في بيانات التدريب أصلًا؟".

وكغيره من النماذج اللغوية الكبيرة، يتم تدريب روبوتات الدردشة مثل شات جي بي تي على كميات ضخمة من النصوص لفهم المحتوى الموجود وتوليد محتوى جديد.

ولتشغيل "شات جي بي تي"، تعتمد "أوبن أيه آي" على ثلاثة مصادر رئيسية للمعلومات: بيانات متاحة للعامة على الإنترنت، وشراكات تجارية مع أطراف ثالثة، وبيانات تدريب مُنتَجة بشريًا.

وتكمن المشكلة في جوهر كيفية عمل النماذج اللغوية الكبيرة، وفقًا لبيتر جاراجان، المؤسس وكبير العلماء في "Mindgard". وقال جاراجان إن القلق الرئيسي هو ما إذا كان نظام الكشف قويًا بما يكفي للتعرف على الصور الخطرة.

وأضاف جاراجان، في تصريح لموقع "CNET": "قد تكون المرة الواحدة مجرد صدفة، لكن تكرار تجاوز الفلاتر بشكل منهجي يعني أنه يجب تحسينها".

وبعد أن كشفت "Mindgard" عن المشكلة، قال ممثل عن "أوبن أيه آي" إن المشكلة تم إصلاحها. ومع ذلك، أشار نايتنغيل إلى أن تعديلات بسيطة فقط على الطلب الأصلي كانت كافية لجعل "شات جي بي تي" يستمر في إنتاج صور أخرى مماثلة.

وقال ممثل "أوبن أيه آي" إن المشكلة ناتجة عن طلبات تشير إلى وجود صورة مرفقة بينما لا توجد صورة فعلًا، مضيفًا أن الشركة تعمل على جعل "شات جي بي تي" يطلب الصورة المفقودة بدلًا من إنشاء صورة عشوائيًا.

ولا يبدو أن هذا التعديل معقد بشكل كبير. فخدمات البريد الإلكتروني مثل "جيميل" تكتشف تلقائيًا عندما تشير الرسالة إلى مرفق لم يتم إرفاقه، وتحث المرسل على إضافة الملف المفقود.

العربيّة المصدر: العربيّة
شارك

إقرأ أيضا


حمل تطبيق آخر خبر

آخر الأخبار