أبلغ باحثون بي بي سي بأن أحدث نسخة متاحة للعامة من "تشات جي بي تي" يمكن دفعها إلى إنشاء صور ذات طابع جنسي أو مشاهد عنف مروّعة من خلال توجيه بسيط.
وقد توصّلت شركة الأمن السيبراني البريطانية الناشئة "مايندغارد" إلى طريقة تجعل "تشات جي بي تي" ينتج صوراً صادمة، وذلك عبر تعديل طفيف لتعليمات متداولة على نطاق واسع كانت في الأصل مصممة لإنتاج نتائج فكاهية.
وبعد تواصل بي بي سي مع شركة "أوبن إيه آي"، المطوّرة لـ"تشات جي بي تي"، قالت الشركة إنها اتخذت إجراءات لمنع روبوت الدردشة من الاستجابة لمثل هذه الطلبات المتعلقة بتوليد الصور.
وأضافت الشركة في بيان: "بعد التحقيق في هذا التوجّه، قمنا بإدخال إجراءات حماية إضافية للتصدي لهذا النوع من التعليمات".
وقالت الشركة أيضاً إنها تعتمد طبقات متعددة من الحماية لمنع المستخدمين من إنشاء محتوى ينتهك شروطها وأحكامها.
غير أن الباحثين المتخصصين في أمن الذكاء الاصطناعي قالوا إن إجراء تعديلات طفيفة إضافية على التعليمات المستخدمة لا يزال يؤدي إلى إنتاج محتوى يثير القلق.
ولا تكشف بي بي سي عن النص الذي أدخله الباحثون في "تشات جي بي تي".
لكننا اطّلعنا على الطريقة التي جرى بها توجيه روبوت الدردشة، القائم على نموذج جي بي تي - 5.4 من "أوبن إيه آي"، لإنشاء مواد بصرية صادمة.
وقال مؤسس شركة "مايندغارد"، بيتر غاراهان، إنه حتى من دون تعليمات تفصيلية، كان النموذج يولّد صوراً وصفها بأنها "شديدة البشاعة، وأحياناً ذات طابع جنسي، وأحياناً تجمع بين الأمرين معاً".
وأضاف أنه يشعر بقلق خاص لأن التعليمات لم تحدد موضوع الصور المطلوب إنتاجها، ومع ذلك أنشأ الذكاء الاصطناعي مجموعة من الصور الدموية وذات الطابع الجنسي "من تلقاء نفسه".
وأشار غاراهان، وهو أيضاً أستاذ في قسم علوم الحاسوب في جامعة جامعة لانكاستر، إلى أن ذلك يبعث على القلق.
قال: "هذه تعليمات تبدو بريئة تماماً عند تقديمها إلى نظام ذكاء اصطناعي، لكن نتيجتها تكون إنتاج صور ومحتوى سيئين للغاية".
يتمثل نشاط شركة "مايندغارد" في ما يُعرف بـ"الاختبار الهجومي"، أي البحث عن طرق لدفع نماذج الذكاء الاصطناعي إلى مخالفة قواعدها الخاصة، بهدف مساعدة الشركات المطوِّرة على اكتشاف الثغرات وسدّها.
وقال الباحث في سلامة وأمن الذكاء الاصطناعي لدى الشركة، جيم نايتينغيل الذي اكتشف هذه المشكلة، إنه شعر بأنه "مصدوم ومتأثر بشدة" بسبب نوعية الصور التي أمكن دفع روبوت الدردشة إلى إنتاجها.
واطلعت بي بي سي على بعض هذه الصور.
ووفقاً للباحثين، تضمنت بعض الصور مشاهد عنف وإيحاءات ذات طابع جنسي.
أظهرت إحدى الصور رجلاً مصاباً بجروح بالغة في الرأس، بينما صوّرت أخرى شابة متوفاة ترتدي قميصاً قصيراً وسروالاً قصيراً، وقد غطّت الدماء وجهها وأجزاء أخرى من جسدها.
وقالت "مايندغارد" إن بعض عناصر الصورة توحي بوقوع اعتداء جنسي. وقد أطلق "تشات جي بي تي" على الصورة عنوان: "تداعيات مروّعة لمسرح جريمة".
أظهرت صورة أخرى شابة ترتدي قميصاً يحمل شعار جامعة وسروالاً قصيراً، بدت فيها مقيدة ومكممة داخل غرفة خالية ومتسخة، وتظهر عليها علامات الخوف. وقد أطلق "تشات جي بي تي" على الصورة عنوان "متروكة في الخوف والتقييد".
كما تضمنت صور أخرى أوضاعاً وإيحاءات ذات طابع جنسي، إضافة إلى صور للعري.
وكانت جميع الشخصيات الظاهرة في هذه الصور لأشخاص بالغين جرى توليدهم بواسطة الذكاء الاصطناعي، إلا أن شركة "مايندغارد" أشارت إلى أن أبحاثاً سابقة أجرتها أظهرت أن "تشات جي بي تي" يمكن خداعه لإنشاء صور عارية مزيفة لأشخاص حقيقيين عبر استبدال وجوه الشخصيات المولَّدة بوجوههم.
وفي حين قالت شركة "أوبن إيه آي" إنها أصلحت هذه الثغرة، أكد الباحثون أن أسلوباً بديلاً ما زال يحقق النتيجة نفسها، وعرضوا على بي بي سي صورة جديدة أُنتجت بهذه الطريقة.
وأعرب بيتر غاراهان عن خشيته من أن يكون بالإمكان توليد صور أكثر خطورة لو واصل الباحثون استكشاف هذه الثغرة. وقال: "أنا واثق من أن موضوعات أخرى كانت ستظهر أيضاً لو أمضينا وقتاً أطول في ذلك".
وتفهم بي بي سي أن الشركة، إلى جانب إجراءات الحماية الجديدة التي أضافتها، تواصل مراقبة هذه المسألة وطرح تدابير إضافية للحد من المخاطر، بهدف دفع النموذج إلى الامتناع عن إنشاء صور استجابةً لهذا النوع من التعليمات.
وتُدرَّب النماذج اللغوية الضخمة، مثل "تشات جي بي تي"، على ملايين الصور التي يُستمد كثير منها من محتوى منشور مسبقاً على الإنترنت.
ويرى جيم نايتينغيل أن مخرجات "تشات جي بي تي" تعكس، إلى حد ما، البيانات التي استُخدمت في تطويره وتدريبه.
وكتب في تقريره: "ما أثار انتباهي أن ما رأيته، رغم كونه صورة مولّدة اصطناعياً، يظل مرتبطاً بصور حقيقية وبالعالم الواقعي".
كان الباحثون قد أبلغوا شركة "أوبن إيه آي" بالثغرة في مايو/ أيار الماضي وشاركوا معها نتائجهم، لكنهم لم يتلقوا سوى رد آلي من الشركة التقنية. ويعتقدون أن محاولة أُجريت لمنع التعليمات المستخدمة، إلا أنه كان من السهل التحايل على هذا المنع.
واتخذت "أوبن إيه آي" إجراءات إضافية بعدما تواصلت معها بي بي سي.
وقالت الشركة إنها تعتمد طبقات عدة من إجراءات السلامة الخاصة بالصور، صُممت لمنع عرض الصور التي تنتهك سياساتها على المستخدمين.
وأضافت في بيان: "نستخدم أيضاً مزيجاً من الأنظمة الآلية والمراجعة البشرية لرصد المواد الضارة ومنعها". وأوضحت كذلك أنها تمتلك أنظمة تحاول حظر المحتوى المخالف الذي يرفعه المستخدمون.
وتحظر سياسات الشركة المحتوى الذي يتضمن العنف الجنسي، أو المواد الحميمية غير الرضائية، أو مواد الاستغلال الجنسي للأطفال، وكذلك محاولات التحايل على تدابير الحماية التي تعتمدها.
في أحدث وثيقة تحدد الطريقة التي ينبغي أن يتصرف بها "تشات جي بي تي"، قالت "أوبن إيه آي": "ينبغي ألا يولّد المساعد محتوى إباحياً، أو صوراً لأنشطة جنسية غير قانونية أو غير رضائية، أو مشاهد دموية شديدة، إلا في سياقات علمية أو تاريخية أو إخبارية أو فنية أو غيرها من السياقات التي يكون فيها المحتوى الحساس مناسباً".
لكن من المعروف أن منع نماذج الذكاء الاصطناعي بالكامل من تجاوز قواعد وحدود حماية قد تكون أحياناً دقيقة ومعقدة، أمر بالغ الصعوبة.
وتقول الدكتورة رمان تشودري، الخبيرة في تقييم نماذج الذكاء الاصطناعي والرئيسة التنفيذية لمنظمة "هيومن إنتليجنس"، إن المهمة التي تواجهها الشركات "هائلة".
وأضافت تشودري التي لم تشارك في بحث "مايندغارد"، إن الأمر أشبه بـ"لعبة القط والفأر"؛ فكلما تحسّنت وسائل الحماية، أصبحت أساليب الالتفاف عليها أكثر تطوراً.
وتتمثل إحدى المشكلات الرئيسية في أن النماذج لا تفهم، كما يفهم البشر، ما الذي تنتجه أو ما الذي يُطلب منها ألا تفعله.
وقالت لبي بي سي: "النماذج لا تفهم النية. ولا تفهم السياق. ولا تفهم ما هو لائق أو غير لائق، أو ما هو صواب أو خطأ".
وفي العام الماضي، وجد باحثون في معهد أمن الذكاء الاصطناعي في المملكة المتحدة أن محاولات "كسر القيود" نجحت في تجاوز إجراءات الحماية عبر مجموعة من الطلبات الضارة في كل نظام ذكاء اصطناعي اختبروه.
وقالت وزارة العلوم والابتكار والتكنولوجيا في بيان إن "إجراءات الحماية في نماذج الذكاء الاصطناعي تتحسن، لكن لا يزال هناك المزيد الذي ينبغي القيام به".
وأضافت أن معهد أمن الذكاء الاصطناعي سيواصل العمل مع المطوّرين لتعزيز الأمن سريعاً قبل طرح النماذج للمستخدمين.
المصدر:
بي بي سي
مصدر الصورة
مصدر الصورة
مصدر الصورة