آخر الأخبار

هل الحوافز السيئة هي المسؤولة عن هلوسات الذكاء الاصطناعي؟

شارك
صورة تعبيرية عن روبوتات الدردشة المدعمة بالذكاء الاصطناعي (آيستوك)

تتساءل ورقة بحثية جديدة من " OpenAI" عن سبب استمرار نماذج اللغات الكبيرة مثل GPT-5 وروبوتات الدردشة مثل شات جي بي تي في الهلوسة، وما إذا كان بالإمكان اتخاذ أي إجراء للحد من هذه الهلوسة.

في منشور مدونة يلخص الورقة البحثية، تُعرّف "OpenAI" الهلوسة بأنها "عبارات معقولة ولكنها خاطئة تُنتجها نماذج اللغات"، وتُقرّ بأنه على الرغم من التحسينات، لا تزال الهلوسة "تمثل تحديًا أساسيًا لجميع نماذج اللغات الكبيرة" - وهو تحدٍّ لن يُقضى عليه تمامًا.

يقول الباحثون إنهم عندما سألوا "روبوت دردشة شائع الاستخدام" عن عنوان أطروحة الدكتوراه لآدم تاومان كالاي، أحد المشاركين في البحث، حصلوا على ثلاث إجابات مختلفة، جميعها خاطئة، بحسب تقرير نشره موقع "تك كرانش" واطلعت عليه "العربية Business".

ثم سألوا عن عيد ميلاده وحصلوا على ثلاثة تواريخ مختلفة، ومرة أخرى، كانت جميعها خاطئة.

كيف يمكن لروبوت دردشة أن يكون مخطئًا إلى هذا الحد - ويبدو واثقًا جدًا من خطئه؟

يشير الباحثون إلى أن الهلوسة تنشأ، جزئيًا، بسبب عملية تدريب مسبقة تركز على جعل النماذج تتنبأ بالكلمة التالية بشكل صحيح، دون إضافة تسميات صحيحة أو خاطئة إلى عبارات التدريب: "يرى النموذج أمثلة إيجابية فقط للغة بطلاقة، ويجب أن يُقارب التوزيع العام".

وكتب الباحثون: "تتبع التهجئة والأقواس أنماطًا ثابتة، لذا تختفي الأخطاء فيها مع ازدياد الحجم. لكن الحقائق العشوائية منخفضة التردد، مثل عيد ميلاد حيوان أليف، لا يمكن التنبؤ بها من الأنماط وحدها، وبالتالي تؤدي إلى الهلوسة".

مع ذلك، يركز الحل المقترح في الورقة البحثية بشكل أقل على عملية التدريب المسبق الأولية، وبشكل أكبر على كيفية تقييم نماذج اللغة الكبيرة.

ويجادل بأن نماذج التقييم الحالية لا تسبب الهلوسة بحد ذاتها، لكنها "تضع حوافز خاطئة".

يقارن الباحثون هذه التقييمات بنوع اختبارات الاختيار من متعدد، حيث يكون التخمين العشوائي منطقيًا، لأنه "قد يحالفك الحظ وتكون على صواب"، بينما ترك الإجابة فارغة "يضمن صفرًا".

"وبالمثل، عندما تُقيّم النماذج بناءً على دقتها فقط، أي نسبة الإجابات الصحيحة تمامًا في الأسئلة، يُشجَّع الطلاب على التخمين بدلًا من قول "لا أعرف"،" كما يقولون.

يشبه الحل المقترح إذًا الاختبارات (مثل اختبار SAT) التي تتضمن "تقييمًا سلبيًا للإجابات الخاطئة أو درجات جزئية لترك الأسئلة فارغة لمنع التخمين العشوائي".

وبالمثل، تقول "OpenAI" إن تقييمات النماذج يجب أن "تعاقب أخطاء الثقة أكثر من عقوبة عدم اليقين، وتمنح درجات جزئية للتعبير المناسب عن عدم اليقين".

ويجادل الباحثون بأنه لا يكفي إدخال "بعض الاختبارات الجديدة التي تُراعي عدم اليقين على هامش التجربة"، بل "يجب تحديث التقييمات القائمة على الدقة والمستخدمة على نطاق واسع بحيث تُثبط عملية التقييم التخمين".

ويقول الباحثون: "إذا استمرت لوحات النتائج الرئيسية في مكافأة التخمينات المحظوظة، فستستمر النماذج في تعلم التخمين".

العربيّة المصدر: العربيّة
شارك

إقرأ أيضا


حمل تطبيق آخر خبر

آخر الأخبار