يُعد نموذجا الذكاء الاصطناعي "o3" و"o4-mini" اللذان أطلقتها "OpenAI" مؤخرًا أحدث التقنيات من نواحٍ عديدة، ومع ذلك، لا تزال هذه النماذج الجديدة تُصاب بالهلوسة أو تُختلق الأمور، بل إنها تهلوس أكثر من العديد من نماذج "OpenAI" القديمة.
وأثبتت الهلوسة أنها من أكبر وأصعب المشكلات التي يُواجهها الذكاء الاصطناعي، حيث تؤثر حتى على أفضل الأنظمة أداءً في الوقت الحالي.
وعلى مدار الوقت، تحسّن كل نموذج جديد قليلًا في مجال الهلوسة، حيث كانت نسبة هلوسته أقل من سابقه، لكن لا يبدو أن هذا هو الحال بالنسبة لنموذجي "o3" و"o4-mini"، بحسب تقرير لموقع "TechCrunch" المتخصص في أخبار التكنولوجيا، اطلعت عليه "العربية Business".
ووفقًا لاختبارات داخلية أجرتها "OpenAI"، يصاب نموذجا "o3" و"o4-mini"، وهما مما يُسمى بنماذج التفكير، بالهلوسة أكثر من نماذج التفكير السابقة للشركة -"o1" و"o1-mini" و"o3-mini"- بالإضافة إلى نماذج "OpenAI" التقليدية "غير المخصصة للتفكير" مثل "GPT-4o".
ولعلّ الأمر الأكثر إثارةً للقلق هو أن "OpenAI"، مطورة روبوت الدردشة الشهير "شات جي بي تي"، لا تعرف سبب حدوث ذلك.
وفي تقريرها الفني عن "o3" و"o4-mini"، ذكرت "OpenAI" أن "هناك حاجة إلى مزيد من البحث" لفهم سبب تفاقم الهلوسة مع توسيع حجم نماذج التفكير.
ويُظهر نموذجا "O3 "و"o4-mini" أداءً أفضل في بعض المجالات، بما في ذلك المهام المتعلقة بالبرمجة والرياضيات، لكن نظرًا لأنهما "يُقدّمان ادعاءات أكثر عمومًا"، فغالبًا ما يُدفعان إلى تقديم "ادعاءات أكثر دقة، بالإضافة إلى المزيد من الادعاءات غير الدقيقة/المهلوسة"، وفقًا للتقرير.
ووجدت "OpenAI" أن نموذج "o3" هلوس في إجابة 33% من الأسئلة في اختبار "PersonQA"، وهو المعيار الداخلي للشركة لقياس دقة معرفة النموذج بالأشخاص. وهذا يُمثّل تقريبًا ضعف معدل الهلوسة في نماذج التفكير السابقة من "OpenAI"، نموذجا "o1" و"o3-mini"، اللذين سجّلا 16% و14.8% على التوالي.
وكان أداء نموذج "o4-mini" أسوأ في اختبار "PersonQA"، حيث هلوس في 48% من الوقت.
وأظهرت اختبارات خارجية أجرتها "Transluce"، وهي مؤسسة غير ربحية لأبحاث الذكاء الاصطناعي، أدلة على ميل "o3" إلى اختلاق خطوات في عملية التوصل إلى إجابات.
وإذا استمر توسيع حجم نماذج التفكير في مفاقمة مشكلة الهلوسة، فسيجعل هذا الأمر البحث عن حل أكثر إلحاحًا.
وفي العام الماضي، تحوّل قطاع الذكاء الاصطناعي بشكل عام إلى التركيز على نماذج التفكير بعد أن بدأت تقنيات تحسين نماذج الذكاء الاصطناعي التقليدية تُظهر عوائد متناقصة. يُحسّن التفكير أداء النماذج في مجموعة متنوعة من المهام دون الحاجة إلى كميات هائلة من الحوسبة والبيانات أثناء التدريب. ومع ذلك، يبدو أن "التفكير" يؤدي أيضًا إلى مزيد من الهلوسة، مما يُمثل تحديًا.