آخر الأخبار

اختبار الرياضيات لنموذج الذكاء الاصطناعي o3 يكشف كذب "OpenAI"

شارك
صورة تعبيرية لشركة OpenAI (المصدر: رويترز)

في خطوة أثارت تساؤلات حول الشفافية والمصداقية، كشفت نتائج اختبار مستقلة عن أداء أقل من المتوقع لنموذج الذكاء الاصطناعي o3 الذي طورته شركة OpenAI، وذلك مقارنةً بالنتائج التي أعلنتها الشركة سابقًا.

وكانت "OpenAI" قد استعرضت في ديسمبر قدرات النموذج الجديد، مشيرة إلى أنه قادر على الإجابة على أكثر من ربع أسئلة اختبار "FrontierMath" المتقدم، "اختبار مسائل رياضيات معقدة"، متفوقًا بشكل لافت على النماذج المنافسة التي لم تتجاوز دقتها 2% فقط.

وخلال بث مباشر، صرّح مارك تشين، كبير الباحثين في "OpenAI"، بأن النموذج حقق نسبة تجاوزت 25% عند اختباره داخليًا باستخدام بنية حوسبية متقدمة، بحسب تقرير نشره موقع "تك كرانش" واطلعت عليه "العربية Business".

غير أن هذه النتيجة تمثل على الأرجح الحد الأقصى لأداء النموذج، إذ تبيّن لاحقًا أنها كانت مستندة إلى نسخة تجريبية أكثر قوة من تلك التي طرحتها الشركة للعامة.

وفي تقرير حديث، أعلن معهد "Epoch AI" – الجهة المطورة لمعيار "FrontierMath" – أن الاختبارات التي أجراها على الإصدار العام من o3 أظهرت أداءً أقل بكثير، إذ لم يتجاوز النموذج حاجز 10% من الإجابات الصحيحة.

ورغم أن هذه النتيجة لا تُثبت أن "OpenAI" قدّمت معلومات مغلوطة، فإنها تثير تساؤلات حول أسلوب الشركة في عرض قدرات نماذجها.

وأوضح معهد Epoch أن الفروقات قد تكون ناجمة عن اختلاف الإعدادات الحوسبية، أو عدد المسائل المستخدمة في كل اختبار.

صورة توضح نتائج اختبارات معهد Epoch AI

وفي منشور على منصة إكس، أكدت مؤسسة "ARC Prize" أن النسخة التي اختبرتها قبل الإطلاق الرسمي كانت مختلفة عن النموذج الموجّه للاستخدام في المنتجات، مشيرة إلى أن مستويات الحوسبة التي طُرحت للعامة أقل قوة من النسخ التجريبية.

بدورها، قالت ويندا تشو، من الفريق التقني في " OpenAI "، إن النسخة الحالية من o3 مخصصة لتكون أكثر كفاءة وسرعة في الاستخدامات اليومية، ما قد يؤدي إلى تفاوت في نتائج الأداء.

وتأتي هذه الواقعة لتضيف حلقة جديدة إلى سلسلة من الانتقادات التي تطال قطاع الذكاء الاصطناعي بشأن الشفافية في نتائج الاختبارات والمعايير.

إذ سبق أن وُجهت اتهامات لشركة ميتا، وكذلك "xAI" التابعة لإيلون ماسك، بنشر نتائج اختبار غير دقيقة أو لم تُطبَّق على النماذج الفعلية المتاحة للمستخدمين.

وفيما تستعد "OpenAI" لإطلاق نسخة أقوى من النموذج تحت اسم "o3-pro"، تبقى العبرة بضرورة توخي الحذر عند تقييم قدرات نماذج الذكاء الاصطناعي، خصوصًا عندما يكون مصدر النتائج جهةً لها مصلحة تجارية مباشرة.

العربيّة المصدر: العربيّة
شارك

حمل تطبيق آخر خبر

آخر الأخبار