هل كذبت شركة xAI بشأن معايير "غروك 3"؟

منذ

مصدر الصورة

صورة تظهر شعار شركة xAI ونموذج الذكاء الاصطناعي "غروك" (رويترز)

لقد انتشرت المناقشات حول معايير الذكاء الاصطناعي، وكيف يتم الإبلاغ عنها من قبل مختبرات الذكاء الاصطناعي.

هذا الأسبوع، اتهم أحد موظفي "OpenAI" شركة الذكاء الاصطناعي "xAI" التابعة لإيلون ماسك، بنشر نتائج معايير مضللة لأحدث نموذج للذكاء الاصطناعي، "غروك 3".

بينما أصر أحد المؤسسين المشاركين لشركة xAI، إيغور بابوشكين، على أن الشركة كانت على حق، بحسب تقرير نشره موقع "تك كرانش" واطلعت عليه "العربية Business".

في منشور على مدونة "xAI"، نشرت الشركة رسمًا بيانيًا يوضح أداء "غروك 3" في AIME 2025، وهي مجموعة من أسئلة الرياضيات الصعبة من اختبار رياضيات.

شكك بعض الخبراء في صحة اختبارات AIME كمعيار للذكاء الاصطناعي.

ومع ذلك، تُستخدم AIME 2025 والإصدارات الأقدم من الاختبار بشكل شائع لاستكشاف قدرة النموذج على الرياضيات.

أظهر الرسم البياني الخاص بشركة xAI نسختين من Grok 3، Grok 3 Reasoning Beta و Grok 3 mini Reasoning، متفوقين على أفضل نموذج متاح أداءً من o3-mini-high، في AIME 2025.

لكن موظفي "OpenAI" على منصة إكس أشاروا إلى أن الرسم البياني الخاص بـ "xAI" لم يتضمن درجة AIME 2025 لـ o3-mini-high في أحد نماذج الاختبارات يسمي "cons@64".

ويميل "cons@64" إلى تعزيز درجات معيار الأداء للنماذج بشكل كبير، وقد يؤدي حذفه من الرسم البياني إلى جعل الأمر يبدو وكأن أحد النماذج يتفوق على الآخر بينما في الواقع، هذا ليس هو الحال.

مصدر الصورة

نتائج اختبارات AIME (منصة إكس)

إن درجات Grok 3 Reasoning Beta و Grok 3 mini Reasoning في AIME 2025 عند "@1" - أي الدرجة الأولى التي حصلت عليها النماذج في المعيار - تقع أقل من درجة o3-mini-high.

كما أن Grok 3 Reasoning Beta يتخلف قليلاً عن نموذج "o1" الذي تم ضبطه على الحوسبة المتوسطة، ومع ذلك، قالت "xAI" عن "غروك 3" أذكى ذكاء اصطناعي في العالم.

زعم بابوشكين على منصة إكس أن "OpenAI" نشرت مخططات معيارية مضللة مماثلة في الماضي، وإن كانت مخططات لمقارنة أداء نماذجها الخاصة.