نفى أحد المسؤولين التنفيذيين في شركة ميتا، يوم الاثنين، مزاعم مفادها أن الشركة درّبت نماذج الذكاء الاصطناعي الجديدة لديها لتقديم أداء جيد في معايير أداء محددة، مع إخفاء نقاط ضعفها.
وقال أحمد الدحل، نائب رئيس قسم الذكاء الاصطناعي التوليدي في "ميتا"، في منشور على منصة إكس (تويتر سابقًا)، إنه "ببساطة ليس صحيحًا" أن "ميتا" درّبت نموذجي "Llama 4 Maverick" و"Llama 4 Scout" على "مجموعات اختبار".
وفي معايير أداء الذكاء الاصطناعي، تُعدّ مجموعات الاختبار مجموعات بيانات تُستخدم لتقييم أداء النموذج بعد تدريبه، بحسب تقرير لموقع "TechCrunch" المتخصص في أخبار التكنولوجيا، اطلعت عليه "العربية Business".
وقد يؤدي التدريب على مجموعة اختبار إلى تحسين نتائج معايير الأداء للنموذج بشكل مضلل، مما يجعله يبدو أكثر كفاءة مما هو عليه في الواقع.
وخلال عطلة نهاية الأسبوع، انتشرت مزاعم على منصتي "إكس" و"ريديت"، مفادها أن "ميتا" عززت نتائج معايير الأداء لنماذجها الجديدة على نحوٍ غير حقيقي.
ويبدو أن الأمر بدأ من منشور على موقع تواصل اجتماعي صيني لمستخدم يدعي استقالته من "ميتا" احتجاجًا على ممارسات الشركة في معايير الأداء.
وأدت تقارير تشير إلى أن نموذجي "Maverick" و"Scout" أدائهما ضعيف في بعض المهام إلى تعزيز الشائعة، بالإضافة إلى قرار "ميتا" باستخدام نسخة تجريبية غير معلنة من "Maverick" لتحقيق نتائج أفضل في اختبار المعيار "LM Arena".
وقد لاحظ الباحثون على منصة إكس وجود فروق كبيرة في سلوك نموذج "Maverick" المتاح تنزيله علنًا مقارنة بالنموذج المستضاف على منصة اختبار "LM Arena".
وأقرّ الدحل بأن بعض المستخدمين يلاحظون "تفاوتًا في الجودة" من "Maverick" و"Scout" عبر مختلف موفري الخدمات السحابية المُستضيفة للنموذجين.