في الأسبوع الماضي، انتشر منشور على منصة إكس على نطاق واسع، يزعم أن أحدث طراز من نموذج الذكاء الاصطناعي جيميني من "غوغل" تفوق على طراز "كلود" الرائد من "أنثروبيك" في ثلاثية لعبة بوكيمون الأصلية.

وأفادت التقارير أن جيميني وصل إلى "لافندر تاون" في بث مباشر لأحد المطورين على "تويتش"، بينما كان كلود عالقًا في "جبل مون" أواخر فبراير الماضي، بحسب تقرير نشره موقع "تك كرانش" واطلعت عليه "العربية Business".

كما أشار مستخدمو موقع ريديت، قام المطور المسؤول عن بث جيميني ببناء خريطة مصغرة مخصصة تساعد النموذج على تحديد القطع في اللعبة، مثل الأشجار القابلة للقطع. هذا يقلل من حاجة جيميني لتحليل لقطات الشاشة قبل اتخاذ قرارات اللعب.

الآن، يُعدّ بوكيمون معيارًا شبه جاد للذكاء الاصطناعي.

من ناحية أخرى أفادت شركة أنثروبيك بحصول نموذجها الحديث Anthropic 3.7 Sonnet على معيار SWE-bench Verified، المصمم لتقييم قدرات برمجة النموذج.

حقق Claude 3.7 Sonnet دقةً بنسبة 62.3% على معيار SWE-bench Verified، ولكن بنسبة 70.3% باستخدام أداة مخصصة طورتها "أنثروبيك".

مؤخرًا، قامت شركة ميتا بتحسين نسخة من أحد أحدث طرازاتها، Llama 4 Maverick، لتحقيق أداء جيد في معيار أداء محدد، LM Arena.

يُسجل الإصدار الأساسي من النموذج نتائج أسوأ بكثير في نفس التقييم.

ونظرًا لأن معايير أداء الذكاء الاصطناعي تُعتبر مقاييس غير مثالية في البداية، فإن التطبيقات المخصصة وغير القياسية تُهدد بزيادة الغموض.

بمعنى آخر، لا يبدو من المرجح أن تُصبح مقارنة النماذج أسهل مع إصدارها.