كسفت " أوبن إيه آي " عن معيار جديد لتقييم أداء نماذج الذكاء الاصطناعي في المهام والاستخدام اليومي المتعلق بالأعمال اليومية، وذلك وفق تقرير نشره موقع "تيك رادار" التقني.
ويعتمد معيار "جي دي بي فال" (GDPVal) على قياس أداء نماذج الذكاء الاصطناعي المختلفة باستخدام مهام العمل المعتادة في العالم الحقيقي مقارنة بأداء البشر في 44 مهنة مختلفة.
وخلصت الدراسة التي أجرتها "أوبن إيه آي" بالاعتماد على المعيار الجديد إلى أن نموذج "كلود أوبس 4.1" (Claude Opus 4.1) من "آنثروبيك" هو الأفضل في هذه المهام، متغلبا في ذلك على نماذج "شات جي بي تي 5″ و"جيميناي" وغروك ".
وأظهرت الدراسة أن "كلود أوبس 4.1" أدى بشكل أفضل من الخبراء البشر في 47.6% من المرات، بينما نتيجة " شات جي بي تي 5″ كانت 38.8% و"غروك 4″ حقق نسبة 24.3% و"جيميناي 2.5 برو" حقق 25.5%.
كما أن "كلود" كان الأفضل في 8 من أصل 9 صناعات مختلفة بما فيها القطاعات الحكومية والصحية والمساعدة الاجتماعية، وتضمنت المهام التي طلبت من النموذج أشياء مثل كتابة رسائل البريد الإلكتروني والرد على العملاء المنزعجين وتحسين الجداول وتدقيق الأسعار.
وتأتي هذه الدراسة ضمن مساعي "أوبن إيه آي" لتحقيق دراسة معمقة لنماذج الذكاء الاصطناعي المختلفة حتى وإن كانت منافسة لها، إذ طرحت الشركة منذ عدة أسابيع دراسة أخرى أظهرت أكثر الاستخدامات شيوعا في "شات جي بي تي".
وكان فريق الأبحاث الاقتصادية الموجود بالشركة مسؤولا عن هذه الدراسة بالتعاون مع الخبير الاقتصادي ديفيد ديمينج لمكتب البحوث الاقتصادية الوطني.
ويذكر بأن "أوبن إيه آي" تعمل على تقديم مجموعة من التحسينات على نموذج "شات جي بي تي" من بينها إمكانية الشراء مباشرة من داخل النموذج بالتعاون مع منصة "إيتسي" (Etsy) و"شوبيفاي" (Shopify)، فضلا عن طرح مزايا الرقابة الأبوية داخل "شات جي بي تي" للمراهقين.