آخر الأخبار

غوغل تؤكد: دقة روبوتات الدردشة بالذكاء الاصطناعي لا تتعدى 70%

شارك

وجدت شركة غوغل أن دقة روبوتات الدردشة المعتمدة على النماذج اللغوية للذكاء الاصطناعي لا تصل إلى 70% في كثير من الحالات، وذلك عقب دراسة مكثفة أجرتها حول دقة هذه النماذج، وفق تقرير لموقع "ديجيتال تريندز".

ونشرت غوغل نتائج هذه الدراسة في تقرير من 18 صفحة، وتطرقت إلى آلية اختبار النماذج وأسباب حصولها على التقييمات المنخفضة.

ويشير التقرير إلى أن النماذج اللغوية للذكاء الاصطناعي تخطئ في واحد من كل 3 أسئلة موجهة إليها، حتى وإن كانت الإجابات تبدو منطقية.

وحاز نموذج "جيميناي 3 برو"، الذي طرحته غوغل مؤخرا على أعلى درجة في هذا الاختبار، إذ حقق نسبة جاوزت 69% يليه "جيميناي 2.5 برو" بنسبة 62% ثم " جي بي تي 5″ بنسبة 61.8%، وأما "كلود أوبس 4.5″ فقد حقق نسبة 51% و" غروك " 53%.

آلية اختبار مكثفة

اعتمدت مختبرات "ديب مايند" -التابعة للشركة والمسؤولة عن هذه الدراسة- على 4 معايير مختلفة للتقييم وهي:


* معيار باراميتري: ويقيس قدرة نموذج الذكاء الاصطناعي على الوصول إلى بنك المعرفة الداخلي الموجود به بدقة في حالة استخدام الأسئلة الواقعية.
* معيار بحثي: ويختبر هذا المعيار قدرة النموذج على البحث في الإنترنت واستخدام أدوات البحث بوجه عام لاسترجاع المعلومات وتجميعها تجميعا صحيحا.
* معيار متعدد الوسائط: ويعتمد هذا الاختبار على قياس قدرة النموذج في الإجابة على المطالبات المتعلقة بالصور المدخلة بطريقة صحيحة وبشكل صحيح.
* معيار الأساس 2: وهو معيار موسع لاختبار قدرة النموذج على تقديم إجابات تستند إلى سياق ذي توجه معين والتماشي مع هذا السياق.

وتأتي هذه الدراسة مع مجتمع "كاغل" (Kaggle) العلمي، الذي يعد أحد أكبر المجتمعات العلمية المهتمة بعلوم البيانات، والذي يوفر مصادر وأدوات رائدة لدراسة البيانات وتحليلها بشكل مناسب.

مصدر الصورة النسخة الأحدث من "جيميناي" كانت صاحبة النتيجة الأكبر في الاختبار (موقع غوغل)

ويولد كل معيار أكثر من 3500 نتيجة تمت مشاركتها مع المجتمعات العلمية بصورة مفتوحة، كما احتفظت الشركة بمجموعة من الاختبارات بشكل خاص، ويتم احتساب نتيجة كل معيار بناء على متوسط الاختبارات العامة والخاصة.

إعلان

وتطرقت الدراسة أيضا إلى أداء نماذج الذكاء الاصطناعي في مجموعة من القطاعات المخصصة والمحددة، مثل الموسيقى والتكنولوجيا والتاريخ والعلوم والرياضات وحتى السياسة وبرامج التلفاز الترفيهية.

تباين واسع في النتائج

اختلفت النتائج التي حققها كل نموذج بناء على نوعية الأسئلة والمعيار الموجه إليه، فبينما كان "جيميناي 3 برو" هو الرائد في المجمل، فإن المعايير الفردية تختلف كثيرا.

ويشير تقرير "ديجيتال تريندز" إلى تفوق "شات جي بي تي 5" في معيار الأساس ومعيار البحث، مع كون المعيار متعدد الوسائط هو النقطة الأضعف في النماذج كافة.

ويلاحظ أن نموذج "غروك 4 فاست" (Grok 4 Fast) هو أضعف نموذج ذكاء اصطناعي في الاختبارات كافة مع نتيجة متوسطة وصلت إلى 36% وانخفضت إلى 17% في المعيار متعدد الوسائط و15% في المعيار البارامتري.

وتؤكد هذه الدراسة على قصور أدوات الذكاء الاصطناعي في الاختبارات المخصصة والمفصلة وفق ما جاء في التقرير، إذ يضيف أن الإجابات الخطأ ولو بنسبة صغيرة قد تتسبب في ضرر كبير في قطاعات مثل القطاعات الصحية أو المالية.

الجزيرة المصدر: الجزيرة
شارك

إقرأ أيضا


حمل تطبيق آخر خبر

آخر الأخبار