"غوغل" تصدم مستخدمي الذكاء الاصطناعي.. دقة روبوتات الدردشة لا تتجاوز 69%

منذ

مصدر الصورة

شعار تطبيق جيميني (رويترز)

كشفت شركة غوغل في تقييم صريح عن مستوى موثوقية روبوتات الدردشة المعتمدة على الذكاء الاصطناعي، لتؤكد أن هذه الأنظمة لا تزال بعيدة عن الكمال، حتى في أفضل حالاتها.

ووفقاً لاختبارات أجرتها الشركة باستخدام معيارها الجديد FACTS Benchmark Suite، لم يتمكن أي نموذج ذكاء اصطناعي من تجاوز حاجز 70% من الدقة الواقعية.

وجاء نموذج جيميني 3 برو في الصدارة بنسبة 69% فقط، فيما سجلت نماذج منافسة من "OpenAI" و"أنثروبيك" و"xAI" نتائج أقل.

وبمعنى آخر، تُظهر البيانات أن روبوتات الدردشة تخطئ في واحد من كل ثلاثة ردود تقريباً، رغم أنها غالباً ما تقدم إجابات واثقة وسلسة، بحسب تقرير نشره موقع "digitaltrends" واطلعت عليه "العربية Business".

لماذا هذا المعيار مهم؟

تكتسب هذه النتائج أهمية خاصة لأن معظم اختبارات الذكاء الاصطناعي الحالية تركز على قدرة النموذج على تنفيذ المهمة أو صياغة رد مقنع، لا على مدى صحة المعلومات نفسها.

وفي قطاعات حساسة مثل التمويل والرعاية الصحية والقانون، قد تؤدي إجابة واحدة خاطئة، حتى لو بدت مقنعة، إلى عواقب مكلفة وخطيرة.

وتحذر "غوغل" من أن الثقة العمياء في هذه الأنظمة تمثل مخاطرة حقيقية، خاصة عندما يفترض المستخدم أن الروبوت "يعرف ما يقول".

مصدر الصورة

نتائج اختبارات روبوتات الدردشة المدعومة بالذكاء الاصطناعي

ماذا يكشف اختبار FACTS؟

تم تطوير FACTS Benchmark Suite بالتعاون بين فريق FACTS في "غوغل" ومنصة Kaggle، لقياس الدقة الواقعية عبر أربع حالات استخدام قريبة من الواقع:

المعرفة المضمنة: اختبار قدرة النموذج على الإجابة عن أسئلة واقعية اعتماداً على ما تعلمه أثناء التدريب فقط.

أداء البحث: تقييم مدى دقة استخدام أدوات البحث على الويب لجلب معلومات صحيحة.

الالتزام بالمصادر: قياس قدرة النموذج على الالتزام بوثيقة محددة دون اختلاق تفاصيل غير موجودة.

الفهم متعدد الوسائط: اختبار قراءة الرسوم البيانية والمخططات والصور بدقة.

فوارق واضحة بين النماذج

أظهرت النتائج تفاوتاً ملحوظاً بين الأنظمة المختلفة، فإلى جانب تصدر Gemini 3 Pro بنسبة 69%، حل Gemini 2.5 Pro وChatGPT-5 في حدود 62%، بينما سجل Claude 4.5 Opus نحو 51%، وGrok 4 قرابة 54%.

وكان الأداء الأضعف في مهام الفهم متعدد الوسائط، إذ انخفضت الدقة في كثير من الحالات إلى أقل من 50%.

وتكمن الخطورة هنا في أن الروبوت قد يسيء تفسير رسم بياني أو يلتقط رقماً خاطئاً من مستند، ثم يقدمه بثقة كاملة، ما يجعل الخطأ صعب الاكتشاف وسريع الانتشار.

لا تعني هذه النتائج أن روبوتات الدردشة عديمة الفائدة، لكنها تؤكد، بحسب "غوغل" نفسها، أن الذكاء الاصطناعي لا يزال بحاجة إلى تحقق مستمر، وضوابط صارمة، وإشراف بشري قبل الاعتماد عليه كمصدر موثوق للحقيقة.

المصدر: العربيّة

الصفحة الرئيسية

"غوغل" تصدم مستخدمي الذكاء الاصطناعي.. دقة روبوتات الدردشة لا تتجاوز 69%

لماذا هذا المعيار مهم؟

ماذا يكشف اختبار FACTS؟

فوارق واضحة بين النماذج

إقرأ أيضا

هل تستخدم "ديب سيك" الصينية معالجات مهربة لتدريب جيلها الجديد من الذكاء الاصطناعي؟

"شاومي" تطلق نموذج ذكاء اصطناعي مفتوح المصدر لمنافسة "ديب سيك" و"OpenAI"

آخر الأخبار

العراق ثالث دول أوبك تصديراً للنفط إلى أميركا خلال أيلول.. وإيران خارج القائمة

بعد نقلها لواسط.. إعادة الكلية العسكرية الرابعة إلى ذي قار