كشفت شركة غوغل في تقييم صريح عن مستوى موثوقية روبوتات الدردشة المعتمدة على الذكاء الاصطناعي، لتؤكد أن هذه الأنظمة لا تزال بعيدة عن الكمال، حتى في أفضل حالاتها.
ووفقاً لاختبارات أجرتها الشركة باستخدام معيارها الجديد FACTS Benchmark Suite، لم يتمكن أي نموذج ذكاء اصطناعي من تجاوز حاجز 70% من الدقة الواقعية.
وجاء نموذج جيميني 3 برو في الصدارة بنسبة 69% فقط، فيما سجلت نماذج منافسة من "OpenAI" و"أنثروبيك" و"xAI" نتائج أقل.
وبمعنى آخر، تُظهر البيانات أن روبوتات الدردشة تخطئ في واحد من كل ثلاثة ردود تقريباً، رغم أنها غالباً ما تقدم إجابات واثقة وسلسة، بحسب تقرير نشره موقع "digitaltrends" واطلعت عليه "العربية Business".
تكتسب هذه النتائج أهمية خاصة لأن معظم اختبارات الذكاء الاصطناعي الحالية تركز على قدرة النموذج على تنفيذ المهمة أو صياغة رد مقنع، لا على مدى صحة المعلومات نفسها.
وفي قطاعات حساسة مثل التمويل والرعاية الصحية والقانون، قد تؤدي إجابة واحدة خاطئة، حتى لو بدت مقنعة، إلى عواقب مكلفة وخطيرة.
وتحذر "غوغل" من أن الثقة العمياء في هذه الأنظمة تمثل مخاطرة حقيقية، خاصة عندما يفترض المستخدم أن الروبوت "يعرف ما يقول".
تم تطوير FACTS Benchmark Suite بالتعاون بين فريق FACTS في "غوغل" ومنصة Kaggle، لقياس الدقة الواقعية عبر أربع حالات استخدام قريبة من الواقع:
المعرفة المضمنة: اختبار قدرة النموذج على الإجابة عن أسئلة واقعية اعتماداً على ما تعلمه أثناء التدريب فقط.
أداء البحث: تقييم مدى دقة استخدام أدوات البحث على الويب لجلب معلومات صحيحة.
الالتزام بالمصادر: قياس قدرة النموذج على الالتزام بوثيقة محددة دون اختلاق تفاصيل غير موجودة.
الفهم متعدد الوسائط: اختبار قراءة الرسوم البيانية والمخططات والصور بدقة.
أظهرت النتائج تفاوتاً ملحوظاً بين الأنظمة المختلفة، فإلى جانب تصدر Gemini 3 Pro بنسبة 69%، حل Gemini 2.5 Pro وChatGPT-5 في حدود 62%، بينما سجل Claude 4.5 Opus نحو 51%، وGrok 4 قرابة 54%.
وكان الأداء الأضعف في مهام الفهم متعدد الوسائط، إذ انخفضت الدقة في كثير من الحالات إلى أقل من 50%.
وتكمن الخطورة هنا في أن الروبوت قد يسيء تفسير رسم بياني أو يلتقط رقماً خاطئاً من مستند، ثم يقدمه بثقة كاملة، ما يجعل الخطأ صعب الاكتشاف وسريع الانتشار.
لا تعني هذه النتائج أن روبوتات الدردشة عديمة الفائدة، لكنها تؤكد، بحسب "غوغل" نفسها، أن الذكاء الاصطناعي لا يزال بحاجة إلى تحقق مستمر، وضوابط صارمة، وإشراف بشري قبل الاعتماد عليه كمصدر موثوق للحقيقة.
المصدر:
العربيّة