أظهرت دراسة جديدة أن بعض روبوتات الدردشة الرائدة المعتمدة على الذكاء الاصطناعي تُظهر علامات واضحة على الضعف الإدراكي البسيط.
وكما هو الحال مع البشر، تصبح التأثيرات أكثر وضوحًا مع تقادم روبوتات الدردشة، حيث يكون أداء نماذج اللغة الكبيرة الأقدم هو الأسوأ.
ونُشرت الدراسة في دورية "The BMJ"، وتهدف إلى توضيح أن التكنولوجيا ليست كفء بما يكفي لاستخدامها في المجال الطبي، وخاصة في التشخيص، بحسب تقرير لموقع "فيوتشريزم"، اطلعت عليه "العربية Business".
وقال الباحثون القائمون على الدراسة إن النتائج تتحدى "الافتراض القائل بأن الذكاء الاصطناعي سيحل قريبًا محل الأطباء البشريين، حيث أن الضعف الإدراكي الواضح لدى روبوتات الدردشة الرائدة قد يؤثر على موثوقيتها في التشخيص الطبي".
وكانت روبوتات الدردشة محل الاختبار في هذه الدراسة هي "GPT-4" و"GPT-4o" من شركة "OpenAI"، و"Claude 3.5 Sonnet" من شركة "Anthropic"، و"Gemini 1.0" و"Gemini 1.5" من شركة غوغل.
وأُخضت روبوتات الدردشة هذه لتقييم مونتريال الإدراكي (MoCA)، وهو اختبار مصمم للكشف عن العلامات المبكرة للخرف تشير فيه النقاط الأعلى إلى قدرة إدراك متفوقة.
سجل "GPT-4o" أعلى نتيجة (26 نقطة من أصل 30، وهو ما يكاد يلبي الحد الأدنى لما هو طبيعي)، في حين سجلت روبوتات "Gemini" أدنى نتيجة (16 من أصل 30 نقطة).
وفي حين تفوقت روبوتات الدردشة كلها في معظم أنواع المهام، كان أداء كل منها ضعيفًا في المهام البصرية المكانية والتنفيذية، مثل رسم خط بين أرقام تأخذ شكل دائري بترتيب تصاعدي.
كما ظهر أن رسم ساعة تُظهر وقتًا محددًا أمر صعب للغاية بالنسبة للذكاء الاصطناعي. وأخفق نموذجا "Gemini" تمامًا في مهمة تذكر مأجلة بسيطة إلى حدٍ ما، تتضمن تذكر تسلسل من خمس كلمات.