خلصت دراسة جديدة إلى أنّ الذكاء الاصطناعي التوليدي لا يزال يفتقر إلى عمليات الاستدلال اللازمة لاستخدامه بشكل آمن في الممارسة السريرية. فقد حسّنت روبوتات الدردشة المعتمدة على الذكاء الاصطناعي من دقتها التشخيصية عندما تُزوَّد بمعلومات سريرية شاملة، لكنها أخفقت في إنتاج تشخيص تفريقي مناسب في أكثر من 80% من الحالات، بحسب باحثين في "ماس جنرال برايغهام"، وهي شبكة غير ربحية من المستشفيات ومراكز الأبحاث في بوسطن، وتعد إحدى أكبر المنظومات الصحية في الولايات المتحدة. وأظهرت نتائج الدراسة، المنشورة في مجلة "جاما نتوورك أوبن" (المصدر باللغة الإنجليزية) الطبية المتاحة للجميع، أنّ نماذج اللغة الكبيرة لا ترقى بعد إلى مستوى الاستدلال المطلوب للاستخدام السريري. وقال مارك سوتشي، المؤلف المشارك في الدراسة، إنّ "نماذج اللغة الكبيرة الجاهزة للاستخدام ليست مستعدة بعد لنشرها في بيئة سريرية من دون إشراف"، مضيفا أن الذكاء الاصطناعي لا يستطيع حتى الآن محاكاة التشخيص التفريقي الذي يعد جوهر التفكير السريري ويعتبره "فن الطب". ويُعد التشخيص التفريقي الخطوة الأولى التي يعتمد عليها العاملون في الرعاية الصحية لتحديد الحالة المرضية وتمييزها عن حالات أخرى ذات أعراض مشابهة.
حلّل فريق البحث أداء 21 من نماذج اللغة الكبيرة، من بينها أحدث الإصدارات المتاحة من "كلود" و"ديب سيك" و"جيميني" و"جي بي تي" و"غروك". وقُيِّمت هذه النماذج عبر 29 حالة سريرية قياسية مختصرة باستخدام أداة جديدة تحمل اسم "PrIME-LLM". وتقيس الأداة قدرة النموذج في مراحل مختلفة من التفكير السريري، من وضع تشخيص أولي، وطلب الفحوص المناسبة، والوصول إلى التشخيص النهائي، وصولا إلى التخطيط للعلاج.
ولمحاكاة تطور الحالات السريرية في الواقع، غذّى الباحثون النماذج بالمعلومات تدريجيا، بدءا من بيانات أساسية مثل عمر المريض وجنسه وأعراضه، ثم أضافوا نتائج الفحص السريري والتحاليل المخبرية. وفي الممارسة الفعلية، يعد التشخيص التفريقي خطوة حاسمة للانتقال إلى المرحلة التالية؛ غير أنّ النماذج في هذه الدراسة حصلت على معلومات إضافية حتى عندما فشلت في إنجاز خطوة التشخيص التفريقي، كي تتمكن من الانتقال إلى المرحلة الموالية. وبيّن الباحثون أنّ نماذج اللغة حققت درجة عالية من الدقة في التشخيص النهائي، لكنها أدت أداء ضعيفا في إنتاج تشخيصات تفريقية مناسبة والتعامل مع حالات عدم اليقين.
وأشارت مؤلفة الدراسة، آريا راو، إلى أنّ تقييم نماذج اللغة الكبيرة بشكل تدريجي خطوة بخطوة يسمح للبحث العلمي بتجاوز التعامل معها كأنها مجرّد "طلاب في امتحان" ووضعها في موقع الطبيب. وأضافت: "هذه النماذج ممتازة في تسمية التشخيص النهائي عندما تكتمل المعطيات، لكنها تواجه صعوبة في البداية المفتوحة للحالة عندما تكون المعلومات محدودة". ووجد الباحثون أنّ كل النماذج أخفقت في تقديم تشخيص تفريقي مناسب في أكثر من 80% من المرات. أمّا في ما يخص التشخيص النهائي، فقد تراوحت نسب النجاح بين نحو 60% وأكثر من 90% تبعا للنموذج. وأظهرت معظم نماذج اللغة الكبيرة تحسنا في الدقة عندما زُوِّدت بنتائج مخبرية وصور طبية إلى جانب النصوص، فيما حُدِّد عنقود من النماذج الأفضل أداء ضم "Grok 4" و"GPT-5" و"GPT-4.5" و"Claude 4.5 Opus" و"Gemini 3.0 Flash" و"Gemini 3.0 Pro".
مع ذلك، يشير المؤلفون إلى أنّه رغم التحسينات المتتالية بين الإصدارات والميزات الإضافية في النماذج المحسّنة للاستدلال، فإنّ نماذج اللغة الكبيرة الجاهزة للاستخدام لم تبلغ بعد مستوى الذكاء المطلوب لنشرها بأمان، ولا تزال قدرتها على إظهار تفكير سريري متقدم محدودة. وقال سوتشي: "تؤكد نتائجنا أن نماذج اللغة الكبيرة في قطاع الصحة ما زالت تحتاج إلى وجود "human in the loop" وإلى رقابة بشرية لصيقة للغاية".
من جانبها، رأت سوسانا مانسو غارسيا، وهي عضو في مجموعة عمل الذكاء الاصطناعي والصحة الرقمية التابعة للجمعية الإسبانية لطب الأسرة والمجتمع ولم تشارك في إعداد الدراسة، أنّ النتائج تحمل رسالة واضحة للجمهور. وأوضحت: "تشدد الدراسة نفسها على أنّه لا ينبغي استخدام هذه النماذج لاتخاذ قرارات سريرية من دون إشراف. لذلك، ورغم أنّ الذكاء الاصطناعي أداة واعدة، يظل الحكم السريري البشري لا غنى عنه". وختمت قائلة: "التوصية الموجّهة للجمهور هي استخدام هذه التقنيات بحذر، وعند مواجهة أي قلق صحي يجب دائما استشارة أحد المتخصصين في الرعاية الصحية".
المصدر:
يورو نيوز