أظهرت دراسة جديدة أن نماذج الذكاء الاصطناعي تفوقت على الأطباء في اتخاذ القرارات الطبية في أقسام الطوارئ. فقد قارن باحثون من كلية الطب بجامعة "هارفارد" ومستشفى "بيث إسرائيل ديكونيس" في الولايات المتحدة بين أداء الذكاء الاصطناعي والأطباء في طيف واسع من مهام الاستدلال السريري، ووجدوا أن نماذج اللغات الكبيرة "LLM" تفوقت على الأطباء في عدد من المهام، من بينها اتخاذ قرارات غرفة الطوارئ استنادا إلى المعلومات المتاحة، وتحديد التشخيصات المرجحة، واختيار الخطوات التالية في خطة العلاج. وقال أرجون مانراي، المؤلف المشارك البارز وأستاذ كلية الطب في "هارفارد": "اختبرنا نموذج الذكاء الاصطناعي مقابل كل معيار تقريبا، ففاق أداءه النماذج السابقة وكذلك متوسط أداء أطبائنا"، مضيفا أن "ذلك لا يعني بالضرورة أن الذكاء الاصطناعي سيحسن جودة الرعاية، إذ لا تزال كيفية نشره وأين ينبغي استخدامه مسألتين غير مدروستين بما يكفي، ونحن في أمسّ الحاجة إلى تجارب استباقية صارمة لتقييم أثر الذكاء الاصطناعي على الممارسة السريرية".
في المرحلة الأولى، قيّم الباحثون نموذج الاستدلال "o1-preview" التابع لشركة "OpenAI"، الذي أُطلق في 2024، عبر تزويده بمجموعة من الحالات السريرية، شملت مؤتمرات حالات منشورة وسجلات حقيقية من أقسام الطوارئ. وتفوق الذكاء الاصطناعي على الأطباء في معظم التجارب، ولا سيما في منطق تدبير الحالات، والاستدلال السريري، وتوثيق المعلومات، والسيناريوهات الواقعية في أقسام الطوارئ حيث تكون المعطيات محدودة. وقال المؤلف المشارك الأول، بيتر برودور، الزميل الإكلينيكي في الطب بكلية "هارفارد" ومستشفى "بيث إسرائيل ديكونيس": "قدرات النماذج تتزايد باستمرار؛ كنا نقيمها سابقا باختبارات من نوع الاختيار من متعدد، لكنها الآن تحرز درجات تقترب من 100 في المئة بشكل ثابت، ولم نعد قادرين على رصد التقدم لأنها وصلت عمليا إلى سقف هذه الاختبارات".
وفي تجربة أخرى، طُلب من نماذج اللغات الكبيرة "LLM" مثل "o1" و"GPT-4o" تقييم حالات مرضى في مراحل مختلفة من المسار المعتاد في قسم الطوارئ، بدءا من الفرز الأولي وصولا إلى قرار القبول في المستشفى. وحصل النموذج في كل مرحلة على المعلومات المتاحة في تلك النقطة فقط، وطُلب منه اقتراح التشخيصات المرجحة والتوصية بالخطوة التالية. وأظهرت النتائج أن أكبر فجوة بين أداء الذكاء الاصطناعي والأطباء كانت في مرحلة الفرز، عندما تكون البيانات المتاحة عن المريض أكثر محدودية، بينما تحسنت القدرات التشخيصية للنماذج، كما هو الحال لدى الأطباء، مع توافر مزيد من المعلومات. وكتب المؤلفون: "رغم أن استخدام الذكاء الاصطناعي للمساعدة في دعم القرارات السريرية يُنظر إليه أحيانا على أنه مسعى عالي المخاطر، فإن التوسع المنضبط في استخدام هذه الأدوات قد يسهم في تقليل الكلفة البشرية والمالية للأخطاء التشخيصية والتأخير في التشخيص ونقص الوصول إلى الرعاية".
ودعا الباحثون إلى إجراء تجارب استباقية لتقييم هذه التقنيات في البيئات الواقعية، وإلى أن تستثمر أنظمة الرعاية الصحية في البنية التحتية الحاسوبية وتطوير أطر عمل تضمن دمج أدوات الذكاء الاصطناعي بأمان في سير العمل السريري. وقال برودور: "قد ينجح النموذج في طرح التشخيص الأرجح، لكنه في الوقت نفسه قد يقترح فحوصا غير ضرورية قد تعرّض المريض لخطر"، مؤكدا أن "البشر يجب أن يظلوا المرجع النهائي عند تقييم الأداء والسلامة". كما أشار المؤلفون إلى أن للدراسة بعض القيود، إذ إنها تعكس أداء النماذج فقط وتركز في الأساس على النسخة التمهيدية من نموذج "o1"، الذي حلت مكانه منذ ذلك الحين نماذج أحدث مثل نموذج "o3" التابع لشركة "OpenAI". وأضافوا: "مع أننا نتوقع استمرار الأداء أو تحسنه مع النماذج الأحدث، فإن هناك حاجة إلى مزيد من الدراسات لتوضيح كيفية اختلاف الأداء بين النماذج المختلفة، ودراسة سبل التعاون بين البشر ونماذج اللغات الكبيرة".
المصدر:
يورو نيوز