آخر الأخبار

"شات جي بي تي" يفشل في تلخيص الأبحاث العلمية بدقة

شارك
شعار شات جي بي تي (المصدر: رويترز)

يُعدّ تلخيص النتائج العلمية المعقدة لجمهور غير متخصص من أهمّ المهام التي يقوم بها الصحفي العلمي يوميًا. وذُكِر إعداد ملخصات للنصوص المعقدة مرارًا وتكرارًا كأحد أفضل استخدامات نماذج اللغة الكبيرة، وهي نماذج الذكاء الاصطناعي التي تشغل روبوتات الدردشة.

مع وضع كل ذلك في الاعتبار، أجرى فريق الجمعية الأميركية لتقدم العلوم دراسة غير رسمية استمرت عامًا كاملًا لتحديد ما إذا كان "شات جي بي تي" قادرًا على إنتاج نوع من ملخصات الأخبار الموجزة التي يكتبها فريق "SciPak" التابع للجمعية بانتظام لمجلة "ساينس" العلمية، حيث تتبع هذه المقالات صياغة حددة ومبسطة تنقل المعلومات الأساسية، مثل فرضية الدراسة ومنهجيتها وسياقها، إلى الصحفيين الآخرين الذين قد يرغبون في الكتابة عنها.

ووجد باحثو الجمعية الأميركية لتقدم العلوم أن "شات جي بي تي" قادر على "محاكاة بنية الموجز العلمي على غرار SciPak بشكل مقبول"، لكنه يقدم نصوصًا "تميل إلى التضحية بالدقة من أجل البساطة" و"تتطلب تدقيقًا دقيقًا للحقائق من قِبل كُتّاب SciPak"، بحسب تقرير لموقع "Ars Technica" المتخصص في أخبار التكنولوجيا، اطلعت عليه "العربية Business".

وقالت أبيغيل آيزنشتات، الكاتبة لدى الجمعية الأميركية لتقدم العلوم: " هذه التقنيات قد تمتلك إمكانات كأدوات مساعدة للكتّاب العلميين، لكنها ليست جاهزة للاستخدام "بشكل أساسي" في الوقت الحالي بالنسبة لفريق SciPak".

ومن ديسمبر 2023 إلى ديسمبر 2024، اختار باحثو الجمعية ما يصل إلى ورقتين بحثيتين أسبوعيًا لتلخيصهما بواسطة "شات جي بي تي" باستخدام ثلاثة محاور بحثية مختلفة ذات دقة متفاوتة.

وركز الفريق على الأوراق البحثية التي تتضمن عناصر صعبة مثل المصطلحات التقنية، والرؤى المثيرة للجدل، والاكتشافات الرائدة، والمشاركين في التجارب العلمية، أو الصيغ غير التقليدية. واستخدمت الاختبارات النسخة "Plus" من أحدث نماذج "GPT" المتاحة للعامة خلال فترة الدراسة، والتي تشغل "شات جي بي تي".

وفي المجمل، تم تلخيص 64 ورقة بحثية، وخضعت هذه الملخصات لتقييم كمّي ونوعي من قِبل كُتّاب "SciPak" أنفسهم الذين أعدّوا الملخصات الأصلية لهذه الأوراق للجمعية.

ويشير الباحثون إلى أن تصميم هذه الاختبارات "لا يمكنه احتساب التحيزات البشرية"، والتي يمكننا القول إنها قد تكون ذات أهمية لدى الصحفيين الذين يُقيّمون أداةً تُهدد بالسيطرة على إحدى وظائفهم الأساسية.

مع ذلك، كانت نتائج الاستطلاع الكمّي بين هؤلاء الصحفيين مُتحيزة إلى حد كبير. ففي سؤال حول إمكانية دمج ملخصات "شات جي بي تي" مع بقية الملخصات التي تنتجها كصحفي، حصل الملخص في المتوسط على درجة 2.26 فقط على مقياس من 1 ("لا، إطلاقًا") إلى 5 ("بالتأكيد"). أما فيما يتعلق بمسألة "جاذبية" الملخصات، فقد حصلت ملخصات روبوت الدردشة على درجة 2.14 فقط على نفس المقياس. وفي كلا السؤالين، حصل ملخص واحد فقط على "5" من المُقيِّم البشري في أيٍّ منهما، مقارنةً بـ 30 تقييمًا بقيمة "1".

وطُلب من المقيمين البشريين أيضًا كتابة تقييمات نوعية للملخصات الفردية التي قيّموها. وفي هذه التقييمات، اشتكى الكُتّاب من أن "شات جي بي تي" غالبًا ما يخلط بين الارتباط والسببية، ويفشل في توفير السياق ويميل إلى المبالغة في النتائج من خلال الإفراط في استخدام كلمات مثل "مُبتكر" و"جديد".

بشكل عام، وجد الباحثون أن "شات جي بي تي" عادةً ما يكون جيدًا في "نسخ" ما كُتب في ورقة علمية، خاصةً إذا لم تكن تلك الورقة تحمل الكثير من التفاصيل الدقيقة. لكنه كان ضعيفًا في "ترجمة" تلك النتائج من خلال التعمق في المنهجيات أو القيود أو الدلالات الكبرة.

وكانت نقاط الضعف هذه واضحة بشكل خاص بالنسبة للأوراق التي قدمت نتائج متعددة ومختلفة، أو عندما طُلب من روبوت الدردشة تلخيص ورقتين بحثيتين مرتبطتين في ملخص واحد.

العربيّة المصدر: العربيّة
شارك

إقرأ أيضا


حمل تطبيق آخر خبر

آخر الأخبار