يتزايد استخدام نماذج الذكاء الاصطناعي من شركات الذكاء الاصطناعي، مثل "أوبن إيه آي" و"أنثروبيك"، للمساعدة في مهام البرمجة، لكن دراسة جديدة من شركة مايكروسوفت كشفت أمرًا صادمًا حول هذا الأمر.
وكشفت دراسة جديدة من "مايكروسوفت ريسيرش"، وهو قسم البحث والتطوير في "مايكروسوفت"، أنه حتى بعض أفضل نماذج الذكاء الاصطناعي في وقتنا هذا تُكافح لا تزال تكافح لتصويب أخطاء برمجية لا تشكل مشكلة للمطورين ذوي الخبرة.
وتوصلت الدراسة إلى أن النماذج، بما في ذلك "Claude 3.7 Sonnet" من شركة أنثروبيك و" o3-mini" من "أوبن إيه آي"، تفشل في تصحيح العديد من المشكلات في معيار تقييم تطوير البرمجيات المُسمي "SWE-bench Lite"، بحسب تقرير لموقع "TechCrunch" المتخصص في أخبار التكنولوجيا، اطلعت عليه "العربية Business".
وتُعدّ النتائج تذكيرًا صادمًا بأنه على الرغم من التصريحات الجريئة لشركات مثل "أوبن إيه آي"، لا يزال الذكاء الاصطناعي لا يُضاهي الخبراء البشريين في مجالات مثل البرمجة.
اختبر الباحثون المشاركون في الدراسة تسعة نماذج مختلفة كأساس لوكيل ذكاء اصطناعي يتمتع بإمكانية الوصول إلى عدد من أدوات تصحيح الأخطاء البرمجية، بما في ذلك مصحح أخطاء "بايثون". وكلّفوا هذا الوكيل بحل مجموعة مختارة من 300 مهمة تصحيح أخطاء برمجية من "SWE-bench Lite".
ووفقًا للباحثين، حتى عند استخدام نماذج أقوى وأحدث، نادرًا ما أكمل وكيلهم أكثر من نصف مهام التصحيح بنجاح.
وحقق نموذج "Claude 3.7 Sonnet " أعلى معدل متوسط للنجاح مسجلًا 48.4%، يليه نموذجا "أوبن إيه آي" الأول "o1" بمعدل "30.2" والثاني " o3-mini" بمعدل 22.1%.
واجهت بعض النماذج صعوبة في استخدام أدوات تصحيح الأخطاء المتاحة لها وفهم طريقة مساعدة الأدوات المختلفة في معالجة مشكلات مختلفة.
لكن المشكلة الأكبر، وفقًا لباحثي الدراسة، هي ندرة البيانات، إذ يعتقدون أنه لا يوجد ما يكفي من البيانات التي تمثل "عمليات اتخاذ القرار المتسلسل" -أي تتبع عمليات التصحيح البشرية للأخطاء- في بيانات تدريب النماذج الحالية.
ورأى الباحثون أن تدريب النماذج أو ضبطها بدقة يمكن أن يجعلها أدوات أكثر فاعلية لتصحيح الأخطاء البرمجية، لكن هذا الأمر سيتطلب بيانات متخصصة لإتمام عملية تدريب النماذج.
لكن تجدر الإشارة إلى أن نتائج هذه الدراسة ليست صادمة كليًا. فقد أظهرت العديد من الدراسات أن الذكاء الاصطناعي الذي ينشيء أكواد برمجية يميل إلى إدخال ثغرات أمنية وأخطاء، نظرًا لضعفه في مجالات مثل القدرة على فهم منطق البرمجة.
وقد توصلت عملية تقييم حديثة لأداة "Devin"، وهي أداة برمجة بالذكاء الاصطناعي مشهورة، أنها لا تستطيع إكمال سوى ثلاثة اختبارات برمجة من أصل 20.