أصدر المختبر الصيني "ديب سيك" الأسبوع الماضي نسخةً مُحدثةً من نموذج الذكاء الاصطناعي المنطقي R1، والذي يُحقق أداءً جيدًا في عددٍ من معايير الرياضيات والبرمجة.
لم تكشف الشركة عن مصدر البيانات التي استخدمتها لتدريب النموذج، لكن بعض باحثي الذكاء الاصطناعي يُخمّنون أن جزءًا منها على الأقل جاء من عائلة جيميني للذكاء الاصطناعي من "غوغل.
نشر سام بايتش، وهو مُطوّر مقيم في ملبورن، ويُعدّ تقييمات "الذكاء العاطفي" للذكاء الاصطناعي، ما يزعم أنه دليل على أن أحدث نموذج من "ديب سيك" قد تم تدريبه على مُخرجات جيميني، بحسب تقرير نشره موقع "تك كرانش" واطلعت عليه "العربية Business".
وقال بايتش في منشورٍ على منصة إكس إن نموذج "ديب سيك"، المُسمّى R1-0528، يُفضّل كلماتٍ وتعبيراتٍ مُشابهة لتلك التي يُفضّلها جيميني 2.5 برو من "غوغل".
هذا ليس دليلاً قاطعاً، لكن مطوراً آخر، وهو مُبتكر "تقييم حرية التعبير" للذكاء الاصطناعي باسم SpeechMap، أشار إلى أن آثار نموذج "ديب سيك" - أي "الأفكار" التي يُولّدها النموذج أثناء سعيه للوصول إلى نتيجة - "تشبه آثار جيميني".
وُجّهت اتهامات سابقة لـ "ديب سيك" بالتدريب على بيانات من نماذج ذكاء اصطناعي منافسة.
في ديسمبر، لاحظ المطورون أن نموذج V3 من "ديب سيك" يُعرّف نفسه غالباً باسم شات جي بي تي منصة روبوتات الدردشة المدعومة بالذكاء الاصطناعي من "OpenAI"، مما يُشير إلى أنه ربما تم تدريبه على سجلات دردشة شات جي بي تي.
في وقت سابق من هذا العام، أبلغت شركة OpenAI صحيفة "فاينانشال تايمز" أنها وجدت أدلة تربط "ديب سيك" باستخدام تقنية التقطير، وهي تقنية لتدريب نماذج الذكاء الاصطناعي عن طريق استخراج البيانات من نماذج أكبر وأكثر كفاءة.
ووفقًا لتقرير "بلومبرغ" اكتشفت "مايكروسوفت"، وهي شريك ومستثمر وثيق في "OpenAI"، تسريب كميات كبيرة من البيانات عبر حسابات مطوري "OpenAI" في أواخر عام 2024 - وهي حسابات تعتقد "OpenAI" أنها تابعة لـ "ديب سيك".
لا يُعد التقطير ممارسةً نادرة، لكن شروط خدمة "OpenAI" تمنع العملاء من استخدام مخرجات نماذج الشركة لبناء ذكاء اصطناعي منافس.
للتوضيح، تُخطئ العديد من النماذج في تعريف نفسها وتتقارب في نفس الكلمات والعبارات.
ذلك لأن الإنترنت المفتوح، الذي تُحصّل منه شركات الذكاء الاصطناعي الجزء الأكبر من بيانات تدريبها، أصبح مليئًا بنفايات الذكاء الاصطناعي.
تستخدم مزارع المحتوى الذكاء الاصطناعي لإنتاج محتوى جذاب، وتغمر الروبوتات منصتي "ردديت" و "إكس".
هذا "التلوث"، إن صح التعبير، جعل من الصعب للغاية تصفية مخرجات الذكاء الاصطناعي بدقة من مجموعات بيانات التدريب.
ومع ذلك، لا يستبعد خبراء الذكاء الاصطناعي، مثل ناثان لامبرت، الباحث في معهد أبحاث الذكاء الاصطناعي غير الربحي AI2، أن يكون تدريب "ديب سيك" قائمًا على بيانات من منصة جيميني من "غوغل".
وكتب لامبرت في منشور على "إكس" : "لو كنت مكان ديب سيك، لكنت أنشأتُ بالتأكيد كميات هائلة من البيانات الاصطناعية من أفضل نموذج واجهة برمجة تطبيقات متوفر. ديب سيك تعاني من نقص في وحدات معالجة الرسومات، لكنها غنية بالأموال. إنها تُتيح لهم حوسبة أكثر فعالية".
في محاولةٍ جزئيةٍ لمنع الاختراق، عززت شركات الذكاء الاصطناعي إجراءاتها الأمنية.
في أبريل، بدأت "OpenAI" بإلزام المؤسسات بإكمال عملية التحقق من الهوية للوصول إلى نماذج متقدمة مُحددة.
تتطلب هذه العملية هويةً حكوميةً من إحدى الدول التي تدعمها واجهة برمجة تطبيقات "OpenAI"؛ والصين ليست مُدرجةً في القائمة.
في سياقٍ آخر، بدأت "غوغل" مؤخرًا بتلخيص آثار النماذج المتاحة عبر منصة تطوير AI Studio، وهي خطوة تُصعّب تدريب نماذج منافسة عالية الأداء على آثار جيميني.
وفي مايو، أعلنت شركة أنثروبيك أنها ستبدأ بتلخيص آثار نموذجها الخاص، مشيرةً إلى ضرورة حماية "مزاياها التنافسية".