أعلنت شركة شاومي عن Xiaomi-Robotics-0، أول نموذج لها للروبوتات الكبيرة يجمع بين الرؤية والفهم اللغوي والتنفيذ الفعلي للحركات، ويضم 4.7 مليار معلمة.
الشركة تقول إن النموذج حقق أرقامًا قياسية في الاختبارات الافتراضية والواقعية، مستهدفًا ما تصفه ب" الذكاء الفيزيائي".
النموذج مبني على معمارية Mixture-of-Transformers (MoT) وينقسم إلى مكونين رئيسيين:
1. النموذج البصري اللغوي (VLM):
- بمثابة دماغ الروبوت.
- يفهم التعليمات البشرية، حتى الغامضة منها، مثل: "رجاءً طوي المنشفة".
- يعالج كشف الأشياء، والأسئلة البصرية، والتفكير المنطقي.
2. خبير الحركة:
يعتمد على Diffusion Transformer متعدد الطبقات (DiT).
ينتج Action Chunks، أي تسلسل حركات متسلسلة وسلسة باستخدام تقنيات flow-matching.
مصمم للحفاظ على الأداء الدقيق أثناء التعلم الحركي دون فقدان القدرات الإدراكية للنموذج.
النموذج يتدرب على البيانات متعددة الوسائط والحركة بشكل مشترك، لتجنب فقدان القدرة على الفهم أثناء تعلم الحركات.
Action Proposal: يسمح لVLM بالتنبؤ بتوزيعات الحركات الممكنة أثناء معالجة الصور.
DiT يتدرب لاحقًا على توليد تسلسل الحركات بدقة من الضوضاء، باستخدام ميزات key-value بدلًا من الرموز اللغوية.
تقليل زمن الاستجابة: من خلال Inference Asynchronous وClean Action Prefix للحفاظ على حركة سلسة ومستقرة.
Λ-shaped attention mask: يركز على المدخلات البصرية الحالية بدلًا من الاعتماد على الحالات السابقة.
النموذج سجل نتائج قياسية في محاكيات LIBERO وCALVIN وSimplerEnv، متفوقًا على نحو 30 نموذجًا آخر.
على أرض الواقع، استخدم على روبوت ذو ذراعين، وأظهر تنسيق عين-يد ممتاز في مهام طويلة مثل طي المنشفة وتفكيك المكعبات، مع التعامل مع الأشياء الصلبة والمرنة دون مشاكل واضحة.
على عكس الأنظمة السابقة، Robotics-0 حافظ على قدراته البصرية واللغوية حتى بعد تعلم الحركات، ما يجعله مثالياً للمهام التي تجمع بين الإدراك والتنفيذ الفيزيائي.
باختصار، Xiaomi-Robotics-0 يمثل خطوة "شاومي" الأولى الجادة نحو دمج الذكاء البصري واللغوي مع الأداء الحركي في الروبوتات الواقعية، ويضع الشركة على خريطة البحث المتقدم في مجال الروبوتات الكبيرة.
المصدر:
العربيّة