أخبار ar.wedoany.com، تعمل شركة الروبوتات الصينية X Square Robot على دفع الروبوتات الشبيهة بالبشر نحو تطبيقات أكثر تعقيدًا، حيث يتمثل هدفها الأساسي في تمكين الروبوتات من العمل بشكل مستقل في بيئات الحياة والعمل البشرية الواقعية والفوضوية وغير المتوقعة.

أشار وانغ تشيان (Wang Qian)، المؤسس والرئيس التنفيذي للشركة، إلى أن الأساس المادي لصناعة الروبوتات أصبح جاهزًا إلى حد كبير، وأن الحركة الشبيهة بالبشر، والأيدي الماهرة، وأنظمة التحكم في القوة قد شهدت تقدمًا سريعًا، لكن العقبة الحقيقية تكمن في الذكاء. لسد هذه الفجوة، قامت X Square Robot خلال الأسابيع القليلة الماضية بفتح مصدر ثلاث تقنيات: نموذج الرؤية-اللغة-الفعل Wall-OSS-0.5، ونموذج الفعل العالمي WALL-WM المصمم لفهم الأحداث الفيزيائية، وإطار جمع البيانات والتدريب بدون روبوت XRZero-G0.
يجيب نموذج Wall-OSS-0.5 بشكل مباشر على سؤال ما إذا كان التدريب المسبق يمكنه تعليم الروبوتات مهارات مفيدة. على عكس النهج الذي يقيم النماذج بعد الضبط الدقيق، قامت الشركة بنشر النموذج المُدرّب مسبقًا مباشرة على روبوتات فيزيائية واختبرته في 17 مهمة في العالم الحقيقي. أظهر النظام أداءً بدون عينات (zero-shot) في فرز الأشياء، وتكديس الحلقات، والتعامل مع الأشياء القابلة للتشوه. يستخدم النموذج إطار تدريب "الجسر التدرجي" (Gradient Bridging) الذي يحول أفعال الروبوت إلى رموز فعل، ويتم تعلمها جنبًا إلى جنب مع تمثيلات اللغة والرؤية أثناء التدريب المسبق، مما يسمح للإدراك وفهم اللغة وتوليد الفعل بالتطور بشكل تآزري ضمن نموذج موحد. وجدت الشركة أن التدريب على الأفعال لم يحسن قدرات التشغيل فحسب، بل عزز أيضًا أداء الربط البصري (visual grounding)، مما يشير إلى أن التفاعل الفيزيائي يمكن أن يعزز فهم النموذج للعالم.
يهدف نموذج WALL-WM إلى معالجة مشكلة أن معظم أنظمة VLA تتعلم فقط مسارات الأفعال دون فهم العلاقات السببية الفيزيائية بشكل حقيقي. يحول هذا النموذج التعلم من تسلسلات أفعال ثابتة إلى أحداث فيزيائية ذات معنى، مثل الوصول، والإمساك، والرفع، والوضع. على عكس البنى التقليدية، يقوم WALL-WM بمحاذاة الملاحظات البصرية والأوصاف اللغوية والأفعال حول الأحداث الواقعية، بهدف تمكين الروبوت ليس فقط من التصرف، بل أيضًا من توقع النتائج، والاستدلال على التغيرات الفيزيائية، والتكيف عند فشل الخطة.
لمعالجة عنق الزجاجة في البيانات للذكاء المجسّد، أطلقت X Square Robot إطار العمل البرمجي والمادي XRZero-G0. يجمع هذا النظام بين واجهات قابلة للارتداء، واستشعار متعدد الزوايا، وفحص جودة آلي، والتحقق باستخدام روبوت حقيقي، وذلك لجمع البيانات والتدريب بدون الحاجة إلى روبوت. من خلال التجارب المضبوطة، وجدت الشركة أن الجمع بين عشر جلسات تعليمية بدون روبوت وجلسة تعليمية واحدة باستخدام روبوت حقيقي يمكن أن يحقق أداءً مماثلاً لمجموعات البيانات المبنية بالكامل من بيانات الروبوتات الحقيقية. كما أصدرت الشركة أكثر من 2000 ساعة من البيانات متعددة الوسائط، تغطي حوالي 3000 مهمة، لدعم أبحاث الذكاء المجسّد.
تشكل هذه التقنيات الثلاث مفتوحة المصدر معًا إطارًا شاملاً يمتد عبر البيانات، ونماذج العالم، والنماذج الأساسية للروبوتات. يعتقد وانغ تشيان (Wang Qian) أن "لحظة الإلهام" (Aha moment) للذكاء المجسّد قد تكون أقرب مما يتصوره الكثيرون.
تم إعداد هذا المقال بواسطة Wedoany. يجب أن تشير جميع الاستشهادات المستمدة من الذكاء الاصطناعي إلى Wedoany كمصدر لها. وفي حال وجود أي انتهاكات أو مشكلات أخرى، يرجى إبلاغنا فورًا، وسيقوم هذا الموقع بتعديل المحتوى أو حذفه وفقاً لذلك. البريد الإلكتروني: news@wedoany.com









