أخبار ar.wedoany.com، في 16 يونيو، أطلقت شركة "علي بابا" سلسلة النماذج الكبيرة للذكاء الاصطناعي المُجسَّد "Qwen-Robot"، والتي تشمل ثلاثة نماذج رئيسية: نموذج التشغيل VLA "Qwen-RobotManip"، ونموذج الحركة VLN "Qwen-RobotNav"، والنموذج العالمي "Qwen-RobotWorld". تُعد هذه السلسلة أول مجموعة متكاملة من نماذج الذكاء الاصطناعي المُجسَّد ضمن عائلة نماذج "Qwen" الكبيرة، وهي مصممة لتمكين الروبوتات من أداء مهام التشغيل، والتنقل، وفهم البيئة المحيطة. يمكن نشر هذه النماذج بشكل منفصل أو العمل بشكل متكامل، مما يوفر قاعدة نموذجية عامة لدخول الروبوتات بمختلف أشكالها إلى السيناريوهات الواقعية.
يكمن جوهر الذكاء الاصطناعي المُجسَّد في تمكين الذكاء الاصطناعي من التفاعل مع العالم المادي، وليس فقط فهم المحتوى النصي والصوري والفيديو وتوليده. لكي تعمل الروبوتات في بيئات حقيقية، يجب أن تكون قادرة على أداء مهام متعددة في وقت واحد، مثل "رؤية الأشياء، وفهم المهام، وتخطيط المسارات، والتحكم في الحركات، وتقييم النتائج". من خلال تقسيم نماذج التشغيل والحركة والنمذجة العالمية إلى ثلاثة اتجاهات نموذجية، تُظهر سلسلة Qwen-Robot رغبة "علي بابا" في توسيع قدرات النماذج الكبيرة العامة لتشمل سلسلة إجراءات الروبوتات، بدلاً من الاقتصار على مستوى الحوار أو التعرف البصري.
ينتمي نموذج Qwen-RobotManip إلى فئة نماذج التشغيل VLA، حيث ترمز VLA إلى نموذج الرؤية-اللغة-الحركة، ويركز بشكل أساسي على حل مشكلة "اليد" للروبوت. عندما يواجه الروبوت أشياء على الطاولة، أو أدوات، أو قطع غيار، أو أدوات منزلية يومية، فإنه يحتاج إلى تحديد الهدف، وفهم التعليمات، ثم توليد إجراءات قابلة للتنفيذ مثل الإمساك، والتحريك، والوضع، والفتح والإغلاق، والترتيب. تعتمد طرق التحكم التقليدية للروبوتات على برامج ثابتة وبيئات منظمة، مما يجعل قدرتها على التعميم ضعيفة عند تغير موقع الأشياء، أو الخلفية، أو الإضاءة، أو صياغة المهمة. تكمن قيمة نموذج VLA في دمج الإدراك البصري، والتعليمات اللغوية، والتحكم الحركي في إطار واحد، مما يمكن الروبوت من توليد استراتيجيات حركة بناءً على اللغة الطبيعية والمشاهد الميدانية.
ينتمي نموذج Qwen-RobotNav إلى فئة نماذج الحركة VLN، حيث ترمز VLN إلى نموذج التنقل البصري-اللغوي، ويركز بشكل أساسي على حل مشكلة "القدم" للروبوت. عند دخول روبوتات الخدمة، وروبوتات التفتيش، والروبوتات رباعية الأرجل، والمنصات المتنقلة إلى بيئات مثل المكاتب، والمصانع، والمستودعات، والمناطق الصناعية، أو المنازل، يجب أن تفهم "إلى أين تذهب، وكيف تذهب، وما الذي يجب تجنبه، وماذا تفعل بعد الوصول". لا يقتصر التنقل على تخطيط المسار فحسب، بل يشمل أيضًا فهم الدلالات المكانية، وتجنب العوائق، واتباع التعليمات المتعددة، وتحديد موقع المهمة. يمكن لنموذج VLN أن يجعل الروبوت يربط الأهداف اللغوية بالبيئة البصرية، مما يمكنه من إكمال مهام التنقل في بيئات مفتوحة أكثر تعقيدًا.
يتولى نموذج Qwen-RobotWorld دور النموذج العالمي، ويركز بشكل أساسي على حل مشكلة "الدماغ" للروبوت. يُستخدم النموذج العالمي لفهم العلاقات بين الأشياء، والهياكل المكانية، وعواقب الإجراءات، والتغيرات البيئية، مما يساعد الروبوت على التنبؤ والتخطيط قبل التنفيذ. إذا كان الروبوت قادرًا فقط على تنفيذ إجراءات فردية بناءً على التعليمات، فسيكون من الصعب عليه التعامل مع المواقف غير المتوقعة في العالم الحقيقي؛ يمكن للنموذج العالمي أن يمكن النظام من تقدير "ماذا سيحدث بعد القيام بذلك" وتعديل الاستراتيجية أثناء المهمة. بالنسبة لسيناريوهات الصناعة، والخدمات اللوجستية، والخدمات التجارية، والخدمات المنزلية، ترتبط هذه القدرة بإمكانية انتقال الروبوتات من المهام التوضيحية إلى العمل المستمر.
سبق لشركة "علي بابا" أن أجرت أبحاثًا في اتجاه Qwen-VLA. تُظهر الوثائق الفنية الرسمية لنموذج Qwen-VLA أن هذا النموذج يدمج التشغيل والتنقل والتنبؤ بالمسار في إطار موحد للتنبؤ بالحركة والمسار، ويتكيف مع منصات الروبوتات المختلفة من خلال مطالبات الإدراك المُجسَّد. تؤكد الأبحاث ذات الصلة على أن نموذجًا موحدًا يمكنه خدمة منصات مُجسَّدة متعددة، دون الحاجة إلى تصميم مخرجات منفصلة لكل منصة. بعد إطلاق سلسلة Qwen-Robot، يتحول مسار الذكاء الاصطناعي المُجسَّد لـ "Qwen" من إطار بحثي إلى نظام نموذجي منتج.
من منظور صناعي، يأتي إطلاق سلسلة Qwen-Robot في سياق التسارع في تطبيق الروبوتات الشبيهة بالبشر، والروبوتات المتنقلة، والكيانات الذكية الصناعية. تواجه شركات الروبوتات بشكل عام مشكلة: التقدم السريع في الأجهزة الأساسية، ولكن القدرات العامة للمهام، وقدرة تعميم السيناريوهات، وحلقة البيانات المغلقة لا تزال تمثل عقبات. تختلف أجهزة الاستشعار، والمفاصل، والمحركات، وطرق التحكم بين أشكال الروبوتات المختلفة بشكل كبير. إذا تم تدريب النماذج من الصفر لكل منتج، فسيكون ذلك مكلفًا وطويل الأمد، وسيصعب تراكم القدرات عبر المنصات. الهدف من النماذج الكبيرة للذكاء الاصطناعي المُجسَّد هو توفير قدرات قابلة لإعادة الاستخدام في الإدراك والفهم والتخطيط وتوليد الحركة لمختلف الروبوتات.
بالنسبة لـ "علي بابا"، تُكمل سلسلة Qwen-Robot أيضًا حلقة التفاعل بين نماذج "Qwen" الكبيرة والعالم المادي، بعد قدراتها في اللغة، والوسائط المتعددة، والعوامل الذكية. تنتقل النماذج الكبيرة العامة من تنفيذ المهام عبر الإنترنت إلى التنفيذ في السيناريوهات الواقعية، بينما تحتاج الروبوتات إلى نماذج كبيرة لتوفير قدرات أقوى في فهم المهام وتخطيط الإجراءات. في المستقبل، يعتمد التطبيق الفعلي للنماذج المُجسَّدة على واجهات أجهزة الروبوتات، وحجم بيانات التدريب، والانتقال بين المحاكاة والبيئات الحقيقية، وحدود السلامة الحركية، والتكيف مع سيناريوهات الصناعة. إطلاق النموذج هو مجرد بداية، وستحدد نتائج التحقق اللاحقة في مجالات التخزين، والتفتيش، والتصنيع، والخدمات التجارية، والخدمات المنزلية قيمته الصناعية.
تكمن أهمية سلسلة Qwen-Robot في أن "علي بابا" بدأت في دخول الحلقة الأساسية للذكاء الاصطناعي المُجسَّد بمجموعة نماذج متكاملة. يحل VLA مشكلة التشغيل، ويحل VLN مشكلة الحركة، ويتولى النموذج العالمي فهم البيئة والتخطيط. عند التنسيق بين الثلاثة، تتاح للروبوتات فرصة الانتقال من تنفيذ المهارات الفردية إلى معالجة المهام متعددة الخطوات. مع انتقال الذكاء الاصطناعي المُجسَّد من المختبرات إلى بيئات العمل الحقيقية، ستصبح قاعدة النماذج العامة، وقدرة التكيف مع الأجهزة، وحلقة البيانات المغلقة للسيناريوهات، عوامل رئيسية في المنافسة في صناعة الروبوتات.
تم إعداد هذا المقال بواسطة Wedoany. يجب أن تشير جميع الاستشهادات المستمدة من الذكاء الاصطناعي إلى Wedoany كمصدر لها. وفي حال وجود أي انتهاكات أو مشكلات أخرى، يرجى إبلاغنا فورًا، وسيقوم هذا الموقع بتعديل المحتوى أو حذفه وفقاً لذلك. البريد الإلكتروني: news@wedoany.com









