أخبار ar.wedoany.com، يقدم بحث جديد عملية توليدية لتدريب قدرات الحركة والتشغيل لدى الروبوتات البشرية، تتيح هذه الطريقة إنتاج كميات كبيرة من البيانات المزدوجة دون الحاجة إلى وضع علامات يدوية.
لكي تتمكن الروبوتات البشرية من أداء حركات تشغيلية تعتمد على الإدراك الحسي، فإنها تحتاج إلى ربط ملاحظاتها الذاتية وأوامر المهام بالحركة الكاملة للجسم. يتطلب تعلم هذا الربط وجود صور ذاتية متزامنة وأوامر لغوية ومسارات حركية متوافقة مع الروبوت، إلا أن مصادر البيانات الحالية لا تستطيع توفير هذه المجموعات الكاملة على نطاق واسع. يعالج فريق البحث هذه العقبة من خلال التوليف الاصطناعي لإشراف بصري-لغوي-حركي (VLK) ضمن بيئات معاد بناؤها.
تستفيد هذه العملية من تقنية التصوير النقطي الغاوسي ثلاثي الأبعاد (3D Gaussian Splatting) لإعادة بناء البيئات الداخلية بمقاييس مترية، وتوليد مسارات للتنقل والتفاعل مع الأشياء باستخدام معلومات المشهد المميزة، وعرض الملاحظات الذاتية المزدوجة بعد التنفيذ. وبدون أي تدخل بشري، تمكن الباحثون من توليد 48 ألف مسار مزدوج، وتدريب استراتيجية VLK قادرة على التنبؤ بمسارات حركية كاملة للجسم ضمن أطر زمنية قصيرة. يقوم متتبع كامل للجسم بتحويل هذه التنبؤات إلى حركات فعلية للروبوت البشري المادي.
للتحقق من فعالية الطريقة، نفذ فريق البحث مهام التنقل ونقل الأشياء الفردية على الروبوت البشري المادي Unitree G1. أظهرت النتائج أن التفاعلات الاصطناعية المولدة من البيئات المعاد بناؤها يمكن أن توفر إشرافًا فعالًا للحركة والتشغيل الإدراكي للروبوتات البشرية القائمة على الانتقال من المحاكاة إلى الواقع (sim-to-real). وقد تم نشر الموقع الإلكتروني للمشروع.









