أطلق باحثون من جامعة بيردو بالتعاون مع LightSpeed Studios تقنية مبتكرة تمكن من إنشاء خطط فحص للروبوتات بناءً على وصف مكتوب، مما يفتح آفاقًا جديدة لتطبيقات تكنولوجيا الروبوتات في العالم الحقيقي. من المتوقع أن تجعل هذه التقنية عمليات الفحص التي تقوم بها الروبوتات في البيئات المعقدة أكثر كفاءة ودقة.

في مجال تكنولوجيا الروبوتات، وعلى الرغم من استخدام الروبوتات على نطاق واسع في تصنيع السلع، التعبئة، والجراحات الدقيقة، إلا أن معظم أعمال فحص البنية التحتية والبيئة لا تزال تعتمد على العمل البشري. لتغيير هذا الواقع، عمل فريق جامعة بيردو على تطوير نموذج حوسبي يمكنه إنشاء خطط فحص بناءً على احتياجات محددة.
الطريقة التي اقترحها الفريق تعتمد على نماذج اللغة البصرية (VLM)، التي تستطيع معالجة الصور والنصوص المكتوبة في وقت واحد، مما يتيح تخطيطًا دقيقًا لمسارات فحص الروبوتات.
على عكس النماذج التقليدية القائمة على التعلم الآلي، لا تتطلب هذه الطريقة تهيئة دقيقة لـ VLM على بيانات ضخمة، بل تستفيد من نماذج VLM المدربة مسبقًا مثل GPT-4o لتفسير أهداف الفحص الموصوفة بلغة طبيعية والصور المرتبطة بها. من خلال تقييم المواقع المرشحة بناءً على التوافق الدلالي، واستخدام GPT-4o لاستنتاج الصور متعددة الزوايا، يتم إنشاء مسارات فحص ثلاثية الأبعاد مثالية.
في الاختبارات، نجح النموذج في رسم مسارات سلسة وتحديد أفضل زوايا الكاميرا لإتمام الفحص في بيئات حقيقية متنوعة، محققًا دقة تزيد عن 90% في التنبؤ بالعلاقات المكانية. تُظهر هذه النتائج تفوق النموذج في تخطيط فحص الروبوتات.
أشار الفريق البحثي إلى أن الخطوة التالية ستكون توسيع هذه الطريقة لتشمل مشاهد ثلاثية الأبعاد أكثر تعقيدًا، مع دمج ردود فعل بصرية نشطة لتحسين الخطط ديناميكيًا، وربط التقنية بالتحكم في الروبوتات لتحقيق نشر فحص مادي مغلق الحلقة، مما سيوفر آفاقًا أوسع لتطبيقات الروبوتات في العالم الحقيقي.














京公网安备 11010802043282号