أخبار ar.wedoany.com، حققت أكاديمية أبحاث الذكاء الاصطناعي التابعة لشركة "فايبو كوميونيكيشن" تقدمًا محوريًا في مجال الذكاء المجسّد، حيث تمكن إطار عملها الذاتي التطوير "FiboVLA" وتقنيات تحسين الاستدلال الطرفي من رفع متوسط سرعة الاستدلال لعدة نماذج رئيسية من نماذج VLA بمقدار 2.6 ضعفًا، كما تم إتمام نشر نموذج GR00T N1.5 على منصة تحكم رئيسية عالية القدرة الحاسوبية على الحافة. وقد تم التحقق من صحة النتائج ذات الصلة من خلال مجموعة بيانات LIBERO القياسية للمحاكاة وبيئة التحقق على روبوت ثنائي الذراع حقيقي على طاولة العمل، مما يوفر دعمًا هندسيًا للتشغيل الفعال لنماذج الذكاء المجسّد على الجانب الطرفي للروبوتات.
نموذج VLA (نموذج الرؤية-اللغة-الفعل) هو تقنية رئيسية في الذكاء المجسّد، حيث يدمج المدخلات البصرية والتعليمات اللغوية مع توليد الأفعال، مما يمكن الروبوت من إنتاج أفعال بناءً على البيئة المحيطة وتعليمات المهام. مع الزيادة الهائلة في عدد معاملات نماذج VLA، تواجه الروبوتات عنق زجاجة في الاستدلال في الوقت الفعلي على الجانب الطرفي. تؤثر سرعة الاستدلال بشكل مباشر على استجابة الروبوت للأفعال، وتسلسل المهام، وسلاسة التشغيل. بالإضافة إلى ذلك، تخضع الروبوتات لقيود متعددة مثل القدرة الحاسوبية، واستهلاك الطاقة، وتبديد الحرارة، وموارد النظام. لذا، أصبحت كيفية تشغيل نماذج VLA المعقدة بشكل مستقر وفعال على وحدات التحكم الرئيسية عالية القدرة الحاسوبية على الجانب الطرفي قضية رئيسية في عملية تطبيق الذكاء المجسّد على أرض الواقع.
لمعالجة مشكلة الحمل العالي للاستدلال الطرفي لنماذج VLA، اعتمدت أكاديمية أبحاث الذكاء الاصطناعي لشركة "فايبو كوميونيكيشن" إطار الضغط الذاتي التطوير "FiboVLA"، الذي يقوم بتحسين على مستوى الرموز (Token) من الطبقة الدلالية للنموذج. أثناء عملية استدلال VLA، توجد كمية كبيرة من التمثيلات الزائدة عن الحاجة في المعلومات البصرية واللغوية. يقوم إطار FiboVLA، من خلال الفحص والضغط الدقيقين للرموز البصرية، باستبعاد المعلومات منخفضة القيمة والاحتفاظ بالمحتوى الرئيسي المرتبط ارتباطًا وثيقًا بفهم المهام، وتقييم البيئة، وتوليد الأفعال. يقلل هذا الإطار من الحسابات غير الفعالة أثناء عملية الاستدلال، ويخفض بشكل كبير الحمل الحسابي مع الحفاظ على دقة اتخاذ القرار للنموذج، وقدرته على الفهم عبر الوسائط المتعددة، وقدرته على توليد الأفعال. في الوقت نفسه، قام الفريق بدمج جدولة سلسلة الاستدلال مع تحسين محرك الاستدلال الطرفي لزيادة تعزيز كفاءة تشغيل النموذج على الجانب الطرفي للروبوت. تم التحقق من أن هذا الإطار لا يعتمد على بنية نموذجية محددة، وقد تم التحقق من فعاليته على عدة نماذج VLA رئيسية ومتقدمة، مما أدى إلى زيادة إنتاجية الاستدلال بمقدار 2.6 ضعفًا وضغط زمن الاستجابة من البداية إلى النهاية بشكل فعال.
بناءً على إطار عمل FiboVLA وتقنيات تحسين الاستدلال الطرفي، نجحت أكاديمية أبحاث الذكاء الاصطناعي لشركة "فايبو كوميونيكيشن" في نشر نموذج GR00T N1.5 على منصة تحكم رئيسية عالية القدرة الحاسوبية على الحافة، وأكملت التحقق من تشغيله. في مجموعة بيانات LIBERO القياسية للمحاكاة، ضمن هذا الإطار فعالية المهمة بعد تسريع الاستدلال؛ وفي البيئة المادية الحقيقية، تم أيضًا إكمال التحقق من تشغيل نموذج GR00T N1.5 على روبوت حقيقي في سيناريو روبوت ثنائي الذراع على طاولة العمل. وهذا يعني أن الروبوت يمكنه إكمال الإدراك واتخاذ القرار وتوليد الأفعال بشكل أسرع على الجانب الطرفي، مما يشكل حلقة استدلال مستمرة ومنخفضة زمن الاستجابة. هذا ليس مجرد تحسين في سرعة النموذج، بل هو أيضًا إكمال للتحقق الهندسي على منصة روبوت حقيقية.
إن التطبيق الناجح لإطار عمل FiboVLA يعزز بشكل أكبر القدرات الأساسية لأكاديمية أبحاث الذكاء الاصطناعي لشركة "فايبو كوميونيكيشن" في اتجاه الذكاء الاصطناعي الطرفي والذكاء المجسّد، بما في ذلك ضغط النماذج، وتحسين محرك الاستدلال، والتحقق من منصات الروبوتات، وقدرات التنسيق بين الأنظمة. في ظل الاتجاه الصناعي المتسارع لتطور الذكاء المجسّد، ستواصل شركة "فايبو كوميونيكيشن" الجمع بين قدرات الاتصالات اللاسلكية، والقدرة الحاسوبية على الحافة، وسلسلة أدوات الذكاء الاصطناعي، ومنصة Fibot، لمساعدة الروبوتات ومختلف الأجهزة الذكية الطرفية على الحصول على ذكاء محلي أكثر كفاءة واستقرارًا، مما يوفر أساسًا هندسيًا لدخول الذكاء المجسّد إلى تشغيل الأنظمة الحقيقية.









