تم قبول عمل الذكاء المكاني متعدد الوسائط Spatial-TTT من جامعة تسينغهوا الصينية في مؤتمر ECCV 2026، محققًا 64.4 نقطة متجاوزًا Gemini
2026-06-22 14:58
المفضلة

أخبار ar.wedoany.com، تم مؤخرًا قبول عمل الذكاء المكاني متعدد الوسائط Spatial-TTT، الذي يتولى فيه الطالب الدكتوراه في جامعة تسينغهوا ليو فانغفو دور المؤلف الأول بالتعاون مع باحثين آخرين، في المؤتمر الرائد في مجال الرؤية الحاسوبية ECCV 2026. يركز هذا العمل على حل مشكلة الذكاء المكاني التدفقي للنماذج الكبيرة متعددة الوسائط في العالم المادي الحقيقي، أي كيفية قيام النموذج بتكوين وتحديث الذاكرة المكانية باستمرار في تدفق الفيديو المتغير، بدلاً من معالجة كل إدخال كقطعة مستقلة.

تتطلب السيناريوهات الواقعية مثل الملاحة الآلية والقيادة الذاتية والواقع المعزز قدرات تتجاوز بكثير فهم الصور الثابتة. تعاني الطرق التقليدية عند معالجة تدفقات الفيديو الطويلة التي تمتد لعشرات الدقائق أو حتى ساعات من نقص آلية تحديث الذاكرة الفعالة عبر الإنترنت، مما يؤدي إلى تجزئة الفهم المكاني. تم اقتراح Spatial-TTT لمواجهة هذا التحدي، حيث يقدم مفهوم التدريب أثناء الاختبار (TTT) إلى مجال الذكاء المكاني، مما يسمح للنموذج بتحديث معلماته الداخلية أثناء مشاهدة الفيديو أثناء عملية الاستدلال.

صورة توضيحية

لتحقيق ذاكرة مكانية تدفقية فعالة، اقترح فريق البحث ثلاث تقنيات رئيسية. الأولى هي بنية TTT الهجينة، حيث يتم إدراج طبقات TTT وطبقات التثبيت الذاتي القياسية بشكل متناوب بنسبة 3:1 في وحدة فك التشفير، حيث تتولى الأولى كتابة المعلومات بعيدة المدى في الأوزان السريعة، بينما تحافظ الأخيرة على قدرات المحاذاة عبر الوسائط والاستدلال الدلالي للنموذج المُدرّب مسبقًا. الثانية هي آلية التنبؤ المكاني، من خلال إدخال التفاف مكاني-زماني ثلاثي الأبعاد خفيف الوزن في فرع TTT، مما يسمح للنموذج بتعلم علاقات التنبؤ بين السياقات المكانية-الزمانية، مما يعزز استقرار التحديث عبر الإنترنت. الثالثة هي الإشراف الكثيف لوصف المشهد، من خلال بناء بيانات وصف المشهد التي تغطي السياق العام وفئات الكائنات والعلاقات المكانية، لتدريب النموذج على الانتقال من "الإجابة على الأسئلة المحلية" إلى "الحفاظ على ذاكرة ثلاثية الأبعاد شاملة".

صورة توضيحية

صورة توضيحية

فيما يتعلق بالنتائج التجريبية، أظهر Spatial-TTT الذي يمتلك 2 مليار معلمة فقط مزايا ملحوظة في العديد من المعايير المتخصصة للذكاء المكاني. على معيار VSI-Bench، بلغ متوسط درجاته 64.4، متجاوزًا النماذج المغلقة مثل GPT-5 و Gemini-3-pro. على معيار MindCube-Tiny الذي يختبر الاستدلال المكاني متعدد الزوايا ودقيق التفاصيل، حقق Spatial-TTT دقة بلغت 76.2%، متجاوزًا Gemini-3-pro (63.9%) بـ 12 نقطة مئوية، ومتجاوزًا النموذج المكاني مفتوح المصدر الرائد MindCube-3B (51.7%) بنحو 25 نقطة مئوية. في سلسلة مهام VSI-SUPER التي تختبر الذاكرة طويلة المدى، تمكن النموذج من معالجة فيديو تدفقي يصل طوله إلى 120 دقيقة بشكل مستقر. في مهمة VSI-SUPER-Count، بلغت درجات Spatial-TTT على فيديوهات مدتها 10 و 30 و 60 و 120 دقيقة 31.8 و 45.6 و 36.2 و 38.4 على التوالي.

صورة توضيحية

صورة توضيحية

صورة توضيحية

أظهر تحليل الكفاءة أنه في إعداد إدخال 1024 إطارًا، بلغ الحد الأقصى لاستهلاك الذاكرة المرئية لـ Spatial-TTT-2B 11.9 جيجابايت، وبلغت كمية الحساب النظرية 799.4 تيرافلوب، محققًا توفيرًا في الذاكرة والموارد الحسابية يتجاوز 40% مقارنة بالنماذج الأساسية الرائدة في المجال. أكدت تجارب الإزالة أيضًا أن تحسين الأداء ناتج عن التأثير التآزري بين البنية الهجينة وآلية التنبؤ المكاني وإشارات الإشراف الكثيفة. يتجلى ذلك في: إزالة آلية التنبؤ المكاني يؤدي إلى انخفاض متوسط درجة VSI-Bench من 64.4 إلى 62.1؛ إزالة الإشراف الكثيف لوصف المشهد يؤدي إلى انخفاضها إلى 61.3؛ وإذا تمت إزالة البنية الهجينة بالكامل واستخدام بنية TTT النقية فقط، فإن متوسط الدرجة ينخفض مباشرة إلى 53.9.

يوفر هذا البحث المقبول في ECCV 2026 مسارًا تقنيًا جديدًا لأنظمة الذكاء الاصطناعي المادي التي تتطلب تشغيلًا مستمرًا طويل الأمد. من خلال تمكين النموذج من تجميع المعلومات المكانية وتصحيحها واستدعائها باستمرار، لن تواجه العوامل الذكية المستقبلية إطارات منفصلة، بل ستكون قادرة على بناء نموذج عالمي داخلي مستمر وقابل للفهم والعمل ضمنه.

رابط الورقة البحثية: https://arxiv.org/pdf/2603.12255

الصفحة الرئيسية للمشروع: https://liuff19.github.io/Spatial-TTT/

GitHub: https://github.com/THU-SI/Spatial-TTT/

تم إعداد هذا المقال بواسطة Wedoany. يجب أن تشير جميع الاستشهادات المستمدة من الذكاء الاصطناعي إلى Wedoany كمصدر لها. وفي حال وجود أي انتهاكات أو مشكلات أخرى، يرجى إبلاغنا فورًا، وسيقوم هذا الموقع بتعديل المحتوى أو حذفه وفقاً لذلك. البريد الإلكتروني: news@wedoany.com

المنتجات ذات الصلة
التوصيات ذات الصلة
شركة سامسونغ للإلكترونيات الكورية الجنوبية تطلق منتجات تخزين متنقلة من نوع UFS 5.0
2026-06-23
وكيل الذكاء الاصطناعي الصيني "دايوان" لتطبيق وي تشات للأعمال يدخل مرحلة الاختبار الداخلي
2026-06-23
افتتاح أول كلية صناعية للروبوتات الذكية المجسّدة من شركة "يوشو" في مقاطعة جيانغسو بمدينة سوجو
2026-06-23
فيتنام تدفع نحو رقمنة السياحة في هوي، متوقعة إيرادات تبلغ 10.3 تريليون دونج في النصف الأول من عام 2026
2026-06-23
محافظة دونغ ناي تطلق برنامجًا تجريبيًا للتحول الرقمي لأكثر من 105 آلاف أسرة تجارية فردية
2026-06-23
فيتنام تعتمد خطة 2026-2030 لدفع التحول الرقمي لما لا يقل عن 500 ألف مؤسسة
2026-06-23
شركة KDDI اليابانية تتعاون مع NVIDIA وآخرين لبناء شبكة راديو توأمية رقمية
2026-06-23
مشروع KPO البولندي يغطي 314.8 ألف وحدة سكنية
2026-06-23
مشاركة T-Mobile بولندا في مشروع عدادات المياه بتقنية NB-IoT بقيمة 12.8 مليون زلوتي
2026-06-23
إيرادات شركة "نيكسيرا" البولندية تبلغ 152 مليون زلوتي في عام 2025، وتغطي 9 محافظات
2026-06-23
آخر الأخبار القصيرة
1
شركة NileBuilt الأمريكية لتقنيات البناء السكني تعتزم بيع الملكية الفكرية لتقنية البناء المركبة من الجيل الثاني
2
لايسون تقدم حلول عدادات المياه الذكية مسبقة الدفع في معرض زامبيا للمياه
3
شركة "غلف كوست ريبار" الأمريكية تتركب نحو 10 آلاف طن من حديد التسليح وتحصل على جائزة SEAA للمشاريع لعام 2026
4
كارولو إنجينيرز تحصل على عقد إدارة إنشاءات بقيمة 210 ملايين دولار لمحطة مياه في كاليفورنيا
5
رابطة المياه البريطانية تطلق استطلاع أداء شركات المياه والصرف الصحي لعام 2026
6
مجلس مقاطعة ديربيشاير البريطانية يختبر آلة إصلاح الحفر من JCB
7
محكمة العدل العليا في بلنسية تشرع في تركيب هيكل زجاجي ضخم
8
مشروع توسعة مستشفى ألكسندرا الملكي بتكلفة 33 مليون جنيه إسترليني ينطلق في يوليو
9
تجديد سوق مدرسة سان كريستوبال في إسبانيا يعتمد حلول سان جوبان منخفضة الكربون
10
بدء أعمال الإنشاء في مركز "غراند ويست" التجاري في كيب تاون بجنوب أفريقيا باستثمارات تبلغ 650 مليون راند