شركة NTT اليابانية تطرح إطارًا استدلاليًا متعدد الوسائط لتفسير الذكاء الاصطناعي، وتعاون وكلاء الذكاء الاصطناعي لسد فجوة "مصداقية التفسير"
2026-06-03 13:59
المفضلة

أخبار ar.wedoany.com، أعلنت شركة NTT اليابانية مؤخرًا عن تطوير تقنية جديدة للذكاء الاصطناعي التفسيري متعدد الوسائط تُعرف باسم "Rationale-Enhanced Decoding"، تستهدف النماذج الأساسية متعددة الوسائط. تهدف هذه التقنية إلى تعزيز موثوقية مخرجات نماذج اللغة المرئية الكبيرة عند معالجة الصور والنصوص، ومن المقرر عرض البحث ذي الصلة في مؤتمر CVPR 2026 الذي سيعقد في الفترة من 3 إلى 7 يونيو في دنفر بالولايات المتحدة الأمريكية.

تستهدف هذه التقنية مشكلة رئيسية في تطبيقات الذكاء الاصطناعي متعددة الوسائط الحالية: وهي أن الإجابة النهائية التي يولدها النموذج قد لا تستخدم بالضرورة أسس الاستدلال التي أنتجها في الخطوة السابقة. اكتشفت NTT في تجاربها أنه على الرغم من أن نماذج اللغة المرئية الكبيرة الحالية يمكنها أولاً توليد عملية استدلال وسيطة، ثم تقديم إجابة نهائية بناءً على الصور والنصوص ومحتوى الاستدلال، إلا أن النموذج قد يتجاهل أحيانًا محتوى الاستدلال هذا ويعتمد بشكل مباشر على معلومات الصورة لإخراج النتيجة. حتى عندما استبدل الباحثون أسس الاستدلال بمحتوى غير ذي صلة بالسؤال، لا يزال النموذج قادرًا على تقديم نفس الإجابة الأصلية. وهذا يعني أن ما يسمى بـ "سلسلة الأفكار" في بعض السيناريوهات لا يمكن اعتبارها بشكل طبيعي تفسيرًا حقيقيًا، كما يصعب الاعتماد عليها في التطبيقات عالية الموثوقية مثل التصوير الطبي، واتخاذ القرارات المؤسسية، ومراجعة الأعمال الحيوية.

تقنية "Rationale-Enhanced Decoding" التي اقترحتها NTT لا تتطلب إعادة تدريب النموذج، ولا تعتمد على مجموعات بيانات إضافية. تتمثل منهجيتها في فصل التوزيع الاحتمالي في ظل ظروف الإدخال البصري عن التوزيع الاحتمالي في ظل ظروف أسس الاستدلال أثناء مرحلة الاستدلال، ثم توليد الإجابة النهائية من خلال فك التشفير المدمج، مما يجعل المخرجات مقيدة في الوقت نفسه بمعلومات الصورة وأسس الاستدلال.

تحدد خاصية "عدم الحاجة إلى إعادة التدريب" هذه ملاءمتها للتكامل مع نماذج اللغة المرئية الكبيرة الحالية وأنظمة الذكاء الاصطناعي المؤسسية. مع بدء وكلاء الذكاء الاصطناعي في تحمل مهام مثل فهم المستندات، وتحليل الفيديو، والتفتيش الصناعي، والتعاون مع خدمة العملاء، ومراجعة إدارة المخاطر، ودعم القرارات التجارية، لا تحتاج المؤسسات فقط إلى أن يقدم النموذج إجابات، بل تحتاج أيضًا إلى الحكم على ما إذا كانت هذه الإجابات مبنية على سلسلة أدلة قابلة للتتبع والمراجعة. إذا كانت النماذج متعددة الوسائط التقليدية قادرة فقط على تقديم عملية استدلال سطحية، بينما تفتقر الإجابة النهائية إلى قيود الاتساق مع أسس الاستدلال، فإن ذلك سيؤثر على تقسيم المسؤوليات والتحكم في المخاطر للذكاء الاصطناعي في السيناريوهات الحرجة. يدفع بحث NTT هذا القدرة التفسيرية من "عرض الأسباب بعد وقوع الحدث" إلى "الاستخدام الإجباري للأسباب أثناء عملية الاستدلال"، وهو أمر مهم أيضًا للتعاون بين وكلاء الذكاء الاصطناعي، لأنه عندما تعمل أنظمة ذكاء اصطناعي متعددة بشكل تعاوني، يحتاج الوكيل اللاحق إلى فهم سبب اتخاذ الوكيل السابق لقرار معين، ومواصلة تنفيذ المهمة بناءً على نفس الأسس.

ستركز المتغيرات اللاحقة لهذا البحث على التكامل الهندسي والتحقق من التطبيق. إذا تمكنت تقنية "Rationale-Enhanced Decoding" من الحفاظ على تأثير مستقر في المزيد من النماذج متعددة الوسائط، والمزيد من مهام فهم الصور، وأنظمة الوكلاء على مستوى المؤسسات، فإن الذكاء الاصطناعي التفسيري لن يعد مجرد قدرة إضافية على مستوى الامتثال أو التدقيق، بل سيصبح إحدى القدرات الأساسية لدخول الذكاء الاصطناعي متعدد الوسائط إلى العمليات الإنتاجية. بالنسبة لصناعة تكنولوجيا المعلومات والاتصالات، تشير هذه التقنيات أيضًا إلى أن المنافسة في مجال الذكاء الاصطناعي المؤسسي تمتد من حجم النموذج وقدرته على الإجابة، إلى اتساق الاستدلال، ومصداقية التفسير، وموثوقية التعاون عبر الأنظمة.

تم إعداد هذا المقال بواسطة Wedoany. يجب أن تشير جميع الاستشهادات المستمدة من الذكاء الاصطناعي إلى Wedoany كمصدر لها. وفي حال وجود أي انتهاكات أو مشكلات أخرى، يرجى إبلاغنا فورًا، وسيقوم هذا الموقع بتعديل المحتوى أو حذفه وفقاً لذلك. البريد الإلكتروني: news@wedoany.com

المنتجات ذات الصلة
التوصيات ذات الصلة
جامعة كانبيرا الأسترالية توقع مذكرة تعاون ثلاثية مع أومرون في مجال الروبوتات والذكاء الاصطناعي
2026-06-03
جامعة سوينبرن للتكنولوجيا وشركة Geotab تطلقان مركزًا مشتركًا لابتكار النقل
2026-06-03
لأول مرة، معالج "لونغسون" يُستخدم في نظام التحكم الأساسي للصاروخ الصيني "تشانغ تشنغ-12 بي"
2026-06-03
شركة "تي دي تيك" الصينية تطرح حلولاً متكاملة للفضاء والأرض لتعزيز مرونة البنية التحتية الرقمية
2026-06-03
من المتوقع أن يدعم مقبس LGA1954 من إنتل أجيالاً متعددة من المعالجات، بدءًا من Nova Lake وRazor Lake وصولاً إلى البنى اللاحقة، مما يجعله منصة طويلة العمر نادرة لدى إنتل.
2026-06-03
شركة شينشون للإلكترونيات الدقيقة توقع عقدًا للاستقرار في حديقة أويي التكنولوجية بمنطقة نانشا في قوانغتشو
2026-06-03
في عام 2025، تصدرت شركة "يوشو تكنولوجي" قائمة الشحنات العالمية للروبوتات البشرية بـ 5500 وحدة
2026-06-03
شبكة AI WAN الصينية تشكل قاعدة حوسبة، وخسائر الأداء عبر المناطق لا تتجاوز 5%
2026-06-03
إدراج شركة "يوشو تكنولوجي" الصينية في بورصة العلوم والتكنولوجيا (Sci-Tech Innovation Board) يوم 1 يونيو
2026-06-03
CMLink تطلق باقات جديدة لعام 2026 في المملكة المتحدة
2026-06-03
آخر الأخبار القصيرة
1
جامعة كانبيرا الأسترالية توقع مذكرة تعاون ثلاثية مع أومرون في مجال الروبوتات والذكاء الاصطناعي
2
جامعة سوينبرن للتكنولوجيا وشركة Geotab تطلقان مركزًا مشتركًا لابتكار النقل
3
لأول مرة، معالج "لونغسون" يُستخدم في نظام التحكم الأساسي للصاروخ الصيني "تشانغ تشنغ-12 بي"
4
شركة "تي دي تيك" الصينية تطرح حلولاً متكاملة للفضاء والأرض لتعزيز مرونة البنية التحتية الرقمية
5
من المتوقع أن يدعم مقبس LGA1954 من إنتل أجيالاً متعددة من المعالجات، بدءًا من Nova Lake وRazor Lake وصولاً إلى البنى اللاحقة، مما يجعله منصة طويلة العمر نادرة لدى إنتل.
6
شركة شينشون للإلكترونيات الدقيقة توقع عقدًا للاستقرار في حديقة أويي التكنولوجية بمنطقة نانشا في قوانغتشو
7
في عام 2025، تصدرت شركة "يوشو تكنولوجي" قائمة الشحنات العالمية للروبوتات البشرية بـ 5500 وحدة
8
شبكة AI WAN الصينية تشكل قاعدة حوسبة، وخسائر الأداء عبر المناطق لا تتجاوز 5%
9
إدراج شركة "يوشو تكنولوجي" الصينية في بورصة العلوم والتكنولوجيا (Sci-Tech Innovation Board) يوم 1 يونيو
10
الدورة الرابعة والتسعون من معرض CMEF تنعقد في بكين في أكتوبر 2026 بمساحة 200 ألف متر مربع