شركة NTT اليابانية تطلق إطارًا استدلاليًا متعدد الوسائط وقابلًا للتفسير للذكاء الاصطناعي، ونماذج اللغة البصرية تدخل مرحلة معايرة المخرجات الموثوقةالأخبار القصيرة العالمية

شركة NTT اليابانية تطلق إطارًا استدلاليًا متعدد الوسائط وقابلًا للتفسير للذكاء الاصطناعي، ونماذج اللغة البصرية تدخل مرحلة معايرة المخرجات الموثوقة

2026-06-02 16:46

المفضلة

أخبار ar.wedoany.com، أعلنت شركة NTT اليابانية مؤخرًا عن إنشاء إطار استدلالي متعدد الوسائط وقابل للتفسير للذكاء الاصطناعي يُعرف باسم "Rationale-Enhanced Decoding"، والذي يستهدف مشكلة موثوقية المخرجات في نماذج اللغة البصرية الكبيرة أثناء الاستدلال المشترك بين الصور والنصوص، بهدف تحسين الاتساق بين الإجابة النهائية للنموذج وأساس الاستدلال. سيتم عرض هذا الإنجاز في مؤتمر CVPR 2026 الذي سيعقد في الفترة من 3 إلى 7 يونيو في دنفر بالولايات المتحدة، مع توجيه التطبيقات نحو سيناريوهات مثل اتخاذ القرارات المؤسسية، والتعاون بين وكلاء الذكاء الاصطناعي، وفهم المستندات، والإجابة على الأسئلة البصرية، والتفاعل البشري الآلي عالي الموثوقية.

تتجه نماذج اللغة البصرية الكبيرة من مجرد "الإجابة بناءً على رؤية الصور" إلى استدلال متعدد الوسائط أكثر تعقيدًا، حيث أصبحت قادرة على معالجة الصور والنصوص والجداول ولقطات الشاشة ومقاطع الفيديو والمستندات التجارية في وقت واحد، ودخلت تدريجيًا مرحلة التجارب والنشر في مجالات مثل التفتيش الصناعي، والتصوير الطبي، ومراجعة العقود، والصيانة عن بُعد، وخدمة العملاء الذكية، وإدارة المعرفة المؤسسية. لكن المشكلة الرئيسية في هذه النماذج تكمن في أن عملية الاستدلال الوسيطة التي تولدها لا تؤثر بالضرورة على الإجابة النهائية. أشارت NTT في بحثها إلى أن طرق سلسلة التفكير متعددة الوسائط التقليدية تقوم أولاً بتوليد تفسير أو أساس استدلال، ثم إدخال هذه المحتويات مع الصورة الأصلية إلى النموذج لتوليد الإجابة النهائية؛ ظاهريًا، يقدم النموذج "سببًا"، لكن المخرجات الفعلية قد تظل تعتمد بشكل أساسي على ميزات الصورة، بل وحتى عند استبدال أساس الاستدلال بمحتوى غير ذي صلة، قد يظل النموذج يعطي الإجابة نفسها. وهذا يعني أن ما يسمى بالتفسير قد يكون مجرد نص إضافي، ولا يمكن إثبات أن النموذج قد أكمل الحكم وفقًا لهذا التفسير. بالنسبة لأنظمة الذكاء الاصطناعي المؤسسية التي تتطلب التدقيق والمساءلة والمراجعة، فإن هذا يضعف مصداقية الذكاء الاصطناعي متعدد الوسائط في الأعمال الحيوية، ويحد أيضًا من دخول نماذج اللغة البصرية إلى سيناريوهات عالية الموثوقية مثل التشخيص الطبي، والتحكم في المخاطر المالية، وفحص الجودة في التصنيع، وعمليات المكاتب المعقدة.

لا يتطلب الحل الذي تقدمه NTT إعادة تدريب النموذج، ولا يعتمد على مجموعات بيانات إضافية، بل يعيد تنظيم طريقة توليد المخرجات في مرحلة الاستدلال.

يقوم هذا الإطار بتشكيل توزيعات شرطية منفصلة للمدخلات البصرية وأساس الاستدلال، ثم يكمل التنبؤ بالكلمة التالية من خلال الدمج، مما يجعل النموذج مقيدًا في نفس الوقت بمعلومات الصورة وأساس الاستدلال عند توليد الإجابة. بعبارة أخرى، يجب أن تكون الإجابة النهائية متسقة مع كل من المحتوى البصري وأساس الاستدلال، بدلاً من التعامل مع النص التفسيري كمحتوى ثانوي اختياري. تصف NTT هذه الطريقة بأنها تقنية فك ترميز قابلة للتوصيل والتشغيل، ويمكن دمجها في نماذج اللغة البصرية الكبيرة الحالية، مما يقلل من تكاليف الحوسبة والبيانات والنشر الناتجة عن التدريب الإضافي. أظهرت نتائج البحث أن هذه الطريقة يمكنها تحسين دقة الإجابة ودرجة التزام أساس الاستدلال في مجموعة متنوعة من نماذج اللغة البصرية؛ وعند إدخال أساس استدلال عالي الجودة، يتعزز تأثير الإطار بشكل أكبر. بالنسبة لتطبيق الذكاء الاصطناعي في المؤسسات، تكمن قيمة هذا النوع من المسارات التقنية في الانتقال من "قدرة النموذج على الإجابة" إلى "إمكانية تفسير الإجابة والتحقق منها ومراجعتها"، مما يوفر قاعدة استدلال أكثر استقرارًا للتعاون بين الوكلاء المتعددين، ومعالجة المستندات المعقدة، وتحليل المشاهد البصرية، واتخاذ القرارات المساعدة.

ترتفع الأهمية الصناعية للذكاء الاصطناعي متعدد الوسائط القابل للتفسير. مع انتقال وكلاء الذكاء الاصطناعي من الأسئلة والأجوبة الفردية إلى تنفيذ المهام المتسلسلة، يقوم النظام بنقل نتائج الحكم بشكل متكرر بين التعرف على الصور، وفهم المستندات، والاسترجاع، والتخطيط، واستدعاء الأدوات. وبمجرد أن ينفصل السبب الذي يقدمه نموذج اللغة البصري الأمامي عن الإجابة، قد تستمر سلسلة الوكلاء اللاحقة في التوسع بناءً على أساس خاطئ. يركز إنجاز NTT هذه المرة على الحلقة الأساسية المتمثلة في "ما إذا كان أساس الاستدلال يشارك حقًا في توليد الإجابة"، مما يساعد على تحسين مصداقية المعلومات أثناء التعاون بين أنظمة الذكاء الاصطناعي. إذا تم التحقق من استقرار هذا الإطار في المزيد من النماذج والمهام والبيانات التجارية الحقيقية في المستقبل، فمن المتوقع أن يدخل طبقة الاستدلال في منصات الذكاء الاصطناعي المؤسسية، وأنظمة المكاتب الذكية، والنماذج الكبيرة الخاصة بالصناعات، وأدوات التحليل البصري عالية الموثوقية، ليصبح مكونًا تقنيًا مهمًا لانتقال الذكاء الاصطناعي متعدد الوسائط من العرض التوضيحي إلى النشر الإنتاجي.

تم إعداد هذا المقال بواسطة Wedoany. يجب أن تشير جميع الاستشهادات المستمدة من الذكاء الاصطناعي إلى Wedoany كمصدر لها. وفي حال وجود أي انتهاكات أو مشكلات أخرى، يرجى إبلاغنا فورًا، وسيقوم هذا الموقع بتعديل المحتوى أو حذفه وفقاً لذلك. البريد الإلكتروني: news@wedoany.com

اليابان

تم تجميع هذه الأخبار القصيرة وإعادة نشرها من للمعلومات من الإنترنت العالمي والشركاء الاستراتيجيين، وهي مخصصة فقط للقراء للتواصل، إذا كان هناك أي انتهاكات أو مشاكل أخرى، فيرجى إبلاغنا في الوقت المناسب، وسنقوم بتعديلها أو حذفها. يُمنع منعًا باتًا إعادة نشر هذه المقالة دون إذن رسمي. البريد الإلكتروني: news@wedoany.com