أخبار ar.wedoany.com، في ظل انتقال النماذج متعددة الوسائط من مرحلة العروض التوضيحية إلى النشر الإنتاجي، خضعت ثلاثة نماذج، وهي Step 3.7 Flash وQwen3.6-flash وMiniMax M3، لاختبارات عملية في سيناريوهات التطوير والأعمال. أظهر تقييم مقارن لمهمتين، هما التعرف على المخططات الانسيابية واستخراج بيانات الفواتير، أن جودة الفهم البصري والإخراج المنظم للنماذج الثلاثة كانت مستقرة نسبيًا، مع وجود اختلافات في سرعة الاستجابة واستهلاك الرموز (Tokens).
ركز التقييم على ثلاثة أبعاد: الجودة والسرعة والتكلفة، وتم اختيار نوعين من السيناريوهات الصناعية: الأول هو إعادة بناء منطق الأعمال بناءً على المخطط الانسيابي للنظام أثناء تطوير الوكلاء (Agent)، والثاني هو الاستخراج المنظم لمعلومات الفاتورة الإلكترونية عبر استدعاء واجهة برمجة التطبيقات (API) في نظام الأعمال. أظهرت الاختبارات أن النماذج الثلاثة لم تسجل أي أخطاء جسيمة في التعرف على المهمتين، وأن مخرجاتها كانت ذات قابلية استخدام عالية.
في سيناريو فهم المخطط الانسيابي، كان على النموذج استخراج منطق الأعمال المكون من 10 خطوات بدقة من مخطط انسيابي لتسجيل الدخول والمصادقة في تطبيق WeChat الصغير. تمكن نموذج Step 3.7 Flash من التعرف الكامل على 10 خطوات، وكانت كل خطوة متطابقة تمامًا مع المخطط الأصلي. كما قام نموذج MiniMax M3 بإخراج 10 خطوات مع صحة المنطق. أما نموذج Qwen3.6-flash فقد دمج الخطوتين 3 و4، وأخرج 9 خطوات، لكن المنطق العام كان صحيحًا. مع تكافؤ جودة المخرجات، كان نموذج Step 3.7 Flash الأسرع في الاستجابة والأقل في استهلاك الرموز.
في اختبار آخر موجه لأنظمة الأعمال، كان على النموذج إخراج الحقول الرئيسية من فاتورة إلكترونية وفق هيكل JSON محدد مسبقًا. تمكنت النماذج الثلاثة من التعرف بدقة على المعلومات المطلوبة وإخراجها بشكل منظم. استغرق نموذج Step 3.7 Flash 5.6 ثانية لإكمال المهمة، واستهلك 1409 رمزًا (Token)؛ بينما استغرق نموذج MiniMax M3 6.1 ثانية واستهلك 2216 رمزًا؛ واستغرق نموذج Qwen3.6-flash 7.38 ثانية واستهلك 2008 رمزًا. كانت تكلفة الاستخراج المنظم لفاتورة واحدة أقل من 1 سنت صيني.
بدمج نتائج الاختبارين، يتضح أن استقرار جودة الفهم البصري والإخراج المنظم للنماذج الثلاثة يفي بالمتطلبات الأولية للإنتاج، دون تسجيل أي حالات استخراج خاطئ. بالنسبة لسيناريوهات الاستدعاء المتكرر للوكلاء (Agent) أو واجهات برمجة تطبيقات الأعمال، يصبح زمن الاستجابة واستهلاك الرموز مؤشرين رئيسيين للتمييز. في هذه المقارنة، أظهر نموذج Step 3.7 Flash، مع الحفاظ على نفس جودة المخرجات، سرعة استجابة أعلى وتكلفة أقل، مما يجعله أكثر ملاءمة للاختبار في بيئات الإنتاج كأولوية.










