تحسين أداء Qwen-AgentWorld من علي بابا الصينية في سبعة معايير قياسية
2026-06-25 10:16
المفضلة

أخبار ar.wedoany.com، أصدر فريق Qwen التابع لشركة علي بابا نموذج Qwen-AgentWorld، الذي يتضمن نموذجين، لا يُستخدمان لتنفيذ إجراءات في بيئات الوكلاء، بل للتنبؤ بالنتائج التي تعيدها هذه البيئات، ويغطيان سبعة مجالات: MCP، والبحث، والمحطة الطرفية، وهندسة البرمجيات، وAndroid، والويب، وأنظمة التشغيل.

يأتي هذا الإصدار استمرارًا لاستثمارات علي بابا الأخيرة في الوكلاء المستقلين، حيث تم بناء Qwen3.7-Max الذي صدر في مايو حول قدرة التنفيذ الذاتي لمدة 35 ساعة. وأشار الفريق إلى أن العقبة الأساسية التي تواجه تدريب الوكلاء على نطاق واسع تكمن في قيود التدريب في البيئات الحقيقية: فمحركات البحث لا تسمح بحقن ظروف خاضعة للرقابة، والمحطات الطرفية في الوقت الفعلي لا تسمح بمحاكاة حالات الحافة مثل انخفاض مساحة القرص عند الطلب، مما يجعل من الصعب تعريض الوكلاء بشكل منهجي للسيناريوهات النادرة.

قام فريق البحث بتدريب الوكلاء في أجهزة محاكاة مولدة، ووجد أن أداءهم تحسن بشكل يتجاوز التدريب القائم على البيئات الحقيقية فقط. في اختبار آخر، تم استخدام تدريب النموذج العالمي كخطوة تسخين قبل الضبط الدقيق للوكيل، مما أدى إلى تحسين الأداء في جميع المعايير السبعة، ثلاثة منها لم يرها النموذج مطلقًا أثناء التدريب. وأشارت الورقة البحثية المصاحبة إلى أن النمذجة العالمية هي عنصر أساسي لتحقيق وكيل عام.

على عكس نماذج الوكلاء التقليدية التي تعمل على تحسين اختيار الإجراءات، تم تدريب Qwen-AgentWorld للإجابة على السؤال المعاكس: بالنظر إلى الإجراء الذي نفذه الوكيل للتو، ما الذي ستعرضه البيئة بعد ذلك؟ تصف الورقة هذه الطريقة باسم "نموذج اللغة العالمي"، حيث يتعلم النموذج تحت هدف تدريبي واحد التنبؤ بحالة البيئة التالية في جميع المجالات السبعة. كانت الأبحاث السابقة ذات الصلة أضيق نطاقًا، مثل WebWorld الذي أصدرته Qwen في فبراير والذي غطى بيئة الويب فقط؛ وAgent World Model الذي أصدرته Snowflake في نفس الشهر والذي أنشأ بيئة SQL مدفوعة بالكود بدلاً من تدريب النموذج على التنبؤ بالحالات. Qwen-AgentWorld هو أول نموذج يعبر سبعة مجالات في نموذج واحد ويدمج النمذجة البيئية منذ مرحلة ما قبل التدريب المبكرة.

استخدمت عملية التدريب أكثر من عشرة ملايين مسار تفاعل بيئي من عمليات الوكلاء الحقيقية، مقسمة إلى ثلاث مراحل: المرحلة الأولى تعلم النموذج كيفية عمل البيئة، بما في ذلك نظام الملفات، وحالة المحطة الطرفية، وتغييرات DOM في المتصفح، واستجابات API؛ المرحلة الثانية تدرب النموذج على التفكير في الحالة اللاحقة قبل التنبؤ؛ المرحلة الثالثة تستخدم التعلم المعزز، مع فحوصات قائمة على القواعد وتقييم مفتوح الجودة لتشديد التنبؤات. يستخدم كلا النموذجين تصميم الخبراء المختلطين، حيث يتم تنشيط جزء صغير فقط من المعلمات لكل رمز مميز. ينشط نموذج 35B معلمات 3B، وينشط 397B معلمات 17B، وكلاهما يدعم نافذة سياقية بحجم 256K. بالنسبة لمجالات واجهة المستخدم الرسومية (Android والويب وأنظمة التشغيل)، يعمل النموذج من شجرة إمكانية الوصول النصية وهياكل عرض واجهة المستخدم، وليس من لقطات الشاشة. أوزان نموذج 35B وAgentWorldBench متاحة تحت ترخيص Apache 2.0؛ أوزان 397B لم تُنشر بعد للجمهور.

تظهر درجات المعايير دقة تنبؤ النموذج لمحتوى إرجاع البيئة، لكن نتائج التدريب كشفت عن القيمة العملية لهذه القدرة التنبؤية لبناء فرق الوكلاء، وهذه الأرقام أكثر أهمية. وفقًا للباحثين، تفوق أداء الوكلاء المدربين في المحاكاة الخاضعة للرقابة على أداء الوكلاء المدربين في البيئات الحقيقية. أدى حقن الاضطرابات الموجهة إلى رفع MCPMark من 24.6 إلى 33.8. في مهام البحث، انتقل الوكلاء المدربون في عوالم خيالية بالكامل إلى مهام البحث الحقيقية، مما رفع WideSearch F1 Item على نموذج 35B مفتوح المصدر من 34.02 إلى 50.31. أظهر اختبار التسخين أن التدريب المسبق للنموذج العالمي رفع BFCL v4 من 62.29 إلى 71.25، ورفع Claw-Eval من 53.60 إلى 64.88، دون الحاجة إلى أي ضبط دقيق خاص بالوكيل.

عالم Qwen

أثار نشر الورقة نقاشًا بين باحثي الذكاء الاصطناعي. يرى البعض أن Qwen عكست المشكلة الأساسية، حيث دربت النموذج على التنبؤ بالبيئة نفسها، ثم انتقلت هذه المعرفة التنبؤية إلى مهام الوكيل، حتى بدون ضبط دقيق خاص بالوكيل. كما أشار باحثون آخرون إلى أن AgentWorldBench هو معيار بنته وأصدرته علي بابا في نفس الورقة، وتفوق نموذجها بفارق 0.46 في الاختبار، مما قد يثير تساؤلات حول استقلالية معايير التقييم. المشكلة التقليدية لطريقة RL القائمة على المحاكاة هي أن الوكلاء يميلون إلى الإفراط في التكيف مع خصائص جهاز المحاكاة، فإذا كان النموذج العالمي نظيفًا جدًا، فإن الوكيل يتعلم النموذج بدلاً من المهمة. تعالج نتائج التقسيم المحجوز وبيانات الورقة جزئيًا هذه المخاوف، حيث تشير نتائج البحث في العوالم الخيالية إلى أن الوكلاء المدربين في هذه البيئات يمكنهم الانتقال إلى مهام البحث الحقيقية.

بالنسبة للفرق التي تبني وتوسع خطوط أنابيب الوكلاء، يقدم هذا العمل خيارًا ثالثًا: محاكاة خاضعة للرقابة تحقن حالات حافة لا تظهر في بيئات الإنتاج. البيئات الاصطناعية هي طبقة تدريب مشروعة، ومكملة لـ RL في البيئات الحقيقية، وليست اختصارًا لتجاوزها. إن تأسيس البيئة قبل تدريب الوكيل يعمل في وقت أبكر من معظم الممارسات الحالية أثناء عملية التطوير، ويمكنه تحسين أداء معايير متعددة دون الحاجة إلى تدريب خاص بالوكيل، وما يتعلمه النموذج قبل التدريب أهم بكثير مما تأخذه معظم خطوط الأنابيب في الاعتبار.

تم إعداد هذا المقال بواسطة Wedoany. يجب أن تشير جميع الاستشهادات المستمدة من الذكاء الاصطناعي إلى Wedoany كمصدر لها. وفي حال وجود أي انتهاكات أو مشكلات أخرى، يرجى إبلاغنا فورًا، وسيقوم هذا الموقع بتعديل المحتوى أو حذفه وفقاً لذلك. البريد الإلكتروني: news@wedoany.com

المنتجات ذات الصلة
التوصيات ذات الصلة
شركة "تشانغديان للتكنولوجيا" الصينية تستثمر 7.8 مليار يوان لبناء مصنع متطور للتغليف والاختبار في لينقانغ بشانغهاي
2026-06-26
شركة "وودونغ دونغلي" الصينية تُتم جولة تمويل أولية بقيمة تتجاوز 200 مليون دولار أمريكي
2026-06-26
شركة Microchip الأمريكية تطلق مولد ساعة سداسي المخرجات مقاوم للإشعاع
2026-06-26
شركة "موبيلتك" الكورية تجمع تمويلاً يتجاوز 42 مليار وون كوري، مع تركيز على التوأم الرقمي
2026-06-26
شركة "كيزايت تكنولوجيز" الأمريكية تستحوذ على "VPIphotonics" لتوسيع نطاق أتمتة التصميم الضوئي
2026-06-26
شركة Wisenut الكورية الجنوبية تفوز بمشروع منصة الذكاء الاصطناعي لصالح KEIS بقيمة 2.8 مليار وون
2026-06-26
منصة المراقبة الأمريكية للذكاء الاصطناعي "Sazabi" تحصل على تمويل أولي بقيمة 8 ملايين دولار
2026-06-26
شركة سوبر كور للذكاء الاصطناعي السنغافورية تقترح إنشاء مجمع حوسبة للذكاء الاصطناعي بقدرة 1 جيجاواط في كازاخستان
2026-06-26
شركة "علي بابا كلاود" الصينية تطلق نموذج الفيديو بالذكاء الاصطناعي "HappyHorse 1.1"، محتلاً المرتبة الثانية عالمياً في تقييم نماذج الفيديو بالذكاء الاصطناعي
2026-06-26
شركة جيو الهندية تخطط لإطلاق مساعد صوتي مجاني بالذكاء الاصطناعي بحلول نهاية العام
2026-06-26
آخر الأخبار القصيرة
1
شركة TomaGold تطلق مسح AMT في منجم Berrigan بمقاطعة كيبيك الكندية
2
مجموعة بايين الصينية للفضة تعزز كفاءة التنسيق في سلسلة صناعة النحاس بنسبة 60% عبر تمكين الحزب الشيوعي
3
مسؤولون في PLDT الفلبينية يناقشون التعاون في النظام البيئي للاتصالات في مؤتمر ATxEnterprise 2026
4
شركة "سوسومانزولوتو" الروسية تستحوذ على منطقة "ليغليختاخسك" للتعدين باحتياطي ذهب يبلغ 950 كجم
5
الهند والولايات المتحدة تعقدان اجتماعًا مائدة مستديرة في واشنطن لتعزيز التعاون في مجال الذكاء الاصطناعي والرقائق
6
شركة ITSEC Asia تطلق الحملة الوطنية للأمن السيبراني في شرق إندونيسيا
7
شركة "بايكالرود" الروسية تخطط لبدء تشغيل منجم سطحي بطاقة إنتاجية 3.5 مليون طن سنويًا في أكتوبر 2028
8
أسعار الألومنيوم في بورصة لندن للمعادن تهوي إلى أدنى مستوى في ثلاثة أشهر
9
شركة التعدين الهندية NMDC تستثمر 7.55 مليار روبية لرفع طاقتها الإنتاجية إلى 17 مليون طن سنويًا
10
إثيوبيا تطلق تطبيق MESOB الشامل لتغطية 185 خدمة حكومية