أخبار ar.wedoany.com، أطلق باحثو شركة شاومي إطار عمل HarnessX، الذي يهدف إلى معالجة عنق الزجاجة الهندسي المتمثل في محدودية أداء وكلاء الذكاء الاصطناعي في المؤسسات بسبب "الحامل" (harness). يعالج هذا الإطار حامل الذكاء الاصطناعي ككائنات قابلة للتجميع، ويقوم بشكل مستقل بتحسين شفرتها البرمجية، مما يعزز أداء أنظمة الذكاء الاصطناعي في مجالات مثل هندسة البرمجيات والتفاعل مع صفحات الويب.
حاليًا، معظم حوامل تطبيقات الذكاء الاصطناعي ثابتة ومصنوعة يدويًا، وتفتقر إلى القدرة على التحسين الذاتي بناءً على بيانات التنفيذ، مما يشكل عائقًا رئيسيًا أمام قدرة وكلاء الذكاء الاصطناعي على إنجاز المهام المعقدة طويلة الأمد. يواجه تطوير الحوامل التقليدية ثلاثة تحديات رئيسية: أولاً، كونها ثابتة وتتطلب إعادة كتابة يدوية؛ ثانيًا، تشابك البنية مما يؤدي إلى أن تعديل أحد المكونات قد يؤثر سلبًا على أجزاء أخرى؛ ثالثًا، التحسين المنعزل للحامل والنموذج الأساسي، حيث غالبًا ما يتم التخلص من مسارات التنفيذ.
يعالج HarnessX عنق الزجاجة المذكور من خلال "مسبك الحوامل الموحد". يتمثل ابتكاره الأساسي في اعتبار الحامل "كائنًا من الدرجة الأولى"، أي كيانًا مستقلاً قابلاً للتسلسل، معياريًا وقابلاً للاستبدال، مما يفصل تكوين النموذج عن تكوين الحامل. تقوم هذه المنهجية بتفكيك سلوك الوكيل إلى مكونات مثل تجميع السياق، إدارة الذاكرة، نظام الأدوات، تدفق التحكم، وقابلية المراقبة، حيث يعمل كل سلوك كـ "معالج" يتم إدراجه في خطافات دورة حياة الحامل.

لأتمتة تحسين البنية المعيارية، يقدم HarnessX محرك AEGIS، وهو محرك تطوري مدفوع بمسارات التنفيذ. يعالج هذا المحرك مسألة تكييف الحامل كمسألة تعلم معزز، ولمواجهة الظواهر المرضية مثل اختراق المكافآت، النسيان الكارثي، وعدم كفاية الاستكشاف، صمم خط أنابيب من أربع مراحل يشمل: جهاز الهضم، المخطط، المطور، والناقد مع البوابة. يقوم جهاز الهضم بضغط مسارات التنفيذ إلى ملخصات منظمة، ويحلل المخطط هذه الملخصات لاستكشاف التغييرات الهيكلية، ويولد المطور تعديلات واختبارات على مستوى الشيفرة، بينما يعمل الناقد مع البوابة على منع اختراق المكافآت والنسيان الكارثي.

يحقق HarnessX أيضًا تطورًا مشتركًا للحامل والنموذج. فمن خلال خوارزمية GRPO (تحسين السياسة النسبي الجماعي) عبر الحوامل، يقوم بتجميع مسارات التنفيذ المولدة على إصدارات مختلفة من الحوامل كإشارات تعلم معزز للنموذج، مما يمكن النموذج من استيعاب استراتيجيات متقدمة مثل استخدام أدوات جديدة.

تم إجراء الاختبارات العملية على خمسة معايير قياسية، تغطي هندسة البرمجيات، حوار خدمة العملاء متعدد الجولات، التنقل في صفحات الويب، الاستدلال متعدد الخطوات مفتوح النهاية، والتخطيط التجسيدي. في الاختبارات، كان الوكيل الفوقي (Meta-agent) المدعوم من Claude Opus 4.6 مسؤولاً عن تحليل السجلات وكتابة الشيفرة، بينما تولى وكلاء المهام أدوارهم بواسطة Claude Sonnet 4.6 وGPT-5.4 ونموذج الأوزان مفتوحة المصدر Qwen3.5-9B. أظهرت النتائج أن الحوامل التطورية الديناميكية حسنت الأداء في 14 من أصل 15 مجموعة نموذج-معيار، محققة زيادة مطلقة في الأداء بمتوسط +14.5%. كان النموذج الأضعف مفتوح المصدر Qwen3.5-9B هو الأكثر استفادة، حيث قفز أداؤه في معيار التخطيط التجسيدي ALFWorld بنسبة +44.0%، وفي معيار هندسة البرمجيات SWE-bench Verified بنسبة +18.2%. عند استخدام البيانات المولدة بواسطة الحوامل التطورية لتدريب النموذج الأساسي، تحقق زيادة إضافية في الأداء بمتوسط +4.7%.

يعتمد HarnessX حاليًا على نماذج أمامية مغلقة وقوية (مثل Claude Opus) كوكيل فوقي لإعادة كتابة شيفرة الحامل، ولا تزال قدرة نماذج الأوزان مفتوحة المصدر على العمل كوكلاء فوقيين بحاجة إلى اختبار. بالإضافة إلى ذلك، إذا كان النموذج الأساسي نفسه غير قادر على تنفيذ سير عمل معقد، فلن يتمكن الإطار من رفع القدرة الإجمالية. على الرغم من ذلك، يخطط الباحثون لإصدار الشيفرة البرمجية في تحديث مستقبلي، ويقدم HarnessX للممارسين نهجًا جديدًا يركز على تحسين هندسة الحامل بدلاً من مجرد توسيع النموذج.
تم إعداد هذا المقال بواسطة Wedoany. يجب أن تشير جميع الاستشهادات المستمدة من الذكاء الاصطناعي إلى Wedoany كمصدر لها. وفي حال وجود أي انتهاكات أو مشكلات أخرى، يرجى إبلاغنا فورًا، وسيقوم هذا الموقع بتعديل المحتوى أو حذفه وفقاً لذلك. البريد الإلكتروني: news@wedoany.com









