معهد RDI بجامعة بيركلي يطلق اختبارًا للوكلاء الذكيين، GPT-5.5 يتصدر بنسبة نجاح 24%الأخبار القصيرة العالمية

معهد RDI بجامعة بيركلي يطلق اختبارًا للوكلاء الذكيين، GPT-5.5 يتصدر بنسبة نجاح 24%

2026-06-11 09:10

المفضلة

أخبار ar.wedoany.com، أطلق باحثون في مركز الذكاء المسؤول واللامركزي (RDI) بجامعة كاليفورنيا في بيركلي، بالتعاون مع مجلس استشاري يضم أكثر من 300 خبير متخصص، "الاختبار النهائي للوكلاء" (Agents’ Last Exam - ALE). وهو معيار تقييم جديد يهدف إلى قياس مدى قدرة الذكاء الاصطناعي على تنفيذ مهام سير عمل مهنية طويلة الأمد وذات قيمة اقتصادية.

على قائمة تصنيف ALE، احتل نموذج GPT-5.5 الذي أصدرته OpenAI في أبريل، والذي يعمل عبر أداة Codex، المركز الأول بنسبة نجاح بلغت 24.0%. وجاء نموذج Claude Fable 5 من المستوى الأسطوري (Mythos) الذي أصدرته Anthropic في المركز الثالث بنسبة 22.0%. لا يختبر ALE قدرة النماذج على حل مسائل برمجية منعزلة، بل يهدف إلى تضييق الفجوة بين الضجة الإعلامية حول المعايير الأكاديمية والتأثير الفعلي على سوق العمل. تشير البيانات الحالية إلى أن أكثر النماذج تقدمًا في العالم تفشل بشكل أساسي في اجتياز هذا الاختبار.

مخطط كامل لترتيب ALE

قائمة تصنيف ALE

شهد هيكل تقييم ALE والمتطلبات المفروضة على الوكلاء تحولًا جذريًا. تاريخيًا، اعتمدت معايير تقييم الذكاء الاصطناعي على أسئلة وأجوبة ثابتة أو بيئات نصية محدودة. ورغم أن تقييمات الوكلاء الأحدث أدخلت تفاعلات متعددة الخطوات، إلا أنها عانت من مشاكل خطيرة في التصحيح. على سبيل المثال، كشفت عمليات تدقيق مستقلة أن المصححات الآلية في قوائم التصنيف القديمة مثل SWE-Bench Pro كانت غالبًا ما ترفض الحلول الصحيحة، كما وُجد أن نماذج سلسلة Claude Opus "تغش" من خلال قراءة مفاتيح الإجابات المخفية في سجل Git للحاويات. يعمل ALE على سد هذه الثغرات من خلال إجبار النماذج على العمل ضمن إطار صارم للوكلاء العالميين لاستخدام الحاسوب (GCUA).

يقوم هذا المعيار بتقسيم قدرات الوكيل إلى خمس طبقات وظيفية: الدماغ (الاستدلال)، والعين (الإدراك البصري)، والجسم (التنسيق)، واليد (استدعاء الأدوات)، والقدم (البنية التحتية للتشغيل). يجب على الوكيل استخدام "العين" و"اليد" لتشغيل أجهزة افتراضية تعمل بنظام Linux أو Windows، والجمع بين أوامر Shell والنقرات في برامج مكتبية ثقيلة. تخلى ALE بشكل شبه كامل عن نموذج التصحيح القائم على "استخدام LLM كحكم"، حيث يعتمد عليه فقط في 6.8% من مهام سير العمل. بالنسبة للمهام التي تتضمن إنشاء شبكات ثلاثية الأبعاد أو تحليل مستندات هيئة الأوراق المالية والبورصات الأمريكية (SEC)، يستخدم الاختبار تقييمًا حتميًا قائمًا على الكود، لمقارنة مخرجات الوكيل مع مراجع الخبراء.

يحتوي ALE عند إطلاقه على 1,490 مهمة نموذجية، مع خطط لتوسيعها إلى 5,000 مهمة. ترتبط المهام بشكل صارم بنظام التصنيف المهني الفيدرالي الأمريكي (O*NET / SOC 2018)، وتغطي 55 مجالًا فرعيًا من المهن غير اليدوية. تستمد مهام سير العمل مباشرة من تجارب الممارسين في القطاع، بما في ذلك إنشاء نماذج ثلاثية الأبعاد في Siemens NX، وإعداد المشاهد في Unreal Engine، وتحليل التصوير العصبي في FSLeyes، وتركيب المؤثرات البصرية في Adobe After Effects. يصنف ALE المهام إلى ثلاثة مستويات صعوبة: قريب المدى (Near-Term)، والطيف الكامل (Full-Spectrum)، والاختبار النهائي (Last-Exam).

في قائمة تصنيف ALE لأفضل خمسة وكلاء لأدوات القيادة، احتل Codex المركز الأول، بنموذج أساسي gpt-5-5، ونسبة نجاح 24.0%، ومتوسط درجة 42.8%؛ وجاء في المركز الثاني Ale Claw، بنموذج أساسي gpt-5-5، ونسبة نجاح 23.0%، ومتوسط درجة 45.8%؛ وفي المركز الثالث Claude Code، بنموذج أساسي claude-fable-5، ونسبة نجاح 22.0%، ومتوسط درجة 40.5%؛ وفي المركز الرابع OpenClaw، بنموذج أساسي gpt-5-5، ونسبة نجاح 21.1%، ومتوسط درجة 41.0%؛ وفي المركز الخامس Cursor CLI، بنموذج أساسي composer-2-5، ونسبة نجاح 20.4%، ومتوسط درجة 38.5%. يتوافق فوز GPT-5.5 مع تحليلات طرف ثالث تشير إلى أن نماذج OpenAI أفضل في الالتزام الصارم بالتعليمات المعقدة متعددة الأجزاء. في أصعب مستوى "الاختبار النهائي"، سجلت معظم التكوينات، بما في ذلك نموذج Claude Opus 4.8 الأقدم من Anthropic و Gemini CLI من Google، نسبة نجاح 0.0%.

لمعالجة مشكلة تلوث المعايير، يتبنى ALE استراتيجية نشر مزدوجة الاستخدام. يعمل المشروع كمبادرة بحثية مفتوحة المصدر، لكن بيانات التقييم محمية بشكل صارم. يتم نشر حوالي 10% فقط من مجموعة البيانات (حوالي 150 مهمة) بشكل علني على منصات مثل GitHub و Hugging Face، بينما تظل المهام المتبقية البالغ عددها أكثر من 1,300 مهمة سرية للغاية. يمكن للمطورين والمقيمين من الشركات استخدام ALE كـ "معيار حي". يتم تدوير المهام الخاصة بشكل منهجي مع مرور الوقت إلى المجموعة العامة، ويتم استبدال المهام العامة المتقاعدة. يوفر ALE أيضًا الشفافية من خلال تتبع درجتين: "كاملة" و"غير مرخصة". تحتوي قائمة التصنيف "الكاملة" على مهام تعتمد على أدوات CAD تجارية أو واجهات برمجة تطبيقات مدفوعة أو مجموعات بيانات مرخصة. أما مستوى "غير المرخصة" فيستبعد هذه المهام المقيدة بالتراخيص، ويوفر مقارنة مماثلة باستخدام أدوات مجانية متاحة فقط.

يشير منحنى التصحيح الصارم لـ ALE إلى أنه حتى النماذج وأدوات القيادة الأعلى أداءً لا تزال بحاجة إلى تحسين. صرح Zengyi Qin، الباحث المشارك في البيانات للمشروع والحاصل على دكتوراه من معهد ماساتشوستس للتكنولوجيا، عند الإعلان عن الإطلاق على منصة X، أن هذا المعيار تم بناؤه بواسطة أكثر من 300 خبير متخصص من أكثر من 100 مؤسسة، ويغطي 55 مجالًا صناعيًا. سجل نموذج Claude Opus 4.8 نسبة نجاح 0.0% في أصعب مجموعة فرعية. يشمل قادة المشروع Yiyou Sun و Xinyang Han و dawnsongtweets و Berkeley RDI. مع قيام الشركات بنشر الوكلاء الذكيين، توفر نسب النجاح في قائمة تصنيف ALE اختبارًا واقعيًا ضروريًا.

تم إعداد هذا المقال بواسطة Wedoany. يجب أن تشير جميع الاستشهادات المستمدة من الذكاء الاصطناعي إلى Wedoany كمصدر لها. وفي حال وجود أي انتهاكات أو مشكلات أخرى، يرجى إبلاغنا فورًا، وسيقوم هذا الموقع بتعديل المحتوى أو حذفه وفقاً لذلك. البريد الإلكتروني: news@wedoany.com