أخبار ar.wedoany.com، أطلقت شركة مايكروسوفت يوم الثلاثاء إطار عمل مفتوح المصدر باسم ASSERT (Adaptive Spec-driven Scoring for Evaluation and Regression Testing)، والذي يهدف إلى تبسيط عملية اختبار وتقييم سلوك تطبيقات الذكاء الاصطناعي.
يستخدم هذا الإطار تقنيات الذكاء الاصطناعي لتحويل الأوصاف النصية عالية المستوى المتعلقة بالأهداف أو الاستراتيجيات أو السلوكيات المتوقعة إلى حالات اختبار قابلة للتنفيذ والتقييم. يستقبل ASSERT الأوصاف باللغة الطبيعية حول السلوكيات والاستراتيجيات المتوقعة لنموذج الذكاء الاصطناعي، ويحولها إلى مجموعة منظمة من السلوكيات المقبولة وغير المقبولة، ويولد سيناريوهات الأسئلة وحالات الاختبار، ويشغلها على النظام المستهدف، ثم يقوم بتقييم النتائج. كما يمكن للإطار تسجيل المسار الذي سلكه نظام الذكاء الاصطناعي، بما في ذلك الإجراءات الوسيطة واستدعاءات الأدوات، مما يسهل على المطورين تحديد موقع الأعطال.
يمكن للمطورين إضافة سياق النظام والأدوات والقيود بشكل إضافي لتخصيص نطاق التقييم. على سبيل المثال، يمكن للمطور تحديد أن وكيل الذكاء الاصطناعي المخصص لأبحاث المستندات لا ينبغي له إرسال رسائل بريد إلكتروني إلى أشخاص خارج الشركة، ويجب أن يقتصر المعلومات السرية على نطاق كبار المسؤولين التنفيذيين، مع تقديم ملخصات موجزة مع مراعاة السياق السابق. سيستخدم ASSERT هذه القواعد لتوليد حالات اختبار والتحقق باستمرار من امتثال النظام لهذه القواعد.

أوضحت مايكروسوفت أن ASSERT يسد الفجوة التي لا تغطيها التقييمات العامة الواسعة عندما يحتاج سلوك نموذج الذكاء الاصطناعي إلى التشكيل وفقًا لسياق التطبيق أو المنتج وسياساته وأدواته. وقالت سارة بيرد (Sarah Bird)، كبيرة مسؤولي المنتجات في مجال الذكاء الاصطناعي المسؤول في مايكروسوفت: "أحد الأشياء التي تعلمناها هو أن التقييم أمر بالغ الأهمية لاتخاذ القرارات الصحيحة، لأنه من دون فهم سلوك نظام الذكاء الاصطناعي، يصعب معرفة ما إذا كان يفي بمعايير المؤسسة... لقد اكتشفنا أنه إذا أردنا حقًا الحصول على نظام موثوق، فيجب علينا تقييم أبعاد أكثر تحديدًا بالتطبيق." وأضافت بيرد أنه يمكن استخدام ASSERT أثناء بناء النظام، وبعد النشر، وحتى في المراقبة المستمرة لإجراء التقييمات.
يأتي هذا الإطلاق في وقت تشهد فيه قدرات التقييم في صناعة الذكاء الاصطناعي تحسنًا تدريجيًا. مع تزايد قدرات النماذج، بدأ الباحثون في التركيز على الاختبارات القابلة للتكرار وفحوصات الانحدار، حيث أطلقت جهات مثل HELM من جامعة ستانفورد، وAILuminate من MLCommons، وفريق التقييم METR معايير مرجعية لقياس سلوك النماذج في ظل ظروف مختلفة.
تم إعداد هذا المقال بواسطة Wedoany. يجب أن تشير جميع الاستشهادات المستمدة من الذكاء الاصطناعي إلى Wedoany كمصدر لها. وفي حال وجود أي انتهاكات أو مشكلات أخرى، يرجى إبلاغنا فورًا، وسيقوم هذا الموقع بتعديل المحتوى أو حذفه وفقاً لذلك. البريد الإلكتروني: news@wedoany.com









