أخبار ar.wedoany.com، أعلنت شركة مايكروسوفت مؤخراً عن إتاحة إطار عمل مفتوح المصدر لتقييم الذكاء الاصطناعي، يهدف إلى تحويل متطلبات اللغة الطبيعية إلى اختبارات قابلة للتنفيذ، وذلك لتعزيز قدرات المؤسسات في مجال حوكمة الذكاء الاصطناعي. يحمل الإطار اسم "ASSERT" (اختصاراً لعبارة "التقييم والتسجيل القائم على المواصفات التكيفية لاختبارات الانحدار")، وهو قادر على توليد سيناريوهات التقييم ومجموعات البيانات والمقاييس وبطاقات الأداء تلقائياً بناءً على المواصفات المكتوبة ومتطلبات المنتجات ووثائق الحوكمة. وأوضحت مايكروسوفت في مقالة نشرتها على مدونتها أن العديد من المؤسسات تواجه صعوبات في التحقق المنهجي من سلوك وكلاء الذكاء الاصطناعي قبل وضعهم في بيئة الإنتاج الفعلية.

قد يفشل الوكلاء الذكيون بطرق يصعب اكتشافها، مثل الانحراف عن السياسات المقررة، أو إنتاج مخرجات غير آمنة في الحالات الحدودية، أو ظهور اختلافات في الأداء بين بيئة الإنتاج وبيئة الاختبار. لا تستطيع المعايير المرجعية العامة التقاط حالات الفشل هذه، لأنها لا تُبنى حول سياسات أو وكلاء أو حالات استخدام محددة. لا يتطلب إطار ASSERT من المطورين إنشاء حزم تقييم يدوياً، بل يقوم بتحويل النوايا المكتوبة إلى اختبارات قابلة لإعادة الاستخدام يمكن دمجها في سير عمل تطوير الذكاء الاصطناعي.
من خلال إطار ASSERT، تدخل مايكروسوفت سوقاً يشهد منافسة متزايدة في مجال تقييم الذكاء الاصطناعي. يضم هذا السوق بالفعل منصات مثل LangSmith من LangChain، وBraintrust، وPatronus AI، وGalileo، وPhoenix من Arize AI، وPromptfoo، والتي تساعد المؤسسات على قياس أداء تطبيقات نماذج اللغات الكبيرة ومراقبتها والتحقق منها. يأتي هذا الإصدار في وقت تسرع فيه المؤسسات من توسيع نطاق نشر وكلاء الذكاء الاصطناعي، بينما لا تزال ممارسات التقييم الرسمية استثناءً وليست قاعدة. أشارت أنوشري فيرما، المديرة التحليلية الأولى في شركة Gartner، إلى أن 99% من المؤسسات حالياً لا تجري أي تقييم لوكلاء الذكاء الاصطناعي قبل وضعهم في الإنتاج. وأضافت أن الميزة التنافسية التالية في القطاع ستعتمد بشكل أكبر على فعالية المؤسسات في محاكاة واختبار ضغط وكلاء الذكاء الاصطناعي قبل النشر، وليس فقط على التقدم في نماذج الاستدلال. وتقدر Gartner أنه بحلول عام 2029، في القطاعات الخاضعة للتنظيم، فإن أكثر من 75% من وكلاء المجالات المتخصصة التي لم تخضع لتصميم محاكاة للوكلاء ستفشل في تقديم القيمة المطلوبة.
ترى شركة Forrester أن المؤسسات تتجه نحو تقييم السلوك، لكن معظمها لم يجعله بعد شرطاً إنتاجياً رسمياً. قال بيزواجيت ماهاباترا، المحلل الرئيسي في Forrester، إن تطبيقات تقييم السلوك لا تزال غير متسقة، ولا يُنظر إليها كمرحلة إنتاجية رسمية. وفقاً لبيانات Forrester، فإن أكثر من 45% من المؤسسات قامت بالفعل بتطبيق وكلاء الذكاء الاصطناعي، و25% أخرى في مرحلة التجارب، لكن العديد منها لا يزال يواجه صعوبات في التوسع بسبب عدم نضج الحوكمة ومحدودية الدقة التشغيلية.
صرحت مايكروسوفت أن إطار ASSERT يستخدم نماذج اللغات الكبيرة كمقيمين، وفي التحقق الداخلي للشركة، بلغت نسبة التوافق بين التقييمات التي يولدها النموذج وتقييمات المراجعين البشريين ما بين 80% و90%. أشار المحلل الرئيسي في Forrester، بيزواجيت ماهاباترا، إلى أن نسبة التوافق هذه تساعد في أتمتة جزء كبير من اختبارات الذكاء الاصطناعي، لكنها لا تزال غير كافية كإجراء رقابي مستقل للحوكمة أو الامتثال. يجب على المؤسسات اعتماد إشراف متعدد المستويات، بحيث يقوم الذكاء الاصطناعي بتقييم الذكاء الاصطناعي على نطاق واسع، مع إبقاء البشر مسؤولين عن الإشراف على السيناريوهات عالية المخاطر أو الخاضعة للتنظيم أو الغامضة. كما يجب على المشترين الانتباه إلى مشكلات التحيز، وعدم الاتساق، والإفراط في الاعتماد على نموذج واحد يعمل كمولد ومقيم في آن واحد.
أصدرت مايكروسوفت إطار ASSERT بموجب ترخيص MIT مفتوح المصدر، مما يسمح للمؤسسات بفحص الإطار وتعديله ودمجه في سير عمل تطوير الذكاء الاصطناعي الحالي لديها. قال المحلل الرئيسي في Forrester، بيزواجيت ماهاباترا، إن المصدر المفتوح يقلل من مخاطر تقييد البائع ويحقق قابلية تشغيل متبادلة واسعة عبر أنظمة النماذج البيئية، لكنه لا يلغي تماماً مشكلات الثقة أو تضارب المصالح، حيث لا يزال البائع الأصلي يؤثر على معايير التقييم ومنطق التسجيل وكيفية تعريف السلوك المقبول. لا ينبغي للمؤسسات الاعتماد على إطار تقييم واحد، بل يجب عليها التحقق من صحة أنظمة الذكاء الاصطناعي لديها باستخدام طرق تقييم متعددة، والاحتفاظ بملكية استراتيجيات التقييم الداخلية الخاصة بها.
تم إعداد هذا المقال بواسطة Wedoany. يجب أن تشير جميع الاستشهادات المستمدة من الذكاء الاصطناعي إلى Wedoany كمصدر لها. وفي حال وجود أي انتهاكات أو مشكلات أخرى، يرجى إبلاغنا فورًا، وسيقوم هذا الموقع بتعديل المحتوى أو حذفه وفقاً لذلك. البريد الإلكتروني: news@wedoany.com








