أخبار ar.wedoany.com، لطالما شكلت التكلفة الباهظة لتدريب نماذج الاستدلال بالذكاء الاصطناعي تحدياً كبيراً لفرق العمل في المؤسسات. وتعاون باحثون من JD.com مع عدة مؤسسات أكاديمية لاقتراح نموذج تدريبي جديد يُسمى RLSD، يهدف إلى بناء وكلاء استدلال مخصصين بموارد حسابية أقل. وتجمع هذه التقنية بين التعلم المعزز والتقطير الذاتي، مما يحل مشكلة تبعثر الإشارات أو التكلفة الحسابية الباهظة الكامنة في الأساليب التقليدية.

وفي التجارب، حققت النماذج المدربة بتقنية RLSD متوسط دقة بلغ 56.18% على عدة معايير قياسية للاستدلال البصري، متجاوزة بذلك النموذج الأساسي وطريقة RLVR القياسية. وأوضح يانغ تشين-شو، أحد مؤلفي الورقة البحثية المشاركين، أن تقنية RLSD تفصل اقتران اتجاه التحديث عن حجمه، حيث تستخدم إشارات مكافأة قابلة للتحقق لتحديد الاتجاه، بينما تحصل على تغذية راجعة دقيقة على مستوى كل وحدة رمزية من خلال التقطير الذاتي. وهذا يتجنب مشكلة تسرب المعلومات ويحافظ على استقرار عملية التدريب.
ولا تتطلب تقنية RLSD سوى عملية انتشار أمامي إضافية واحدة، وتكون سرعة تقاربها أسرع بحوالي الضعف مقارنة بالطرق التقليدية. وهي مناسبة للمهام ذات المكافآت القابلة للتحقق، مثل تجميع الشيفرات البرمجية أو التحقق الرياضي، كما يمكنها الاستفادة من المعلومات المميزة بمرونة. ويمكن دمج هذه التقنية بشكل خفيف ومباشر في أطر العمل مفتوحة المصدر الحالية، مما يوفر للمؤسسات مساراً جديداً لتحسين نماذجها باستخدام بياناتها الداخلية.
تم إعداد هذا المقال بواسطة Wedoany. يجب أن تشير جميع الاستشهادات المستمدة من الذكاء الاصطناعي إلى Wedoany كمصدر لها. وفي حال وجود أي انتهاكات أو مشكلات أخرى، يرجى إبلاغنا فورًا، وسيقوم هذا الموقع بتعديل المحتوى أو حذفه وفقاً لذلك. البريد الإلكتروني: news@wedoany.com








