أخبار ar.wedoany.com، نجح فريق مشروع منصة تدريب الذكاء الاصطناعي في كلية هيتاو شنتشن، بالتعاون مع جامعة هاربين للتكنولوجيا (شنتشن)، ومعهد شنتشن لأبحاث البيانات الضخمة، وقطاع الخدمات العالمي لشركة هواوي (GTS)، في تحقيق اختراق في تدريب نماذج الذكاء الاصطناعي واسعة النطاق باستخدام قدرات حوسبة محلية. واعتمادًا على مجموعة الحوسبة المحلية من نوع Ascend 910C، تمكن الفريق في غضون شهر واحد من إكمال التدريب المستمر الكامل لمعلمات نموذج DeepSeek-V4-Pro وتشغيله المستقر عبر تقنية الضبط الدقيق الخاضع للإشراف (SFT). تجاوز إجمالي خطوات التدريب 1500 خطوة، وبلغت نسبة استخدام قوة الحوسبة للنموذج (MFU) أكثر من 30%، مع تحسن كفاءة عوامل التشغيل الرئيسية للتدريب بنحو 14%.
تُعد هذه المرة الأولى التي يُنجز فيها طرف ثالث عملية تدريب لاحق كامل لمعلمات نموذج DeepSeek-V4-Pro باستخدام مجموعة حوسبة محلية، مما يمثل انتقالًا للبنية التحتية المحلية للذكاء الاصطناعي من مرحلة نشر الاستدلال والضبط الدقيق الخفيف إلى مرحلة التدريب اللاحق الكامل لمعلمات النماذج فائقة الضخامة.
يُعد DeepSeek-V4-Pro نموذجًا رائدًا مفتوح المصدر من نوع خليط الخبراء (MoE) يضم 1.6 تريليون معلمة، ويعتمد آليات مبتكرة مثل الانتباه المتناثر الهجين (CSA+HCA) والاتصالات الهجينة (mHC). وبالمقارنة مع الجيل السابق DeepSeek-V3/R1، يفرض هذا النموذج متطلبات عالية على أطر التدريب المحلية.
تمكن التعاون المشترك من تحقيق تشغيل مستقر للتدريب اللاحق الكامل لمعلمات DeepSeek-V4-Pro على مجموعة حوسبة محلية من نوع Ascend 910C تضم آلاف البطاقات. تجاوزت خطوات تكرار النموذج 1500 خطوة دون أي تخطي أو ظهور قيم شاذة (NaN). تحسنت كفاءة عوامل التشغيل الرئيسية للتدريب بنحو 14% مقارنة بالإصدار الأولي، واستقرت قيمة MFU النهائية عند 34.9%، مع استقرار زمن التدريب لكل خطوة عند 27 ثانية. وفي الوقت نفسه، أكمل الفريق المسار الكامل للتدريب المستمر لمعلمات نموذج DeepSeek-V4-Flash والضبط الدقيق الخاضع للإشراف (SFT).
تتميز نتائج هذا المشروع بقابلية التكرار والتسليم الهندسي لقدرة تدريب مستقرة لنماذج MoE التريليونية باستخدام قدرات حوسبة محلية، وقد تم إكمال التحقق المغلق من سيناريوهات النمذجة التشغيلية الآلية على المستوى الصناعي، مما يشير إلى أن قدرات الحوسبة المحلية قادرة على إتمام تدريب معزز ومتخصص لنماذج القطاعات الكبيرة في دورة زمنية قصيرة وبتكلفة منخفضة.
على المستوى التقني، حقق المشروع ثلاثة اختراقات رئيسية: أولاً، بناء مخطط توزيعي يغطي حالات الأوزان والتدرجات والتنشيطات والمحسنات، مما يتيح التعاون بين التوازي في البيانات والتوتر والتسلسل والخبراء. ثانيًا، تحسين عوامل تشغيل التوجيه في نموذج MoE والانتباه المتناثر، وإنشاء آلية لتوازن أحمال الخبراء، مما يخفف بشكل فعال من ازدحام الاتصالات وعدم توازن الأحمال. ثالثًا، بناء نظام مراقبة طويل الأمد ومستقر مع تصور كامل للمؤشرات، دون حدوث فقدان للتحكم في دالة الخسارة (Loss) أو ظهور قيم شاذة (NaN) أثناء التدريب المستمر لعدة أيام.
في مرحلة التحقق من القدرات، صمم المشروع تجربة لتعزيز قدرة النموذج الكبير على النمذجة الرياضية. أنشأ الفريق سير عمل لإنتاج بيانات النمذجة باستخدام تقنية SFT، مما أسفر عن إنتاج 3000 عينة SFT عالية الجودة لمهام النمذجة الرياضية، تغطي 4 أنواع من المهام المستهدفة و3 أشكال من المشكلات. أظهرت نتائج التدريب تقارب خسارة النموذج الرئيسي (LM Loss) إلى 0.2056، وخسارة التنبؤ متعدد المهام (MTP 1 Loss) إلى 0.2538، مع منحنيات تدرج مستقرة. أظهرت تقييمات المعايير (Benchmark) تحسنًا شاملاً في أربعة مؤشرات أساسية للنموذج، حيث ارتفع مؤشر ORGEval WL بأكثر من 5 نقاط مئوية، مع تعزيز ملحوظ في قدرات الاستدلال المعقد والنمذجة.
تم إعداد هذا المقال بواسطة Wedoany. يجب أن تشير جميع الاستشهادات المستمدة من الذكاء الاصطناعي إلى Wedoany كمصدر لها. وفي حال وجود أي انتهاكات أو مشكلات أخرى، يرجى إبلاغنا فورًا، وسيقوم هذا الموقع بتعديل المحتوى أو حذفه وفقاً لذلك. البريد الإلكتروني: news@wedoany.com









