فريق صيني يُكمل التدريب اللاحق الكامل لمعلمات نموذج تريليوني باستخدام قدرات حوسبة محلية
2026-06-09 13:54
المفضلة

أخبار ar.wedoany.com، نجح فريق مشروع منصة تدريب الذكاء الاصطناعي في كلية هيتاو شنتشن، بالتعاون مع جامعة هاربين للتكنولوجيا (شنتشن)، ومعهد شنتشن لأبحاث البيانات الضخمة، وقطاع الخدمات العالمي لشركة هواوي (GTS)، في تحقيق اختراق في تدريب نماذج الذكاء الاصطناعي واسعة النطاق باستخدام قدرات حوسبة محلية. واعتمادًا على مجموعة الحوسبة المحلية من نوع Ascend 910C، تمكن الفريق في غضون شهر واحد من إكمال التدريب المستمر الكامل لمعلمات نموذج DeepSeek-V4-Pro وتشغيله المستقر عبر تقنية الضبط الدقيق الخاضع للإشراف (SFT). تجاوز إجمالي خطوات التدريب 1500 خطوة، وبلغت نسبة استخدام قوة الحوسبة للنموذج (MFU) أكثر من 30%، مع تحسن كفاءة عوامل التشغيل الرئيسية للتدريب بنحو 14%.

تُعد هذه المرة الأولى التي يُنجز فيها طرف ثالث عملية تدريب لاحق كامل لمعلمات نموذج DeepSeek-V4-Pro باستخدام مجموعة حوسبة محلية، مما يمثل انتقالًا للبنية التحتية المحلية للذكاء الاصطناعي من مرحلة نشر الاستدلال والضبط الدقيق الخفيف إلى مرحلة التدريب اللاحق الكامل لمعلمات النماذج فائقة الضخامة.

يُعد DeepSeek-V4-Pro نموذجًا رائدًا مفتوح المصدر من نوع خليط الخبراء (MoE) يضم 1.6 تريليون معلمة، ويعتمد آليات مبتكرة مثل الانتباه المتناثر الهجين (CSA+HCA) والاتصالات الهجينة (mHC). وبالمقارنة مع الجيل السابق DeepSeek-V3/R1، يفرض هذا النموذج متطلبات عالية على أطر التدريب المحلية.

تمكن التعاون المشترك من تحقيق تشغيل مستقر للتدريب اللاحق الكامل لمعلمات DeepSeek-V4-Pro على مجموعة حوسبة محلية من نوع Ascend 910C تضم آلاف البطاقات. تجاوزت خطوات تكرار النموذج 1500 خطوة دون أي تخطي أو ظهور قيم شاذة (NaN). تحسنت كفاءة عوامل التشغيل الرئيسية للتدريب بنحو 14% مقارنة بالإصدار الأولي، واستقرت قيمة MFU النهائية عند 34.9%، مع استقرار زمن التدريب لكل خطوة عند 27 ثانية. وفي الوقت نفسه، أكمل الفريق المسار الكامل للتدريب المستمر لمعلمات نموذج DeepSeek-V4-Flash والضبط الدقيق الخاضع للإشراف (SFT).

تتميز نتائج هذا المشروع بقابلية التكرار والتسليم الهندسي لقدرة تدريب مستقرة لنماذج MoE التريليونية باستخدام قدرات حوسبة محلية، وقد تم إكمال التحقق المغلق من سيناريوهات النمذجة التشغيلية الآلية على المستوى الصناعي، مما يشير إلى أن قدرات الحوسبة المحلية قادرة على إتمام تدريب معزز ومتخصص لنماذج القطاعات الكبيرة في دورة زمنية قصيرة وبتكلفة منخفضة.

على المستوى التقني، حقق المشروع ثلاثة اختراقات رئيسية: أولاً، بناء مخطط توزيعي يغطي حالات الأوزان والتدرجات والتنشيطات والمحسنات، مما يتيح التعاون بين التوازي في البيانات والتوتر والتسلسل والخبراء. ثانيًا، تحسين عوامل تشغيل التوجيه في نموذج MoE والانتباه المتناثر، وإنشاء آلية لتوازن أحمال الخبراء، مما يخفف بشكل فعال من ازدحام الاتصالات وعدم توازن الأحمال. ثالثًا، بناء نظام مراقبة طويل الأمد ومستقر مع تصور كامل للمؤشرات، دون حدوث فقدان للتحكم في دالة الخسارة (Loss) أو ظهور قيم شاذة (NaN) أثناء التدريب المستمر لعدة أيام.

في مرحلة التحقق من القدرات، صمم المشروع تجربة لتعزيز قدرة النموذج الكبير على النمذجة الرياضية. أنشأ الفريق سير عمل لإنتاج بيانات النمذجة باستخدام تقنية SFT، مما أسفر عن إنتاج 3000 عينة SFT عالية الجودة لمهام النمذجة الرياضية، تغطي 4 أنواع من المهام المستهدفة و3 أشكال من المشكلات. أظهرت نتائج التدريب تقارب خسارة النموذج الرئيسي (LM Loss) إلى 0.2056، وخسارة التنبؤ متعدد المهام (MTP 1 Loss) إلى 0.2538، مع منحنيات تدرج مستقرة. أظهرت تقييمات المعايير (Benchmark) تحسنًا شاملاً في أربعة مؤشرات أساسية للنموذج، حيث ارتفع مؤشر ORGEval WL بأكثر من 5 نقاط مئوية، مع تعزيز ملحوظ في قدرات الاستدلال المعقد والنمذجة.

تم إعداد هذا المقال بواسطة Wedoany. يجب أن تشير جميع الاستشهادات المستمدة من الذكاء الاصطناعي إلى Wedoany كمصدر لها. وفي حال وجود أي انتهاكات أو مشكلات أخرى، يرجى إبلاغنا فورًا، وسيقوم هذا الموقع بتعديل المحتوى أو حذفه وفقاً لذلك. البريد الإلكتروني: news@wedoany.com

المنتجات ذات الصلة
التوصيات ذات الصلة
شركة Lantronix الأمريكية تتعاون مع Cherry & White البريطانية لإطلاق منصة Wi-Fi سريعة النشر
2026-06-10
استثمار الحكومة البريطانية 20 مليون جنيه إسترليني لرقمنة تحويلات مرضى العيون
2026-06-10
شركة FingerMotion الأمريكية وBlueFlare تنشئان شبكة من مراكز الحوسبة الاستدلالية للذكاء الاصطناعي في كندا
2026-06-10
شركة Skyworks الأمريكية تعرض تقنيات جديدة لسلسلة إمداد الطاقة في خوادم الذكاء الاصطناعي
2026-06-10
الصين تصدر معيارًا وطنيًا لتطبيق الحوسبة السحابية في مختبرات GLP
2026-06-10
مدينة مونتريال الكندية تنشر منصة ذكاء اصطناعي للسلامة المرورية في 100 تقاطع
2026-06-10
الصين تنجح في بناء أول مركز بيانات تحت الماء في العالم يعمل بطاقة الرياح بقدرة 24 ميغاواط باستثمارات تبلغ 1.6 مليار يوان
2026-06-10
وزير الداخلية والتعاون الهندي أميت شاه يطلق منصة رقمية موحدة للمنافذ البرية الهندية
2026-06-10
وزارة الصناعة وتكنولوجيا المعلومات الصينية تقترح تعزيز قدرة خدمات الخطوط الخاصة المخصصة للذكاء الاصطناعي
2026-06-10
شركة "مور تريدز" الصينية تطلق نموذج "موسا كودر" مفتوح المصدر لتوليد أكواد مشغلات وحدة معالجة الرسوميات
2026-06-10
آخر الأخبار القصيرة