أخبار ar.wedoany.com، أعلنت شركة NVIDIA عن إصدار حل مفتوح المصدر باسم NeMo AutoModel، يحقق زيادة في إنتاجية التدريب بنسبة تتراوح بين 3.4 و3.7 أضعاف أثناء الضبط الدقيق لنماذج الخبراء المختلطة (MoE)، مع تقليل استهلاك ذاكرة GPU بنسبة تتراوح بين 29% و32%.
يتوافق NeMo AutoModel مع واجهة برمجة التطبيقات (API) الخاصة بـ Hugging Face Transformers v5، حيث يمكن للمستخدمين تسريع الضبط الدقيق لنماذج MoE بمجرد إضافة سطر واحد من تعليمات الاستيراد (import). فعلى سبيل المثال، عند استخدام نموذج Qwen3-30B-A3B على عقدة واحدة مزودة بـ 8 وحدات GPU من نوع NVIDIA H100 بسعة 80 جيجابايت، يعمل هذا الحل على رفع الإنتاجية لكل GPU في الثانية (TPS/GPU) من 3075 إلى 11340، أي بزيادة قدرها 3.69 أضعاف.
أصبحت بنية MoE الخيار السائد للنماذج المتطورة، إلا أن المشكلات الهندسية المرتبطة بها، مثل التوازي بين الخبراء، ودمج الاتصالات، وتحسين النواة، تتطلب دعمًا من البنية التحتية المناسبة. يضيف حل NVIDIA ثلاث تقنيات رئيسية فوق Transformers v5، وهي: التوازي بين الخبراء (Expert Parallelism - EP)، وDeepEP، وTransformerEngine.
تقنية التوازي بين الخبراء تعمل على توزيع أوزان الخبراء عبر وحدات GPU متعددة، مما يقلل الضغط على ذاكرة كل وحدة GPU على حدة. ففي حالة استخدام 8 وحدات GPU مع ep_size=8، ينخفض استهلاك الذاكرة الخاص بـ MoE لكل GPU إلى ثمن قيمته الأصلية. بالنسبة لنموذج Qwen3، تعمل هذه التقنية على خفض الذاكرة القصوى من 68.2 جيجابايت إلى 48.1 جيجابايت، أي بنسبة 29%. أما بالنسبة لنموذج Nemotron Nanomo، فتنخفض الذاكرة من 62.1 جيجابايت إلى 42.5 جيجابايت، أي بنسبة 32%. يمكن استخدام الذاكرة المحررة لدعم تدريب دفعات أكبر وتسلسلات أطول.
تحقق تقنية DeepEP دمجًا بين العمليات الحسابية والاتصالات. ففي الوضع التقليدي، توجد تكلفة اتصال بين توزيع الرموز (tokens) وحسابات الخبراء. تعمل DeepEP، من خلال نواة GPU محسّنة، على دمج عمليات توزيع الرموز وتجميعها، مما يسمح بتداخل عملية الاتصال مع حسابات الخبراء.
توفر نواة TransformerEngine تسريعًا للعمليات مثل آلية الانتباه المدمجة، والطبقات الخطية، وRMSNorm، وتعمل في الوقت نفسه على طبقات MoE والطبقات العادية من نوع Transformer.
أظهرت التجارب على نموذجي Qwen3-30B-A3B وNemotron 3 Nano 30B-A3B أنه، مقارنة بـ Transformers v5، يحقق هذا الحل زيادة في إنتاجية التدريب بنسبة تتراوح بين 3.4 و3.7 أضعاف، مع تقليل استهلاك الذاكرة بنسبة تتراوح بين 29% و32%. كما نشرت NVIDIA نتائج الضبط الدقيق الكامل لنموذج Nemotron 3 Ultra 550B A55B على بيئة تضم 16 عقدة H100 بإجمالي 128 وحدة GPU، حيث بلغت قيمة TPS/GPU 815، وTFLOP/s/GPU حوالي 293، وبلغت الذاكرة القصوى 58.2 جيجابايت. وأشارت NVIDIA إلى أن Transformers v5 لا يمكن تشغيله على هذا النطاق بسبب نفاد الذاكرة.
تم إعداد هذا المقال بواسطة Wedoany. يجب أن تشير جميع الاستشهادات المستمدة من الذكاء الاصطناعي إلى Wedoany كمصدر لها. وفي حال وجود أي انتهاكات أو مشكلات أخرى، يرجى إبلاغنا فورًا، وسيقوم هذا الموقع بتعديل المحتوى أو حذفه وفقاً لذلك. البريد الإلكتروني: news@wedoany.com









