أخبار ar.wedoany.com، أصدرت Google DeepMind نموذجًا تجريبيًا مفتوحًا باسم DiffusionGemma، صُمم خصيصًا لتوليد النصوص فائقة السرعة. وقد قامت NVIDIA بتحسين هذا النموذج ليعمل بشكل أسرع على وحدات معالجة الرسوميات NVIDIA GeForce RTX ومنصة NVIDIA RTX PRO ونظام NVIDIA DGX Spark، ليشمل بيئات متعددة تتراوح من أجهزة الكمبيوتر المحلية إلى السحابة.

على عكس الطريقة التقليدية لتوليد النصوص كلمة بكلمة، يستطيع DiffusionGemma توليد عدة كلمات بشكل متوازٍ لإخراج كتل نصية كاملة. يُبنى هذا النموذج على Gemma 4، وهو نموذج خبراء مختلط يضم 26 مليار معلمة، حيث يُفعّل فقط 3.8 مليار معلمة في كل خطوة، ويدمج رأس الانتشار مع بنية Gemma 4 من Google. من حيث الأداء، تصل سرعة توليد النصوص في DiffusionGemma على الأجهزة المحلية إلى 4 أضعاف مقارنة بالنماذج الانحدارية الذاتية المكافئة. وبصفته نموذجًا مفتوحًا، يتيح DiffusionGemma أوزانه بموجب ترخيص Apache 2.0 المرن، ويمكن تشغيله محليًا بالكامل على RTX وDGX Spark دون الحاجة إلى الاعتماد على السحابة، مع دعم فوري في Hugging Face Transformers وvLLM وUnsloth. بالإضافة إلى ذلك، يمكن للمستخدمين اختبار DiffusionGemma مجانًا عبر واجهة التطبيق المستضافة من NVIDIA على build.nvidia.com.
تعتمد معظم نماذج اللغات الكبيرة (LLM) المستخدمة حاليًا على نطاق واسع على أسلوب التوليد الانحداري الذاتي، أي توليد رمز واحد في كل مرة، حيث يعتمد كل كلمة جديدة على الكلمة السابقة. أما DiffusionGemma، فيعتمد على بنية الخبراء المختلطة Gemma 4 26B، ويولّد النصوص بالطريقة التي تولّد بها نماذج الانتشار الصور: بدءًا من الضوضاء، ثم تنقية الكتلة النصية بأكملها دفعة واحدة. في كل خطوة، يقوم النموذج بإزالة الضوضاء من ما يصل إلى 256 رمزًا بشكل متوازٍ. بالنسبة لمهام المستخدم الواحد الحساسة لزمن الاستجابة، مثل الدردشة التفاعلية أو حلقات الوكلاء الذكيين أو المساعدين على الأجهزة، تتيح هذه الخاصية المتوازية سرعة استجابة تواكب متطلبات التطوير والتكرار.
عند توليد رمز واحد في كل مرة، غالبًا ما تكون نماذج LLM التقليدية محدودة بعرض النطاق الترددي للذاكرة، مما يؤدي إلى عدم استغلال جزء كبير من القدرة الحاسوبية. بينما يعالج DiffusionGemann كتلًا كاملة من الرموز بشكل متوازٍ عبر المحولات (Transformer)، مما يجعل عبء العمل كثيف الحساب مناسبًا تمامًا للاستفادة من مزايا وحدات معالجة الرسوميات من NVIDIA. تُظهر البيانات أن DiffusionGemma يحقق 1000 رمز/ثانية على وحدة معالجة رسوميات واحدة من NVIDIA H100 Tensor Core، و150 رمز/ثانية على NVIDIA DGX Spark، ويحقق أسرع استدلال محلي على NVIDIA DGX Station، وهو أسرع بنحو 4 مرات من النماذج الانحدارية الذاتية المكافئة التي تعمل في نفس سيناريو المستخدم الواحد.
يمتد هذا التفوق في الأداء عبر مجموعة منتجات NVIDIA بأكملها، بما في ذلك الكمبيوتر الفائق للذكاء الاصطناعي المكتبي الشخصي المحلي DGX Spark الذي يعمل بمعالج NVIDIA GB10 Grace Blackwell Superchip ومزود بذاكرة موحدة سعة 128 جيجابايت؛ ومحطة العمل RTX PRO 6000 التي توفر مساحة محلية كافية للمطورين؛ وDGX Station التي توفر سرعة استدلال سريعة تصل إلى 800 رمز/ثانية ومزودة بذاكرة متسقة سعة 748 جيجابايت؛ بالإضافة إلى وحدات معالجة الرسوميات GeForce RTX التي ستدعم قريبًا llama.cpp.
يعد استخدام Hugging Face Transformers أسرع طريقة لتشغيل DiffusionGemma على GeForce RTX 5090 أو DGX Spark. بالنسبة للاستدلال ذي الإنتاجية الأعلى، يوفر vLLM دعمًا فوريًا للخدمة. يمكن للمستخدمين ضبط النموذج بدقة لمهام أو مجالات محددة باستخدام إطاري Unsloth وNVIDIA NeMo. لمزيد من التفاصيل التقنية، يمكن الرجوع إلى مدونة NVIDIA التقنية والإعلان الرسمي من Google DeepMind.
تم إعداد هذا المقال بواسطة Wedoany. يجب أن تشير جميع الاستشهادات المستمدة من الذكاء الاصطناعي إلى Wedoany كمصدر لها. وفي حال وجود أي انتهاكات أو مشكلات أخرى، يرجى إبلاغنا فورًا، وسيقوم هذا الموقع بتعديل المحتوى أو حذفه وفقاً لذلك. البريد الإلكتروني: news@wedoany.com









