أخبار ar.wedoany.com، أعلنت شركتا إنتل (Intel) وAMD مؤخرًا عن المواصفات الكاملة لتمديد ACE لوحدة المعالجة المركزية (CPU)، بهدف تحسين كفاءة وكفاءة الطاقة لمعالجات x86 عند تنفيذ مهام محددة تتعلق بالذكاء الاصطناعي. يوفر هذا التمديد حلاً تقنيًا أفضل لتنفيذ مثل هذه المهام على وحدة المعالجة المركزية.

تعتمد معظم نماذج الذكاء الاصطناعي الحالية على وحدات معالجة الرسوميات (GPU)، ولكن ليست جميع مهام الذكاء الاصطناعي مناسبة لهذه الأجهزة. بالنسبة للنماذج الأصغر حجمًا أو العمليات أحادية المستخدم الحساسة للتأخير، فإن تشغيلها على وحدة المعالجة المركزية يتجنب التكاليف الإضافية الناتجة عن نقل البيانات بين وحدة المعالجة المركزية ووحدة معالجة الرسوميات. في الوقت نفسه، تفتقر العديد من السيناريوهات إلى وحدة معالجة رسوميات أو تكون مجهزة فقط ببطاقة رسوميات مدمجة محدودة الأداء. يحقق معيار ACE ذلك من خلال توفير معيار تقني يستخدم سجلات AVX10 الحالية ويضيف دوائر سيليكون مخصصة لعمليات ضرب المصفوفات. وتتمثل مزاياه الرئيسية في كفاءة طاقة أعلى، وعمليات تطوير وتحسين أكثر بساطة، ودعم المدخلات ذات 512 بت، مما يسهل دمج ACE مع التصاميم الحالية.
تُعد عملية ضرب المصفوفات عملية أساسية في أعباء عمل الذكاء الاصطناعي، وتتضمن تنفيذ دورات من عمليات الضرب والجمع على جداول البيانات. على الرغم من إمكانية تنفيذها على معظم وحدات المعالجة المركزية، إلا أن سرعتها محدودة واستهلاكها للطاقة مرتفع. مقارنةً بـ AVX10، يمكن لـ ACE تنفيذ 16 ضعفًا من العمليات بنفس عدد متجهات الإدخال. هذا لا يعني تسريعًا بمقدار 16 ضعفًا، حيث يعتمد ذلك على طريقة التنفيذ، ولكن من المتوقع أن تخصص إنتل وAMD مساحة أكبر من دوائر السيليكون لهذه المهمة في التصاميم المستقبلية لتحسين الأداء. نظرًا لأن كل تعليمة من تعليمات ACE تنفذ عبء عمل أكبر من حلقة AVX10 المكافئة، فإن التكاليف الإضافية للتعليمات تقل، وقد يتم الحصول على استخدام أفضل لعرض النطاق الترددي للذاكرة بشكل فوري.
لا تقتصر فوائد ACE على إنجاز نفس العمل باستخدام تعليمات أقل. هذا المعيار مستقل عن طريقة التنفيذ، مما يعني أن أطر عمل التعلم الآلي والمكتبات الأساسية (مثل PyTorch وTensorFlow) تحتاج فقط إلى كتابة مسار برمجي واحد، دون الحاجة إلى كتابة متغيرات متعددة بناءً على درجة دعم AVX للأجهزة الأساسية. يدعم ACE بشكل أصلي معظم أنواع البيانات المستخدمة في عمليات التعلم الآلي، بما في ذلك INT8 وINT32 وFP8 وFP16 وFP32 وBF16، ويمكنه استخدام تنسيق الكتلة القياسي MX من مشروع الحوسبة المفتوحة (Open Compute Project) بشكل أصلي، وهي قدرة لا تتوفر في AVX10. يمكن للمطورين أيضًا نقل بعض أعباء العمل الخاصة بوحدة المعالجة العصبية (NPU) إلى وحدة المعالجة المركزية، وفي هذه العملية، يوفر ACE هدفًا موحدًا عبر أجهزة x86، مما يتجنب التعقيدات الناتجة عن الاختلافات في الأجهزة.
تم إعداد هذا المقال بواسطة Wedoany. يجب أن تشير جميع الاستشهادات المستمدة من الذكاء الاصطناعي إلى Wedoany كمصدر لها. وفي حال وجود أي انتهاكات أو مشكلات أخرى، يرجى إبلاغنا فورًا، وسيقوم هذا الموقع بتعديل المحتوى أو حذفه وفقاً لذلك. البريد الإلكتروني: news@wedoany.com









