فريق صيني يطلق نموذج AudioX-Turbo مفتوح المصدر، ينتج صوتًا في 0.24 ثانية بأربع خطوات استدلال
2026-06-16 10:05
المفضلة

أخبار ar.wedoany.com، تم إطلاق نموذج AudioX-Turbo فائق السرعة لتوليد الصوت، حيث ينتج 10 ثوانٍ من الصوت في 0.24 ثانية بأربع خطوات استدلال. طورته شركة Noiz AI بالتعاون مع جامعة هونغ كونغ للعلوم والتكنولوجيا وجامعة تسينغهوا، ويدعم النموذج إدخالات متعددة الوسائط مثل النصوص والفيديو والصور. من خلال تقنيات تقطير مطابقة التوزيع وتقطير المواجهة، تم ضغط عملية التوليد التقليدية لنماذج الانتشار من 50 إلى 200 خطوة إلى 4 خطوات فقط، مما يقلل عدد مرات تمرير النموذج الأمامي بنحو 25 مرة. على بطاقة رسوميات واحدة من نوع RTX 4090، يستغرق توليد 10 ثوانٍ من الصوت 0.24 ثانية فقط، بعامل زمني فوري يبلغ 0.02، مما يفتح آفاقًا للتفاعل الصوتي في الوقت الفعلي.

تعتمد النماذج الصوتية الرئيسية الحالية مثل MMAudio وStable Audio Open على تقنيات الانتشار أو مطابقة التدفق، وتتطلب عادةً عشرات إلى مئات التكرارات. يستخدم AudioX-Turbo محول الانتشار متعدد الوسائط (MMDiT) المدمج أصلاً كبنية أساسية، إلى جانب وحدة MAF، وتم تدريبه من الصفر بمعاملات تبلغ 2.7 مليار. في إطار مطابقة التدفق، أدخل فريق البحث تقطير مطابقة التوزيع (DMD) وتقطير المواجهة لضغط النموذج إلى 4 خطوات، مع إزالة النفقات الحسابية الإضافية لـ CFG من خلال تقطير CFG. بفضل المميِّز الانتشار، تفوق النموذج الطالب على النموذج المعلم ذي الـ 100 خطوة في بعض مؤشرات الأداء.

عالج AudioX-Turbo أيضًا مشكلة صعوبة التحكم الدقيق في النماذج الصوتية. أشار فريق البحث إلى أن العديد من النماذج السابقة لم تكن قادرة على التحكم بدقة في الطوابع الزمنية، ويعود السبب الجذري إلى غموض تسميات النصوص في بيانات التدريب. لهذا، قامت Noiz AI وفريق جامعة هونغ كونغ للعلوم والتكنولوجيا ببناء مجموعة بيانات صوتية متعددة الوسائط فائقة الحجم باسم IF-caps-Pro، يبلغ إجمالي حجمها حوالي 9.2 مليون عينة. اعتمد الفريق نهج "التوسيم المتسلسل للنماذج الكبيرة"، حيث قام أولاً ببناء أزواج فيديو-صوت عالية الجودة على نطاق واسع، ثم استخدم نموذج Gemini 2.5 Pro لتوليد قوالب منظمة تحتوي على طوابع زمنية وآلات وأعداد الأحداث، ثم استخدم Qwen2-Audio للتوسيع على نطاق واسع، مما حوّل البيانات من "ملخصات غامضة" إلى "نصوص ذات محاور زمنية دقيقة".

اكتشف فريق البحث بشكل غير متوقع أنه كلما كانت تسميات النصوص أكثر تفصيلاً، لم يتحسن أداء النموذج في توليد الصوت من النص فحسب، بل تحسنت أيضًا درجة التوافق عند "مزامنة الصوت مع الفيديو الصامت" بشكل كبير. في مجموعات الاختبار الكلاسيكية مثل AudioCaps وMusicCaps، تفوق نموذج AudioX-Turbo ذو الـ 4 خطوات على العديد من النماذج الأساسية التي تتطلب 50 إلى 200 خطوة في مؤشرات جودة الصوت الأساسية، أو تعادل أداءها. لتقييم قدرة اتباع التعليمات، بنى الفريق معيارًا خاصًا باسم T2A-bench، وفي التقييمات التي تركز على فئات الأصوات وعددها وطوابعها الزمنية وترتيبها، أظهر AudioX-Turbo أداءً ساحقًا مقارنة بالطرق الأساسية الأخرى، حيث تجاوزت بعض المؤشرات ضعف أداء الخط الأساسي.

تشمل أبرز ثلاث ميزات لـ AudioX-Turbo: الاستدلال بأربع خطوات، مما يقلل الحساب بمقدار 25 مرة مقارنة بالنموذج المعلم مع أداء أفضل، وعامل زمني فوري يبلغ 0.02 فقط؛ مجموعة بيانات قوية تحتوي على 9.2 مليون تعليمة، مما يحقق التحكم الدقيق في الطوابع الزمنية لأول مرة؛ دعم إدخالات متعددة الوسائط مثل النصوص والفيديو والصور، مما يتيح توليد "أي شيء إلى صوت". تم فتح جميع أكواد التدريب وأوزان النموذج بالكامل كمصدر مفتوح. الورقة البحثية بعنوان "AudioX-Turbo: A Unified Framework for Efficient Anything-to-Audio Generation"، وقد أنجزها فريق من Noiz AI وجامعة هونغ كونغ للعلوم والتكنولوجيا وجامعة تسينغهوا، والصفحة الرئيسية للمشروع هي https://zeyuet.github.io/AudioX-Turbo/.

تم إعداد هذا المقال بواسطة Wedoany. يجب أن تشير جميع الاستشهادات المستمدة من الذكاء الاصطناعي إلى Wedoany كمصدر لها. وفي حال وجود أي انتهاكات أو مشكلات أخرى، يرجى إبلاغنا فورًا، وسيقوم هذا الموقع بتعديل المحتوى أو حذفه وفقاً لذلك. البريد الإلكتروني: news@wedoany.com

المنتجات ذات الصلة
التوصيات ذات الصلة
شركة Swoop الأسترالية تبرم اتفاقية جملة مع TPG لتعزيز أعمالها في مجال الاتصالات المتنقلة
2026-06-16
شركة "ميتوان" الصينية تطلق مجتمع الوكلاء الذكيين "مييو" في اختبار تجريبي مفتوح للجميع
2026-06-16
الجزائر تطلق مركز الاستجابة للحوادث الشبكية في قطاعي البريد والاتصالات
2026-06-16
شركة Firstcolo الألمانية تستثمر 250 مليون يورو لبناء مركز بيانات للذكاء الاصطناعي بقدرة 24 ميغاواط
2026-06-16
شركة SailPoint الأمريكية تعتزم الاستحواذ على شركة Entro الإسرائيلية لأمن الذكاء الاصطناعي مقابل 200 مليون دولار
2026-06-16
سبع مقاطعات ومدن صينية تصدر خطط عمل لـ"الذكاء الاصطناعي + التصنيع"
2026-06-16
شركة هيوليت باكارد إنتربرايز (HPE) الأمريكية تعلن عن ثمانية شركاء لدفع الحوسبة الكمومية الهجينة
2026-06-16
شركة هيدرا هوست الأمريكية لإدارة وحدات معالجة الرسوميات تجمع 100 مليون دولار
2026-06-16
شركة Mavenir الأمريكية تحصل على أول شهادة BSI NESAS لوظيفة الشبكة الأساسية للجيل الخامس في ألمانيا
2026-06-16
فوتون إيه آي تحصل على تمويل من الفئة أ بقيمة 124 مليون دولار لإنشاء بنية تحتية للذكاء الاصطناعي في أفريقيا
2026-06-16
آخر الأخبار القصيرة
1
شركة أنيكا تفوز بمشروع للطاقة الشمسية والهيدروجين في سراوق بماليزيا
2
شركة JSW Energy الهندية تبدأ تشغيل محطة تيدونغ الكهرومائية بقدرة 150 ميغاواط
3
بدء تشغيل نظام تخزين الطاقة في ليمونديل بولاية نيو ساوث ويلز الأسترالية بسعة 400 ميجاواط/ساعة
4
مبنى تاريخي في أديلايد بأستراليا يُزوَّد بنظام طاقة شمسية وبطاريات بسعة 29.04 كيلوواط
5
سلوفينيا: بورزن تطلق مناقصة دعم بقيمة 10 ملايين يورو لبطاريات التخزين
6
شركة شاكتي للمضخات تستثمر 100 مليون روبية لإنشاء مصنع للطاقة الشمسية بقدرة 2.2 جيجاواط في ماديا براديش
7
شركة WinGD السويسرية تنجح في اختبار القبول المصنعي لأول محرك أمونيا من طراز X72DF-A، لتزويد 10 سفن شحن سائبة لشركة CMB.TECH
8
شركة "ليشت بليك" الألمانية تنشئ مجمعًا شمسيًا بطاقة إنتاجية سنوية تبلغ 10.2 جيجاواط/ساعة
9
شركة Airengy الإسرائيلية وHagag Europe تقيمان محطة لتخزين الطاقة بالهواء المضغوط بقدرة 5 جيجاواط/ساعة في رومانيا
10
شركة JSW Energy الهندية تستحوذ على محطة MCCPL للطاقة الحرارية بقيمة 14.1 مليار روبية