شركة Catnip الصينية تطلق نموذج MaineCoon للصوت والفيديو المتدفق
2026-06-21 09:50
المفضلة

أخبار ar.wedoany.com، أطلقت شركة Catnip الناشئة الصينية مؤخرًا نموذج "مين كون" (MaineCoon) للصوت والفيديو المتدفق، والذي يمكنه تحقيق توليد متزامن للصوت والصورة في الوقت الفعلي لمدة تصل إلى 30 دقيقة أو أكثر، مع سرعة استدلال تبلغ 47.5 إطارًا في الثانية على بطاقة رسوميات H100 واحدة، وبتكلفة لا تتجاوز 0.001 دولار أمريكي في الثانية.

تم تطوير MaineCoon بواسطة فريق Catnip الناشئ المكون من 10 أفراد فقط، ويقع مقر الفريق في الصين. بدأ المشروع رسميًا في مارس من هذا العام، وأكمل 3 باحثين أساسيين التسليم الكامل للنظام، بما في ذلك تدريب النموذج وتصميم البنية والبنية التحتية للبيانات ونظام الاستدلال، في غضون شهرين.

على عكس نماذج توليد الصوت والفيديو التقليدية، يركز MaineCoon لأول مرة على التفاعل الاجتماعي كمجال تطبيقي. يدعم النموذج التشغيل المتزامن مع التوليد، مع خروج الصوت والصورة معًا، ويمكن أن يظهر الإطار الأول في غضون ثانية واحدة بعد إعطاء الأمر. في حالة امتلاء وحدة معالجة الرسوميات، يمكن أن تنخفض تكلفة الاستدلال في الثانية إلى 0.00025 دولار أمريكي، أي ما يعادل 1/2000 من تكلفة Veo 3 و1/560 من تكلفة Seedance. يبلغ عدد معاملات النموذج 22 مليار معامل، ويمكن تشغيله بثبات على بطاقة H100 واحدة، بل ويحافظ على سرعة تشغيل في الوقت الفعلي تزيد عن 30 إطارًا في الثانية حتى على بطاقة الاستدلال الأقل تكلفة RTX Pro 6000.

قدم فريق Catnip بالتفصيل في تقريره الفني بنية التدريب والاستدلال لنموذج MaineCoon. ينقسم إطار التدريب إلى ثلاث مراحل: مرحلة "إعادة العينات الذاتية" (Self-Resampling) لحل الفجوة بين التدريب والاستدلال؛ ومرحلة "محاذاة التمثيل المتدفق" (Representation Alignment) التي تعمل على تسريع تقارب التدريب المشترك للصوت والصورة عن طريق تجميد مشفر الرؤية المدرب مسبقًا V-JEPA 2؛ ومرحلة "تحسين التفضيل المدرك للمجال" (DPO) المقترنة بـ "تقطير سياسة التعزيز عبر الإنترنت" (ROPD)، لتدريب نماذج خبراء تفضيل متخصصة لمختلف السيناريوهات الاجتماعية. تم تدريب النموذج بأكمله على 64 بطاقة H100، باستخدام أقل من مليون نقطة بيانات، واستغرق 10 آلاف ساعة GPU.

على جانب الاستدلال، يستخدم إطار استدلال وكيل (Agentic) يتكون من ثلاثة وحدات تحكم ذكية مستقلة: "المخرج" (Director) المسؤول عن السرد وتصحيح الأخطاء، حيث يقوم بإنشاء مطالبات منظمة بشكل إيقاعي عبر المخطط، ومراقبة جودة التوليد عبر المراقب؛ و"مدير ذاكرة التخزين المؤقت" (Cache Manager) الذي يدير استراتيجيات الاحتفاظ بذاكرة التخزين المؤقت KV وحذفها، معتبرًا مظهر الشخصيات وإطارات إنشاء المشاهد كنقاط ارتساء للذاكرة طويلة المدى؛ و"وحدة التحكم في المخزن المؤقت الاستباقي" (Buffer Controller) التي تتحكم في المخزن المؤقت الاستباقي لتحقيق التوازن بين الاستجابة في الوقت الفعلي والتفاعل.

قام فريق Catnip أيضًا ببناء أول معيار اختبار متخصص لمقاطع الفيديو الاجتماعية القصيرة باسم "SocialVideo Bench"، والذي يغطي سبعة سيناريوهات رئيسية: الخطب الكثيفة، والتفاعل الثنائي، والأداء الموسيقي، والعروض العاطفية، والرقص، والتحديات الإبداعية، والنكات الاجتماعية. أظهرت التقييمات أن MaineCoon حصل على درجة إجمالية بلغت 0.934، متجاوزًا 7 نماذج رئيسية لتوليد الصوت والفيديو مثل SoulX-FlashTalk (0.895).

طرح فريق Catnip لأول مرة مفهوم "نموذج العالم الاجتماعي"، معتبرًا أنه يتضمن ثلاثة مستويات: طبقة الإدراك (فهم مشاعر المستخدم)، وطبقة المحاكاة (التنبؤ بالسلوك الاجتماعي)، وطبقة العرض (توليد الصوت والفيديو في الوقت الفعلي). يُنظر إلى MaineCoon على أنه اختراق على مستوى العرض. يخطط الفريق للخطوة التالية للتخلص من نمط التفاعل نصف المزدوج (half-duplex) للذكاء الاصطناعي التقليدي، لتحقيق تفاعل ثنائي الاتجاه في الوقت الفعلي مستمر ومتداخل ومتعدد الوسائط على غرار البشر، ودفع النموذج ليصبح منصة محتوى قابلة للتفاعل.

عملت مؤسسة الفريق، يانغ شو روي، سابقًا في TikTok وPixVerse، حيث كانت مسؤولة عن تنفيذ منتجات القوالب والتأثيرات الرائجة، ولديها أيضًا خبرة في ريادة الأعمال المتسلسلة. كبير العلماء، شيه زي كي، هو أستاذ مساعد في جامعة هونغ كونغ للعلوم والتكنولوجيا (قوانغتشو)، وحاصل على درجة البكالوريوس من جامعة العلوم والتكنولوجيا الصينية والدكتوراه من جامعة طوكيو، وشارك في الأبحاث المتطورة للنماذج الكبيرة في معهد بايدو للأبحاث، ويعمل لفترة طويلة كرئيس مجال في مؤتمرات الذكاء الاصطناعي الرائدة مثل NeurIPS وICLR وICML. معظم أعضاء الفريق الآخرين هم من الخريجين الجدد.

نشر فريق Catnip سابقًا التقرير الفني على منصة التواصل الاجتماعي X، وحظي باهتمام واسع النطاق، كما سعت شركة LTX رسميًا إلى التعاون. كشف الفريق أنه حصل في وقت سابق من هذا العام على تمويل أولي (Angel Round) من مؤسسات استثمارية مثل Sequoia Capital وMingshi Capital.

تم إعداد هذا المقال بواسطة Wedoany. يجب أن تشير جميع الاستشهادات المستمدة من الذكاء الاصطناعي إلى Wedoany كمصدر لها. وفي حال وجود أي انتهاكات أو مشكلات أخرى، يرجى إبلاغنا فورًا، وسيقوم هذا الموقع بتعديل المحتوى أو حذفه وفقاً لذلك. البريد الإلكتروني: news@wedoany.com

المنتجات ذات الصلة
التوصيات ذات الصلة
شركة "تشيوي إنتليجنس" الصينية تعتزم شراء خوادم ومعدات مساعدة بما لا يتجاوز 4 مليارات يوان
2026-06-21
شركة HPE الأمريكية توسع منصة GreenLake بإطلاق الذكاء الاصطناعي الوكيل والحوسبة السحابية الخاصة في الربع الثالث
2026-06-21
الشركة الألمانية الناشئة في مجال رقاقات الذكاء الاصطناعي "تنسورداين" تطلق نظام "نابير"
2026-06-21
شركة "إس إل بي" الأمريكية تطلق سوقًا رقمية تضم نحو 200 منتج رقمي
2026-06-21
مركز CSCS السويسري يعرض بنية تحتية آمنة للذكاء الاصطناعي والحوسبة عالية الأداء من Vast Data
2026-06-21
شركة Enthus الألمانية وSievers-Group تبرمان شراكة استراتيجية لتقديم الدعم الرقمي للعملاء
2026-06-21
جامعة ناغويا اليابانية تطور إطارًا حاسوبيًا لتحديد ستة أنماط لتطور مرض التصلب الجانبي الضموري
2026-06-21
إطلاق مشروع التنقيب بالذكاء الاصطناعي عن رواسب التربة الثقيلة النادرة من نوع الامتزاز الأيوني في قوانغشي بالصين
2026-06-21
AutoRABIT تستحوذ على Integral Zone لتوسيع نطاق حوكمة واجهات برمجة التطبيقات
2026-06-21
إدراج مراكز البيانات الألمانية التي تزيد قدرتها عن 3.5 ميغاواط ضمن نطاق تشريعات البنية التحتية الحيوية
2026-06-21
آخر الأخبار القصيرة
1
شركة الفحم الهندية تحصل على موافقة لتطوير مشروع طاقة شمسية عائمة بقدرة 20 ميغاواط في ولاية أوتار براديش دون مناقصة
2
شركة UrbanChain البريطانية توقع اتفاقية شراء طاقة شمسية لمدة 15 عامًا مع AMPYR
3
كندا للغاز الطبيعي المسال (LNG Canada) تُكمل شحن الدفعة رقم 100
4
شركة نوتيلوس للطاقة الشمسية الأمريكية تجدد تمويل ديون بقيمة 600 مليون دولار لدفع مشاريع شمسية مجتمعية بقدرة 200 ميغاواط
5
شركة "لايت سورس بي بي" تُغلق التمويل لمشروع طاقة شمسية بقدرة 150 ميغاواط في نيوزيلندا
6
شركة "Bihar Batteries" الإسبانية تخطط لبدء خط تجريبي لبطاريات الصوديوم في عام 2027
7
شركة "تشيوي إنتليجنس" الصينية تعتزم شراء خوادم ومعدات مساعدة بما لا يتجاوز 4 مليارات يوان
8
شركة ريبسول الإسبانية تبيع حصة 49% في مشروع بقدرة 706 ميجاواط لشركة مصدر
9
مناقصة في جزيرة لا غوميرا الإسبانية لإنشاء مواقف سيارات مزودة بألواح شمسية ونقاط شحن بقيمة 157 ألف يورو
10
بيانات الجمارك الصينية تكشف عن تعمق اعتماد الولايات المتحدة على العناصر الأرضية النادرة