أخبار ar.wedoany.com، في 3 يوليو، خلال المؤتمر العالمي للاقتصاد الرقمي لعام 2026، أطلقت شركة ShengShu Technology (ShengShu Technology) نموذجها الأساسي للفيديو من الجيل التالي Vidu S1، الذي يحقق توليد فيديو تفاعلي لحظي، محولاً فيديو الذكاء الاصطناعي من إنتاج مقاطع منفردة إلى دعم تفاعل مستمر ولحظي.

يدعم Vidu S1 محادثة فيديو لحظية تتحكم في الشخصيات عبر التوجيه الصوتي، حيث يمكن للمستخدمين التحكم بشكل طبيعي في الصور الرمزية للذكاء الاصطناعي من خلال الإدخال الصوتي، وإجراء تفاعل مستمر غير محدود. يوفر النموذج دقة 540P (960x540) بمعدل إطارات 25 إطارًا في الثانية (بحد أقصى 42 إطارًا في الثانية)، مما يسمح للمستخدمين بإنشاء شخصيات تفاعلية مخصصة فورًا من صورة واحدة (سواء كانت لشخص حقيقي أو شخصية أنمي أو حتى حيوان أليف)، مع إمكانية تخصيص الصوت. يعمل النظام بأكمله على وحدات معالجة رسومية استهلاكية، مما يخفض بشكل كبير العائق التقني لتوليد الفيديو التفاعلي اللحظي.
تعتمد معظم نماذج توليد الفيديو الحالية على سير عمل غير متصل، حيث يقدم المستخدم مطالبة وينتظر توليد الفيديو، ويكون المحتوى ثابتًا بمجرد إنشائه. يقدم Vidu S1 إطارًا لتوليد الفيديو التفاعلي اللحظي، مما يمكن المستخدمين من تقديم إدخال صوتي مستمر أثناء محادثة الفيديو اللحظية. يعالج النموذج الإدخال الصوتي مع سياق المحادثة والسياق البصري الحالي، مما يتيح توليد وتحديث محتوى الفيديو اللاحق في الوقت الفعلي. لا يعتمد النموذج على حركات الشفاه المدفوعة بالصوت أو مكتبات الرسوم المتحركة المحددة مسبقًا، بل يفهم الدلالات الصوتية والنية والسياق العاطفي، ويولد في الوقت الفعلي حركات شفاه متزامنة، وتعبيرات وجه، وحركات عين، وإيماءات، ووضعيات جسدية، وحركات كاملة للجسم.
يعتمد Vidu S1 على بنية الانتشار الانحداري (AR+Diffusion)، حيث لا يقوم بتوليد الفيديو بأكمله مسبقًا، بل يتنبأ باستمرار ويولد محتوى الفيديو اللاحق بناءً على الإطارات التي تم توليدها بالفعل، والتعليمات الصوتية الحالية، وسياق المحادثة. عندما يقدم المستخدم تعليمات جديدة، يقوم النموذج بتحديث تعبيرات الشخصية وحركاتها وسلوكها اللاحق في الوقت الفعلي، مما يجعل التفاعل يتطور باستمرار أثناء المحادثة. يُعد هذا النموذج رائدًا في توليد الفيديو اللحظي غير المحدود المدة، حيث يحافظ على اتساق هوية الشخصية، وحركات طبيعية ومتماسكة، ومعالجة مستمرة لمدخلات المستخدم، مع تحقيق استجابة لحظية في المحادثات الطويلة.
لتحقيق توليد فيديو تفاعلي لحظي بدقة 540P (960x540) بمعدل 25 إطارًا في الثانية، مع دعم يصل إلى 42 إطارًا في الثانية، اعتمدت ShengShu Technology تقنيات تسريع الاستدلال على مستوى النموذج، بما في ذلك TurboDiffusion وSageAttention منخفضة البت وطريقة الانتباه المتناثر SLA وSpargeAttention، مما يقلل التكلفة الحسابية لكل إطار من خلال التوليد بخطوات قليلة وقياس النموذج وتحسين نواة الاستدلال. على مستوى النظام، يقوم محرك خدمة الاستدلال TurboServe بجدولة أعباء عمل الاستدلال بكفاءة، ويوزع الموارد الحسابية ديناميكيًا وفقًا لحالة التفاعل. تمكن هذه التحسينات Vidu S1 من تشغيل التوليد التفاعلي اللحظي على وحدات معالجة رسومية استهلاكية، مما يوفر أساسًا تقنيًا لتطبيقات مثل محادثة الفيديو اللحظية، والبث المباشر التفاعلي، ورفيق الذكاء الاصطناعي، والألعاب التفاعلية، وتجارب الواقع الممتد (XR).
فيما يتعلق بإنشاء الشخصيات، يقدم Vidu S1 سير عمل توليدي بالكامل، حيث يحتاج المستخدم فقط إلى تحميل صورة واحدة، ويلتقط النموذج هوية الشخصية ومظهرها وأسلوبها البصري، ويولد في الوقت الفعلي حركات شفاه متزامنة، وتعبيرات وجه، وإيماءات، وحركات كاملة للجسم، دون الحاجة إلى نمذجة وتدريب مخصصين لشخصية معينة. سواء كانت الصورة لشخص حقيقي أو شخصية أنمي أو حيوان أليف، يمكن تحويل صورة واحدة إلى شخصية تفاعلية لحظية، مع دعم الصوت القابل للتخصيص.
أصبح Vidu S1 متاحًا للاستخدام العام الآن، حيث يمكن للمستخدمين إنشاء صور رمزية للذكاء الاصطناعي والتفاعل معها في الوقت الفعلي من صورهم المخصصة. توفر منصة API الخاصة به للمطورين وشركاء الأعمال إمكانية بناء تطبيقات تفاعلية لحظية.










