أخبار ar.wedoany.com، في الثالث من يونيو، أطلقت شركة جيه.دي.دوت كوم إطار عمل JoyAI-Echo لتوليد الفيديو والصوت الطويل، مع فتح الكود المصدري والأوزان بالكامل. يستهدف هذا الإطار سيناريوهات توليد الفيديو والصوت الطويل، حيث يقدم "مساعد المخرج" الذكي Director Agent، ويجهز بنك ذاكرة صوتي-بصري متعدد الوسائط، يُستخدم للحفاظ المستمر على خصائص المظهر الخارجي للشخصيات ومعلومات نبرة صوت المتحدث واستدعائها أثناء عملية التوليد متعدد اللقطات.
يتناول JoyAI-Echo مشكلة الاستقرار طويلة الأمد في توليد الفيديو الطويل. تمتلك نماذج توليد الفيديو الحالية أداءً قوياً في سيناريوهات المقاطع القصيرة واللقطة الواحدة والشخصية الواحدة، ولكن بمجرد الدخول في سرد متعدد اللقطات، أو ظهور متتابع للشخصيات، أو حوار بين الشخصيات، أو توليد محتوى طويل المدة، تواجه النماذج مشاكل مثل انحراف مظهر الشخصية، وعدم تناسق نبرة الصوت، وانقطاع منطق اللقطات، وبطء سرعة التوليد. يسجل JoyAI-Echo هوية الشخصية وصورتها البصرية وسياق الصوت عبر بنك الذاكرة الصوتي-البصري متعدد الوسائط، مما يسمح للقطات اللاحقة بمواصلة استخدام المعلومات السابقة؛ ويتولى Director Agent وظيفة تفكيك السيناريو والشخصيات واللقطات، مما يمكن المستخدمين من تقديم متطلبات الإبداع والتعديل من خلال اللغة الطبيعية، مما يقلل من تكلفة إعادة تشغيل المحتوى بالكامل بشكل متكرر أثناء عملية توليد الفيديو الطويل.
يظهر مستودع المصدر المفتوح لشركة جيه.دي.دوت كوم أن JoyAI-Echo يدعم توليد الفيديو والصوت متعدد اللقطات على مستوى الدقائق، ويمكنه توليد قصة متماسكة من خلال موجه JSON واحد، ويستخدم خطة تقطير DMD للاستدلال بخطوات قليلة لزيادة سرعة التوليد.
تكمن أهمية هذا الإطار في دفع توليد الفيديو والصوت الطويل من "نتيجة توليد لمرة واحدة" إلى "عملية إبداعية قابلة للتحرير المستمر". في سيناريوهات مثل التصور المسبق للأعمال السينمائية والتلفزيونية، وفيديوهات العلامات التجارية التسويقية، ومحتوى الشخصيات الرقمية، وإنشاء القصص الافتراضية، والمسلسلات القصيرة المباشرة، لا يحتاج المبدعون فقط إلى توليد صورة واحدة، بل يحتاجون إلى الحفاظ على مظهر موحد وصوت موحد وأسلوب سرد موحد للشخصية عبر أجزاء متعددة من القصة. يدمج JoyAI-Echo الصوت والفيديو وذاكرة الشخصية وتخطيط اللقطات والتحرير الحواري في إطار عمل واحد، مما يساعد على خفض الحاجز التقني لإنتاج المحتوى الطويل. بعد فتح الكود المصدري والأوزان بالكامل، يمكن للمطورين أيضًا إجراء تطوير ثانوي وتقييم النماذج وتعديل السيناريوهات الرأسية بناءً على هذا الإطار، مما يزيد من توسيع النظام البيئي لتوليد الفيديو والصوت الطويل محليًا.
تتركز المتغيرات اللاحقة في حالة تكيف مجتمع المصادر المفتوحة، وتكلفة النشر الفعلية، وأداء اتساق الفيديو الطويل، وتجربة التحرير التفاعلية، وسرعة تطبيق السيناريوهات التجارية. مع انتقال توليد الفيديو بالذكاء الاصطناعي من عروض المقاطع القصيرة إلى مراحل إنتاج محتوى أكثر تعقيدًا، ستصبح ذاكرة الشخصية واتساق الصوت واستمرارية اللقطات وقابلية التحرير مؤشرات مهمة للمنافسة بين أطر النماذج. سيوفر فتح مصدر JoyAI-Echo مدخلاً تقنيًا قابلاً لإعادة الإنتاج والتوسع في مجال توليد الفيديو والصوت الطويل.
تم إعداد هذا المقال بواسطة Wedoany. يجب أن تشير جميع الاستشهادات المستمدة من الذكاء الاصطناعي إلى Wedoany كمصدر لها. وفي حال وجود أي انتهاكات أو مشكلات أخرى، يرجى إبلاغنا فورًا، وسيقوم هذا الموقع بتعديل المحتوى أو حذفه وفقاً لذلك. البريد الإلكتروني: news@wedoany.com









