تطلق شركة "Soul App" الصينية نموذج "SoulX-Transcriber" مفتوح المصدر لنسخ المحادثات الجماعية، لربط التعرف على المتحدثين والطوابع الزمنية والنصوصالأخبار القصيرة العالمية

تطلق شركة "Soul App" الصينية نموذج "SoulX-Transcriber" مفتوح المصدر لنسخ المحادثات الجماعية، لربط التعرف على المتحدثين والطوابع الزمنية والنصوص

2026-06-03 16:24

المفضلة

أخبار ar.wedoany.com، في 3 يونيو، أطلق فريق الذكاء الاصطناعي لشركة "Soul App" (Soul AI Lab) بالتعاون مع مجموعة أبحاث معالجة الصوت والكلام واللغة بجامعة نورث وسترن بوليتكنيكال (ASLP@NPU) وشركة "Moonstep AI"، نموذج "SoulX-Transcriber" مفتوح المصدر لنسخ المحادثات الجماعية من البداية إلى النهاية. يستهدف هذا النموذج سيناريوهات المحادثات الطويلة ومتعددة المتحدثين، حيث يمكنه توليد نتائج منظمة تتضمن طوابع زمنية وهويات المتحدثين ونصوصًا مكتوبة مباشرة من الصوتيات الجماعية.

يستهدف "SoulX-Transcriber" المشكلات المعقدة للتعرف على الكلام في سيناريوهات المحادثة الحقيقية. في الاجتماعات والبودكاست والمحادثات الجماعية وفحص جودة خدمة العملاء والمقابلات وسيناريوهات التواصل الصوتي الجماعي، لا يكون الصوت عبارة عن متحدث واحد يتحدث بالتسلسل، بل غالبًا ما يحدث تناوب سريع بين عدة أشخاص، ومقاطعات، وتداخل في الأصوات، وارتباك في نبرات الصوت المتشابهة، وضوضاء خلفية، وعدم دقة في تحديد حدود المقاطع. عادةً ما تقوم الحلول التقليدية بتقسيم اكتشاف نشاط الكلام، وفصل المتحدثين، وتجميع المتحدثين، والتعرف التلقائي على الكلام إلى وحدات متعددة متسلسلة، وأي خطأ في أي مرحلة سيتضخم في عملية النسخ اللاحقة. يعتمد "SoulX-Transcriber" إطارًا من البداية إلى النهاية، حيث يعالج "من يتحدث ومتى يتحدث وماذا قال" في نموذج موحد، محاولًا تقليل انتقال الأخطاء في الأنظمة المتسلسلة، وتعزيز القدرة على الفهم المنظم في سيناريوهات متعددة المتحدثين.

تُظهر معلومات المستودع مفتوح المصدر أن "SoulX-Transcriber" يدعم تنزيل أوزان النموذج باللغتين الصينية والإنجليزية، ويستخدم ترخيص Apache 2.0.

من الناحية التقنية، يعتمد النموذج على إطار نموذج لغوي صوتي كبير، ويستخدم استراتيجية تدريب متعددة المراحل تراعي المتحدثين، لتعزيز تمثيل المتحدثين، وإدراك الحدود، والقدرة على التعرف على الكلام المتداخل. يوضح تقريره الفني أن النموذج يجمع في التدريب بين بيانات المحادثة الحقيقية ذات العلامات شبه التلقائية وبيانات المحادثة الجماعية المحاكاة، مما يحافظ على الخصائص الصوتية والتفاعلية للصوت الحقيقي من ناحية، ويعزز من ناحية أخرى الاختلافات بين المتحدثين وهياكل المحادثة والقدرة على التعميم عبر المجالات من خلال البيانات المحاكاة الخاضعة للتحكم. في مجموعات بيانات الاجتماعات متعددة المتحدثين مثل AISHELL-4 وAliMeeting وAMI، أظهر "SoulX-Transcriber" أداءً في نسخ الكلام الجماعي؛ وفي التقييمات الداخلية للسيناريوهات العامة، غطى أيضًا بيانات متعددة المجالات أكثر تعقيدًا مثل الحوارات اليومية والصوتيات السينمائية والبودكاست. بالنسبة للمطورين، لا يقتصر إخراج النموذج على النصوص المكتوبة العادية فحسب، بل يمكنه أيضًا توليد علامات المتحدثين والحدود الزمنية بشكل متزامن، مما يسهل دمج المحتوى الصوتي في عمليات مثل محاضر الاجتماعات ومراجعة المحتوى وتنظيم قواعد البيانات وتحليل خدمة العملاء واسترجاع الوسائط المتعددة.

لهذا النوع من النماذج قيمة مباشرة لمنتجات التفاعل الصوتي ومعالجة البيانات الصوتية للمؤسسات. لقد راكمت العديد من الشركات بالفعل تسجيلات اجتماعات وتسجيلات مكالمات هاتفية وتسجيلات تدريبية ومواد مقابلات ومحتوى بودكاست وحوارات خدمة عملاء، ولكن إذا لم تتمكن هذه الصوتيات من التمييز بدقة بين المتحدثين والفترات الزمنية والمحتوى النصي، فسيكون من الصعب تحويلها إلى أصول بيانات قابلة للبحث والتحليل وإعادة الاستخدام. بعد أن يقوم نموذج نسخ المحادثات الجماعية بتحويل الصوت الخام إلى نتائج منظمة، يمكن ربطه بتطبيقات نهائية مثل توليد الملخصات واستخراج الموضوعات وتحليل المشاعر وترسيخ المعرفة وفحص جودة الأعمال. تمتلك "Soul App" نفسها سيناريوهات تفاعل صوتي جماعي وتواصل اجتماعي، ويواصل مختبر "Soul AI Lab" فتح نماذج الصوت والرقميين الافتراضيين وتوليد البودكاست وغيرها، مما يشير أيضًا إلى أن مسار تقنيتها للذكاء الاصطناعي يتشكل بشكل متواصل حول التفاعل الفوري والتعبير متعدد الوسائط وفهم الحوار.

من منظور صناعة معالجة اللغة، ينتقل التعرف على الكلام من مرحلة نسخ الجمل المفردة إلى مرحلة "فهم المحادثات الجماعية الحقيقية". في المستقبل، لن تحتاج الشركات والمنصات إلى مجرد تحويل الصوت إلى نص، بل إلى تحويل الصوتيات المعقدة إلى محتوى منظم يمكن تتبعه وإسناده وتحريره والبحث فيه. بعد فتح "SoulX-Transcriber" كمصدر مفتوح، يمكن للباحثين والمطورين إجراء تطويرات ثانوية حول نسخ الاجتماعات ومعالجة الصوتيات الطويلة والتعرف على المتحدثين المتعددين وهيكلة محتوى البودكاست وتحليل بيانات التواصل الصوتي الاجتماعي. ستركز المتغيرات اللاحقة على استقرار الصوتيات الطويلة الحقيقية، والتوسع عبر اللغات، والقدرة على التكيف مع بيئات الضوضاء، والحد الأعلى لعدد المتحدثين، وتكلفة الاستدلال، بالإضافة إلى فعالية التكامل مع سير عمل المؤسسات وأنظمة منصات المحتوى.

تم إعداد هذا المقال بواسطة Wedoany. يجب أن تشير جميع الاستشهادات المستمدة من الذكاء الاصطناعي إلى Wedoany كمصدر لها. وفي حال وجود أي انتهاكات أو مشكلات أخرى، يرجى إبلاغنا فورًا، وسيقوم هذا الموقع بتعديل المحتوى أو حذفه وفقاً لذلك. البريد الإلكتروني: news@wedoany.com

الصين

تم تجميع هذه الأخبار القصيرة وإعادة نشرها من للمعلومات من الإنترنت العالمي والشركاء الاستراتيجيين، وهي مخصصة فقط للقراء للتواصل، إذا كان هناك أي انتهاكات أو مشاكل أخرى، فيرجى إبلاغنا في الوقت المناسب، وسنقوم بتعديلها أو حذفها. يُمنع منعًا باتًا إعادة نشر هذه المقالة دون إذن رسمي. البريد الإلكتروني: news@wedoany.com

المقالة السابقة：ارتفاع الإيرادات الأساسية لمجموعة IHH للرعاية الصحية الماليزية بنسبة 16% إلى 1.6 مليار دولار في الربع الأول

المقالة التالية：ناسا تعلن في 1 يونيو التخلي عن مفهوم الوحدة الأساسية للمحطة الفضائية التجارية