تطلق شركة "Soul App" الصينية نموذج "SoulX-Transcriber" مفتوح المصدر لنسخ المحادثات الجماعية، لربط التعرف على المتحدثين والطوابع الزمنية والنصوص
2026-06-03 16:24
المفضلة

أخبار ar.wedoany.com، في 3 يونيو، أطلق فريق الذكاء الاصطناعي لشركة "Soul App" (Soul AI Lab) بالتعاون مع مجموعة أبحاث معالجة الصوت والكلام واللغة بجامعة نورث وسترن بوليتكنيكال (ASLP@NPU) وشركة "Moonstep AI"، نموذج "SoulX-Transcriber" مفتوح المصدر لنسخ المحادثات الجماعية من البداية إلى النهاية. يستهدف هذا النموذج سيناريوهات المحادثات الطويلة ومتعددة المتحدثين، حيث يمكنه توليد نتائج منظمة تتضمن طوابع زمنية وهويات المتحدثين ونصوصًا مكتوبة مباشرة من الصوتيات الجماعية.

يستهدف "SoulX-Transcriber" المشكلات المعقدة للتعرف على الكلام في سيناريوهات المحادثة الحقيقية. في الاجتماعات والبودكاست والمحادثات الجماعية وفحص جودة خدمة العملاء والمقابلات وسيناريوهات التواصل الصوتي الجماعي، لا يكون الصوت عبارة عن متحدث واحد يتحدث بالتسلسل، بل غالبًا ما يحدث تناوب سريع بين عدة أشخاص، ومقاطعات، وتداخل في الأصوات، وارتباك في نبرات الصوت المتشابهة، وضوضاء خلفية، وعدم دقة في تحديد حدود المقاطع. عادةً ما تقوم الحلول التقليدية بتقسيم اكتشاف نشاط الكلام، وفصل المتحدثين، وتجميع المتحدثين، والتعرف التلقائي على الكلام إلى وحدات متعددة متسلسلة، وأي خطأ في أي مرحلة سيتضخم في عملية النسخ اللاحقة. يعتمد "SoulX-Transcriber" إطارًا من البداية إلى النهاية، حيث يعالج "من يتحدث ومتى يتحدث وماذا قال" في نموذج موحد، محاولًا تقليل انتقال الأخطاء في الأنظمة المتسلسلة، وتعزيز القدرة على الفهم المنظم في سيناريوهات متعددة المتحدثين.

تُظهر معلومات المستودع مفتوح المصدر أن "SoulX-Transcriber" يدعم تنزيل أوزان النموذج باللغتين الصينية والإنجليزية، ويستخدم ترخيص Apache 2.0.

من الناحية التقنية، يعتمد النموذج على إطار نموذج لغوي صوتي كبير، ويستخدم استراتيجية تدريب متعددة المراحل تراعي المتحدثين، لتعزيز تمثيل المتحدثين، وإدراك الحدود، والقدرة على التعرف على الكلام المتداخل. يوضح تقريره الفني أن النموذج يجمع في التدريب بين بيانات المحادثة الحقيقية ذات العلامات شبه التلقائية وبيانات المحادثة الجماعية المحاكاة، مما يحافظ على الخصائص الصوتية والتفاعلية للصوت الحقيقي من ناحية، ويعزز من ناحية أخرى الاختلافات بين المتحدثين وهياكل المحادثة والقدرة على التعميم عبر المجالات من خلال البيانات المحاكاة الخاضعة للتحكم. في مجموعات بيانات الاجتماعات متعددة المتحدثين مثل AISHELL-4 وAliMeeting وAMI، أظهر "SoulX-Transcriber" أداءً في نسخ الكلام الجماعي؛ وفي التقييمات الداخلية للسيناريوهات العامة، غطى أيضًا بيانات متعددة المجالات أكثر تعقيدًا مثل الحوارات اليومية والصوتيات السينمائية والبودكاست. بالنسبة للمطورين، لا يقتصر إخراج النموذج على النصوص المكتوبة العادية فحسب، بل يمكنه أيضًا توليد علامات المتحدثين والحدود الزمنية بشكل متزامن، مما يسهل دمج المحتوى الصوتي في عمليات مثل محاضر الاجتماعات ومراجعة المحتوى وتنظيم قواعد البيانات وتحليل خدمة العملاء واسترجاع الوسائط المتعددة.

لهذا النوع من النماذج قيمة مباشرة لمنتجات التفاعل الصوتي ومعالجة البيانات الصوتية للمؤسسات. لقد راكمت العديد من الشركات بالفعل تسجيلات اجتماعات وتسجيلات مكالمات هاتفية وتسجيلات تدريبية ومواد مقابلات ومحتوى بودكاست وحوارات خدمة عملاء، ولكن إذا لم تتمكن هذه الصوتيات من التمييز بدقة بين المتحدثين والفترات الزمنية والمحتوى النصي، فسيكون من الصعب تحويلها إلى أصول بيانات قابلة للبحث والتحليل وإعادة الاستخدام. بعد أن يقوم نموذج نسخ المحادثات الجماعية بتحويل الصوت الخام إلى نتائج منظمة، يمكن ربطه بتطبيقات نهائية مثل توليد الملخصات واستخراج الموضوعات وتحليل المشاعر وترسيخ المعرفة وفحص جودة الأعمال. تمتلك "Soul App" نفسها سيناريوهات تفاعل صوتي جماعي وتواصل اجتماعي، ويواصل مختبر "Soul AI Lab" فتح نماذج الصوت والرقميين الافتراضيين وتوليد البودكاست وغيرها، مما يشير أيضًا إلى أن مسار تقنيتها للذكاء الاصطناعي يتشكل بشكل متواصل حول التفاعل الفوري والتعبير متعدد الوسائط وفهم الحوار.

من منظور صناعة معالجة اللغة، ينتقل التعرف على الكلام من مرحلة نسخ الجمل المفردة إلى مرحلة "فهم المحادثات الجماعية الحقيقية". في المستقبل، لن تحتاج الشركات والمنصات إلى مجرد تحويل الصوت إلى نص، بل إلى تحويل الصوتيات المعقدة إلى محتوى منظم يمكن تتبعه وإسناده وتحريره والبحث فيه. بعد فتح "SoulX-Transcriber" كمصدر مفتوح، يمكن للباحثين والمطورين إجراء تطويرات ثانوية حول نسخ الاجتماعات ومعالجة الصوتيات الطويلة والتعرف على المتحدثين المتعددين وهيكلة محتوى البودكاست وتحليل بيانات التواصل الصوتي الاجتماعي. ستركز المتغيرات اللاحقة على استقرار الصوتيات الطويلة الحقيقية، والتوسع عبر اللغات، والقدرة على التكيف مع بيئات الضوضاء، والحد الأعلى لعدد المتحدثين، وتكلفة الاستدلال، بالإضافة إلى فعالية التكامل مع سير عمل المؤسسات وأنظمة منصات المحتوى.

تم إعداد هذا المقال بواسطة Wedoany. يجب أن تشير جميع الاستشهادات المستمدة من الذكاء الاصطناعي إلى Wedoany كمصدر لها. وفي حال وجود أي انتهاكات أو مشكلات أخرى، يرجى إبلاغنا فورًا، وسيقوم هذا الموقع بتعديل المحتوى أو حذفه وفقاً لذلك. البريد الإلكتروني: news@wedoany.com

المنتجات ذات الصلة
التوصيات ذات الصلة
جامعة كانبيرا الأسترالية توقع مذكرة تعاون ثلاثية مع أومرون في مجال الروبوتات والذكاء الاصطناعي
2026-06-03
جامعة سوينبرن للتكنولوجيا وشركة Geotab تطلقان مركزًا مشتركًا لابتكار النقل
2026-06-03
لأول مرة، معالج "لونغسون" يُستخدم في نظام التحكم الأساسي للصاروخ الصيني "تشانغ تشنغ-12 بي"
2026-06-03
شركة "تي دي تيك" الصينية تطرح حلولاً متكاملة للفضاء والأرض لتعزيز مرونة البنية التحتية الرقمية
2026-06-03
من المتوقع أن يدعم مقبس LGA1954 من إنتل أجيالاً متعددة من المعالجات، بدءًا من Nova Lake وRazor Lake وصولاً إلى البنى اللاحقة، مما يجعله منصة طويلة العمر نادرة لدى إنتل.
2026-06-03
شركة شينشون للإلكترونيات الدقيقة توقع عقدًا للاستقرار في حديقة أويي التكنولوجية بمنطقة نانشا في قوانغتشو
2026-06-03
في عام 2025، تصدرت شركة "يوشو تكنولوجي" قائمة الشحنات العالمية للروبوتات البشرية بـ 5500 وحدة
2026-06-03
شبكة AI WAN الصينية تشكل قاعدة حوسبة، وخسائر الأداء عبر المناطق لا تتجاوز 5%
2026-06-03
إدراج شركة "يوشو تكنولوجي" الصينية في بورصة العلوم والتكنولوجيا (Sci-Tech Innovation Board) يوم 1 يونيو
2026-06-03
CMLink تطلق باقات جديدة لعام 2026 في المملكة المتحدة
2026-06-03
آخر الأخبار القصيرة
1
جامعة كانبيرا الأسترالية توقع مذكرة تعاون ثلاثية مع أومرون في مجال الروبوتات والذكاء الاصطناعي
2
جامعة سوينبرن للتكنولوجيا وشركة Geotab تطلقان مركزًا مشتركًا لابتكار النقل
3
لأول مرة، معالج "لونغسون" يُستخدم في نظام التحكم الأساسي للصاروخ الصيني "تشانغ تشنغ-12 بي"
4
شركة "تي دي تيك" الصينية تطرح حلولاً متكاملة للفضاء والأرض لتعزيز مرونة البنية التحتية الرقمية
5
من المتوقع أن يدعم مقبس LGA1954 من إنتل أجيالاً متعددة من المعالجات، بدءًا من Nova Lake وRazor Lake وصولاً إلى البنى اللاحقة، مما يجعله منصة طويلة العمر نادرة لدى إنتل.
6
شركة شينشون للإلكترونيات الدقيقة توقع عقدًا للاستقرار في حديقة أويي التكنولوجية بمنطقة نانشا في قوانغتشو
7
في عام 2025، تصدرت شركة "يوشو تكنولوجي" قائمة الشحنات العالمية للروبوتات البشرية بـ 5500 وحدة
8
شبكة AI WAN الصينية تشكل قاعدة حوسبة، وخسائر الأداء عبر المناطق لا تتجاوز 5%
9
إدراج شركة "يوشو تكنولوجي" الصينية في بورصة العلوم والتكنولوجيا (Sci-Tech Innovation Board) يوم 1 يونيو
10
الدورة الرابعة والتسعون من معرض CMEF تنعقد في بكين في أكتوبر 2026 بمساحة 200 ألف متر مربع