أخبار ar.wedoany.com، في 2 يونيو، كشفت شركة مايكروسوفت الأمريكية خلال فعاليات Build 2026 عن أعضاء جدد في عائلة نماذج MAI، من بينها نموذج MAI-Transcribe-1.5 المخصص لتحويل الكلام إلى نص، والذي يدعم 43 لغة، ويُركز على توفير قدرات نسخ أكثر استقرارًا في ظل الضوضاء الحقيقية، واللهجات المختلفة، وتغيرات سرعة الكلام، والمصطلحات المتخصصة في القطاعات الصناعية. ويتاح النموذج للمطورين وتطبيقات المؤسسات عبر منصة Microsoft Foundry وغيرها من المنصات.
يتمثل الهدف الأساسي لنموذج MAI-Transcribe-1.5 في الارتقاء بالتعرف على الكلام من مجرد "أداة نسخ قابلة للاستخدام" إلى قاعدة أساسية لفهم الكلام على المستوى المؤسسي. في سيناريوهات مثل محاضر الاجتماعات، ومراقبة جودة خدمة العملاء، والمقابلات الطبية، والتدريب عن بُعد، ومحتوى البودكاست، ومكالمات المبيعات، وتجميع المعرفة الداخلية، لا تحتاج المؤسسات فقط إلى تحويل الصوت إلى نص، بل تحتاج أيضًا إلى الحفاظ على قابلية القراءة والبحث وإعادة الاستخدام في ظل المقاطع الصوتية الطويلة، وتعدد اللهجات، وتعدد اللغات، والبيئات المزعجة، ووفرة المصطلحات الخاصة. وأشارت مايكروسوفت في بيانها الرسمي إلى أن MAI-Transcribe-1.5 يعزز المتانة في مواجهة الصوتيات الواقعية، ويدعم إمكانية ترجيح الكلمات الرئيسية الخاصة بالمجالات، مما يسمح للمؤسسات بإضافة أسماء الأشخاص، وأسماء المنتجات، وأسماء المشاريع، وأسماء العملاء، والمصطلحات الصناعية مسبقًا إلى سياق التعرف، مما يقلل من مشكلة التعرف الخاطئ على الكيانات الأكثر شيوعًا في نتائج النسخ.
تم إدراج هذا النموذج أيضًا ضمن مجموعة نماذج MAI المطورة ذاتيًا من مايكروسوفت، ليشكل مع نماذج مثل MAI-Voice-2 وMAI-Code-1-Flash وMAI-Thinking-1 خط إنتاج متعدد الوسائط موجه للصور والصوت والبرمجة والاستدلال والنسخ.
من منظور صناعة معالجة اللغات، يتحول الذكاء الاصطناعي الصوتي من قدرة مستقلة إلى عنصر مدمج في سير العمل التجاري. في الماضي، كان على المؤسسات التي تنشر تقنيات التعرف على الكلام أن تختار بين التكلفة والدقة وسرعة النسخ والتكامل مع الأنظمة. ومع دخول نماذج النسخ إلى منظومة مايكروسوفت البيئية مثل Foundry وCopilot وTeams وGitHub وDynamics 365، يمكن للبيانات الصوتية أن تتدفق بشكل أكثر طبيعية إلى ملخصات الاجتماعات، وإدارة علاقات العملاء، وتحليل التذاكر، وتوليد قواعد المعرفة، وسير عمل الوكلاء الأذكياء. وأشارت مايكروسوفت أيضًا إلى أن MAI-Transcribe-1.5 سيشهد لاحقًا إضافة ميزات فصل المتحدثين، وواجهة برمجة تطبيقات (API) للبث المباشر الأصلية، ودعم المزيد من اللغات، مما يعني أن هدفه لا يقتصر على نسخ الملفات دفعة واحدة، بل سيتوسع ليشمل سيناريوهات الاجتماعات في الوقت الفعلي، والمساعدين الصوتيين، ومراكز الاتصال، والتعاون عبر الإنترنت.
ستتجلى القيمة الصناعية لهذه النماذج في تحويل الأصول الصوتية للمؤسسات إلى بيانات قابلة للاستغلال. تولد العديد من المؤسسات يوميًا تسجيلات للاجتماعات، ومكالمات خدمة العملاء، ومواد تدريبية، وسجلات مبيعات هاتفية، ومحتوى وسائط متعددة. ولكن إذا تعذر نسخ هذه الملفات الصوتية وأرشفتها والبحث فيها وتحليلها بدقة، فسيكون من الصعب إدخالها في سلسلة تطبيقات الذكاء الاصطناعي. يدعم MAI-Transcribe-1.5 43 لغة، وترجيح المصطلحات المتخصصة، واستدعاءات واجهة برمجة التطبيقات (API) على المستوى الإنتاجي، مما يقلل من عتبة معالجة البيانات الصوتية في سيناريوهات الشركات متعددة الجنسيات، وفرق الخدمة متعددة اللغات، وعمليات خدمة العملاء العالمية. ومع دمج نماذج تحويل الكلام إلى نص مع الوكلاء الأذكياء، والبحث، وقواعد المعرفة، والأنظمة التجارية، يتحول محور التنافس في فئة معالجة اللغات الصغيرة من دقة التعرف الفردية إلى سير عمل متكامل من "النسخ - الهيكلة - التحليل - التنفيذ التلقائي".
تتركز المتغيرات اللاحقة في سرعة إطلاق قدرات النسخ عبر البث المباشر، وفعالية فصل المتحدثين، والاستقرار طويل الأمد في بيئات متعددة اللغات، وتكلفة تكوين المصطلحات الخاصة بالمؤسسات، بالإضافة إلى الأداء الفعلي في مجالات خدمة العملاء، والاجتماعات، والرعاية الصحية، والتعليم، ومنصات المحتوى. بالنسبة للمستخدمين من المؤسسات، فإن دمج مايكروسوفت لنماذجها الصوتية المطورة ذاتيًا في منصة الذكاء الاصطناعي الإنتاجية الخاصة بها سيزيد أيضًا من حدة المنافسة بين موردي الذكاء الاصطناعي الصوتي في مجالات الدقة، وزمن الاستجابة، والتكلفة، والامتثال، والتكامل البيئي.
تم إعداد هذا المقال بواسطة Wedoany. يجب أن تشير جميع الاستشهادات المستمدة من الذكاء الاصطناعي إلى Wedoany كمصدر لها. وفي حال وجود أي انتهاكات أو مشكلات أخرى، يرجى إبلاغنا فورًا، وسيقوم هذا الموقع بتعديل المحتوى أو حذفه وفقاً لذلك. البريد الإلكتروني: news@wedoany.com









