أخبار ar.wedoany.com، أطلقت شركة إنفيديا مجموعة جديدة من المكونات البرمجية وسير العمل القابلة لإعادة الاستخدام المخصصة لوكلاء الذكاء الاصطناعي البصري، بهدف دعم تطوير النماذج ومحاكاتها ونشرها في البيئات الطرفية والسحابية.
تتضمن مجموعة الأدوات، المسماة "مهارات ومخططات وكلاء Metropolis"، سير عمل لتوليد البيانات الاصطناعية، وتعزيز بيانات الفيديو، وضبط النماذج بدقة، والبحث عن الفيديو وتلخيصه. يمكن للمطورين دمج سير العمل هذا مع منصة Omniverse القائمة على OpenUSD للمحاكاة والتوأم الرقمي، ومنصة Metropolis لبناء وتشغيل تطبيقات الذكاء الاصطناعي للفيديو.
يتم نشر وكلاء الذكاء الاصطناعي البصري في المصانع والمستودعات وشبكات النقل والبنية التحتية الحضرية، حيث يسعى المشغلون إلى تحويل لقطات الكاميرات إلى تنبيهات آلية وتقارير ومراقبة للعمليات. تضع إنفيديا هذا البرنامج الجديد كحل لمشكلة شائعة في الحوسبة الطرفية: توليد كميات هائلة من البيانات بالقرب من الكاميرات وأجهزة الاستشعار، ولكن معظم هذه البيانات لا يتم تحويلها أبدًا إلى إجراءات عملية.
تشير إنفيديا إلى ثلاثة عوائق رئيسية تواجه المؤسسات عند بناء مثل هذه الأنظمة: نقص بيانات التدريب التمثيلية، خاصة للعيوب النادرة أو الأحداث غير الطبيعية؛ والعمل المتخصص المطلوب لضبط النماذج بدقة بعد ظهور فجوات في الأداء؛ والجهد الهندسي اللازم لدمج خطوط أنابيب الفيديو والنماذج والبيانات الوصفية والبحث والتنبيهات وتكامل الأنظمة في تطبيق عملي.
في قطاع التصنيع، تساعد البيانات الاصطناعية في معالجة مشكلة نقص صور العيوب الحقيقية. تشير إنفيديا إلى عمل شركة Roboflow، التي تدمج مهارات توليد صور العيوب من إنفيديا ونموذج Cosmos الأساسي العالمي في منصتها، لتخدم عملاء من بينهم شركة Corning. وفقًا لإنفيديا، وجد اختبار مرجعي مع فريق هندسة تصنيع الألياف البصرية في Corning أن النموذج المدرب باستخدام ثماني صور عيوب حقيقية مع البيانات الاصطناعية المولدة بواسطة مهارات توليد صور العيوب، حقق دقة متوسطة تبلغ 95% واستدعاءً كاملاً لأصعب فئات العيوب. تفوق هذا النموذج على النموذج الأساسي المدرب بالبيانات الحقيقية فقط، واختصر مشروعًا كان من المتوقع أن يستغرق عدة أرباع إلى بضعة أيام. يسلط هذا المثال الضوء على القيمة التجارية الرئيسية للبيانات الاصطناعية في الفحص الصناعي. قد تواجه خطوط الإنتاج التي تمنع معظم العيوب صعوبة في جمع أمثلة كافية من الأعطال لتدريب أنظمة الفحص من الجيل التالي، مما يؤدي إلى ضعف أداء النموذج في اكتشاف الحالات الشاذة غير الشائعة ولكنها مهمة.
في مجال العمليات الحضرية، تشير إنفيديا إلى وجود سوق لسير عمل الفيديو المترابط. تستخدم شركة Linker Vision مخطط البحث عن الفيديو وتلخيصه من Metropolis من إنفيديا لنشر وكلاء استدلال الفيديو في البنية التحتية الحضرية، مع استخدام التوأم الرقمي Omniverse القائم على OpenUSD لمحاكاة حركة المرور والطقس وحالات الطوارئ والتغيرات في البنية التحتية. يقوم النظام بتجميع مهام مثل البحث والتلخيص والتنبيهات والتقارير وإدارة التدفق في سير عمل قابل للتنفيذ بواسطة الوكلاء. تستخدم Linker Vision أيضًا Cosmos من إنفيديا لتعزيز بيانات الفيديو، وTAO من إنفيديا لضبط النماذج بدقة. في مدينة كاوشيونغ، تقول إنفيديا إن Linker Vision استخدمت مخطط البحث عن الفيديو وتلخيصه لتقليل عبء التطوير بنسبة 85%، وتقصير وقت الاستجابة للأحداث بنسبة تصل إلى 80%. أضافت الشركة أن التوسعة الجديدة AI-GRID للمجموعة تتضمن مخطط NemoClaw لوكلاء الذكاء الاصطناعي الآمنين في البيئات الحضرية وبيئات النقل.
في مجال العمليات المصنعية، يأتي مثال آخر من مراقبة سير العمل الصناعي. وفقًا لإنفيديا، يستخدم وكيل التحقق من إجراءات التشغيل القياسية في الوقت الفعلي من DeepHow، المنشور في شركة Foxconn، مخطط البحث عن الفيديو وتلخيصه من Metropolis للبحث عن الفيديو وتلخيصه وتحليله في بيئة التشغيل. الهدف هو تقييم ما إذا كان العمل يتم تنفيذه بشكل صحيح، ومقارنة الإجراءات بالبروتوكولات القياسية، وتحديد المشكلات قبل انتقال العيوب إلى المراحل التالية. تقول إنفيديا إن Cosmos يساعد النظام في تفسير تسلسلات الحركات البشرية في السياق، بما في ذلك تحديد ما إذا كانت خطوات التجميع قد نُفذت بالترتيب الصحيح. وفقًا لإنفيديا، على خط إنتاج خوادم GB300 من إنفيديا، رفع نظام DeepHow معدل النجاح الأولي بنسبة 3%، وحقق دقة على مستوى المهمة بنسبة 99% في فهم خطوات الإجراءات الرئيسية، وقلل من العمل الزائد عن طريق تحديد المشكلات في مرحلة مبكرة من العملية.
السياق السوقي الأوسع لهذا الإطلاق هو التحول في معالجة الذكاء الاصطناعي نحو الحافة، حيث يتم توليد البيانات عند الحافة بدلاً من إرسالها إلى البنية التحتية المركزية. تستشهد إنفيديا بتوقعات Gartner بأنه بحلول عام 2028، سيتم إنشاء ومعالجة أكثر من ثلثي بيانات المؤسسات المُدارة خارج مراكز البيانات أو السحابة، وبحلول عام 2029، ستنشر أكثر من ثلثي المؤسسات عالميًا الذكاء الاصطناعي على الحافة، مقارنة بنسبة 10% فقط في عام 2025. ومع ذلك، فإن المزيد من البيانات على الحافة لا ينتج تلقائيًا رؤى أكثر فائدة. يجب أن تعمل النماذج التي تعمل بالقرب من الكاميرات والآلات ضمن قيود زمن الاستجابة واستهلاك الطاقة والتكلفة والاتصال، مع التكيف أيضًا مع ظروف كل موقع. يقع OpenUSD في صميم نهج إنفيديا، لأنه يوفر طريقة شائعة لوصف وإعادة استخدام المشاهد ثلاثية الأبعاد. تساعد مكتبة Omniverse الفرق في بناء سير عمل المحاكاة والبيانات الاصطناعية والتوأم الرقمي، مما يوسع نطاق الاختبار عبر ظروف متعددة مثل الإضاءة والطقس وأنماط حركة المرور وزوايا الكاميرا والانسدادات والأحداث النادرة.
تتضمن المجموعة الجديدة مهارات توليد صور العيوب، ومهارات تعزيز بيانات الفيديو، ومهارات TAO لضبط النماذج بدقة، ومهارات البحث عن الفيديو وتلخيصه للتنبيهات والتقارير وإدارة التدفق. الهدف هو تمكين المطورين من عدم الاضطرار إلى إعادة بناء كل جزء من سير العمل من الصفر في كل مرة يتم فيها النشر. يهدف سير العمل القابل لإعادة الاستخدام هذا إلى مساعدة المطورين على توليد البيانات وتحسين النماذج ونشر وكلاء الذكاء الاصطناعي البصري في العمليات الصناعية والنقل والحضرية.









