جيت هاب الأمريكية تصدر مجموعة بيانات متعددة اللغات للمستودعات تغطي أكثر من 40 مليون مستودع
2026-06-16 09:38
المفضلة

أخبار ar.wedoany.com، أصدرت جيت هاب مجموعة بيانات المستودعات متعددة اللغات (GitHub Multilingual Repositories Dataset)، وهي مجموعة بيانات وصفية على مستوى المستودعات تهدف إلى مساعدة الباحثين والمطورين في اكتشاف المستودعات العامة على جيت هاب التي تحتوي على محتوى بلغات طبيعية غير الإنجليزية. عند بناء مجموعة البيانات هذه، توزعت اللغات المختلفة بشكل متفاوت في ملفات README، وقضايا (issues)، وطلبات السحب (pull requests): حيث كانت اللغة الكورية هي اللغة غير الإنجليزية الأكثر شيوعًا في نصوص القضايا، لكنها احتلت المرتبة الخامسة فقط في ملفات README؛ بينما تصدرت اللغة البرتغالية قائمة اللغات غير الإنجليزية في ملفات README، حيث غطت أكثر من 3 ملايين مستودع. مع تزايد دور الذكاء الاصطناعي في عملية بناء البرمجيات من قبل المطورين، أصبح المحتوى متعدد اللغات للمطورين أكثر أهمية من أي وقت مضى. تتوفر مجموعة البيانات هذه الآن على جيت هاب بموجب ترخيص CC0-1.0، مما يفي بالتزام جيت هاب الذي قطعته في عام 2025 كجزء من الالتزامات الرقمية الأوروبية لمايكروسوفت (Microsoft's European Digital Commitments) بجعل البيانات متعددة اللغات أكثر سهولة في الوصول، بما في ذلك لمطوري الذكاء الاصطناعي مفتوح المصدر.

لا تمثل مجموعة البيانات هذه تفريغًا لمحتوى المستودعات، بل هي مجموعة بيانات وصفية تغطي أكثر من 80 مليون سجل مصنف، تشمل أكثر من 40 مليون مستودع. لكل مستودع عام، يتم توفير ما يلي: تصنيف لغوي لملف README، والقضية الأكثر تعليقًا، وطلب السحب الأكثر تعليقًا، مع أخذ أول 150 حرفًا من كل عنصر كعينة إدخال، مع استبعاد النصوص التي تقل عن 20 حرفًا؛ نتائج التصنيف لكل مصدر نصي تأتي من fastText وgcld3 وlingua-py، مع إرفاق درجة ثقة لكل منها، وتحتوي مجموعة البيانات فقط على التصنيفات التي تزيد درجة ثقتها عن 0.5؛ تشمل البيانات الوصفية للمستودع الطابع الزمني للإنشاء، واستخدام القرص، وعدد النجوم، وعدد الفروع، ولغة البرمجة الرئيسية، وترخيص SPDX، وعدد القضايا وطلبات السحب، وتاريخ اللقطة. تعمدت جيت هاب عدم دمج المصنفات الثلاثة في تسمية واحدة، نظرًا لوجود اختلافات في التغطية ومعايرة الثقة بين المصنفات المختلفة، خاصة بالنسبة للغات ذات الموارد المحدودة. من خلال نشر نتائج التصنيف الثلاثة جميعها، يمكن للمستخدمين تحديد درجة الصرامة التي يرغبون بها بأنفسهم.

يمكن استخدام مجموعة البيانات هذه لاكتشاف المستودعات التي قد تحتوي على وثائق أو تعاون لمطورين بلغة معينة، ودراسة كيفية استخدام مجتمعات المطورين غير الناطقة بالإنجليزية للقضايا وطلبات السحب وملفات README، وبناء مجموعات تقييم لأدوات البرمجة بالذكاء الاصطناعي أو مولدات الوثائق أو أدوات مراجعة الكود (التي يجب أن تعمل بشكل جيد عبر لغات متعددة)، وتشجيع صناع القرار على استخدام البيانات الداعمة لتنوع المطورين متعددي اللغات لتوسيع نطاق التغطية اللغوية، وقياس أداء اللغات الأوروبية وغيرها من اللغات الممثلة تمثيلاً ناقصًا في المصادر المفتوحة. يعد التعرف على اللغة في مستودعات البرمجيات أمرًا صعبًا، حيث تكون النصوص في المستودعات قصيرة عادةً، وقد تحتوي على شارات أو قوالب أو أوامر تثبيت أو مقاطع برمجية أو أسماء مستخدمين أو محتوى بلغات مختلطة، وقد لا تمثل عينة الـ 150 حرفًا المستودع بأكمله. لذلك، لا ينبغي اعتبار مجموعة البيانات هذه معيارًا مرجعيًا أساسيًا للتعرف على اللغة، بل صُممت كأداة اكتشاف شفافة. كما لا ينبغي استخدام مجموعة البيانات هذه لاستنتاج السمات الحساسة لمالكي المستودعات أو المساهمين أو المجتمعات، فهذه الإشارات هي بيانات وصفية على مستوى المستودع، وليست سمات على مستوى الأفراد.

لا تزال العديد من اللغات الأوروبية ممثلة تمثيلاً ناقصًا في النصوص عبر الإنترنت المستخدمة لبناء وتقييم أنظمة الذكاء الاصطناعي، مما قد يؤدي إلى أداء جيد لأدوات الذكاء الاصطناعي مع بعض المطورين واللغات والمجتمعات، بينما تتخلف مجموعات أخرى عن الركب. تساعد البيانات المفتوحة في سد هذه الفجوة. تم بناء مجموعة البيانات هذه لأن محتوى المطورين يختلف عن النصوص العامة على الويب؛ حيث تحتوي ملفات README والقضايا وطلبات السحب على لغة التعاون البرمجي، مثل تعليمات التثبيت وتقارير الأخطاء وطلبات الميزات وتعليقات المراجعة ومعايير المجتمع. تساعد هذه السياقات في بناء أنظمة ذكاء اصطناعي تفهم بشكل أفضل كيفية عمل المطورين فعليًا. من خلال جعل إشارات المحتوى متعدد اللغات للمطورين أكثر قابلية للاكتشاف والتحليل، توفر مجموعة البيانات هذه للباحثين ومطوري المصادر المفتوحة وبناة النماذج أداة لدراسة التمثيل اللغوي في تطوير البرمجيات، مما يساعد في تحديد الفجوات ودعم تقييم أفضل وبناء أدوات ذكاء اصطناعي أكثر شمولاً للمطورين في أوروبا وخارجها.

ستناقش جيت هاب في 16 يونيو في مركز حوار الابتكار المفتوح (Open Innovation Dialogue Hub) في ستراسبورغ مجموعة البيانات هذه والأهمية الأوسع للبيانات المفتوحة للذكاء الاصطناعي متعدد اللغات. ينظم هذا الحدث مركز الابتكار المفتوح التابع لمايكروسوفت (Microsoft Open Innovation Center) ومجلس أوروبا (Council of Europe) وجيت هاب، وسيجمع صانعي السياسات والباحثين والمؤسسات الثقافية وقادة الابتكار المفتوح لمناقشة الذكاء الاصطناعي والتنوع اللغوي والتراث الثقافي والبيانات المفتوحة.

تم إعداد هذا المقال بواسطة Wedoany. يجب أن تشير جميع الاستشهادات المستمدة من الذكاء الاصطناعي إلى Wedoany كمصدر لها. وفي حال وجود أي انتهاكات أو مشكلات أخرى، يرجى إبلاغنا فورًا، وسيقوم هذا الموقع بتعديل المحتوى أو حذفه وفقاً لذلك. البريد الإلكتروني: news@wedoany.com

المنتجات ذات الصلة
التوصيات ذات الصلة
إطلاق منصة "NuPlay" الهندية للذكاء الاصطناعي من "Nurix" في سوق مايكروسوفت
2026-06-16
شركة ARBOR الأمريكية تعرض حلول الحوسبة الطرفية الذكية (Edge AI) والذكاء الاصطناعي الفيزيائي (Physical AI) في معرض Automate
2026-06-16
جماعات ريفية أمريكية تطالب بمراجعة صفقة بيع طيف فيريزون بقيمة مليار دولار لشركة Array
2026-06-16
تختار الوكالة الوطنية للاتصالات البرازيلية المقرر لتعديلات "R-Ciber"
2026-06-16
فودافون آيديا الهندية تطلق قسيمة بيانات غير محدودة بقيمة 99 روبية
2026-06-16
شركة BetterAge الأمريكية تعيّن رئيسًا للشراكات وتوسّع دور المدير التقني
2026-06-16
شركة L2T الأمريكية تطلق استراتيجية GEO وتقرير LLM لتعزيز ظهور الوكلاء في نتائج البحث بالذكاء الاصطناعي
2026-06-16
كولومبيا توافق على تنظيم جديد لسوق الجملة لتقنية FTTH
2026-06-16
وزارة تكنولوجيا المعلومات والاتصالات الكولومبية تستثمر 25 مليار بيزو في مد كابل ألياف ضوئية تحت الماء
2026-06-16
شركة Sateliot الإسبانية وCPQD البرازيلية تنجزان أول عرض تجاري لإنترنت الأشياء عبر الأقمار الصناعية في البرازيل
2026-06-16
آخر الأخبار القصيرة
1
نحو 60% من هيكل ماتشو بيتشو في بيرو مدفون تحت الأرض، وكشف نظام الهندسة الإنكا
2
كاتدرائية ساغرادا فاميليا تثبت صليباً من تصميم مهندس مكسيكي يزن مئة طن
3
جامعة ولاية أوريغون الأمريكية تشرع في بناء مختبر ضخم من الخشب بتكلفة 200 مليون دولار
4
نجاح غمر أول قطعة نفق في مضيق فيهمارن بيلت وتأخير تشغيل المشروع الألماني-الدنماركي لمدة عامين
5
بلدية كيب تاون تلتزم باستثمار 39.7 مليار راند في أكبر مشروع للبنية التحتية الحضرية
6
منحة بقيمة 1.1 مليون دولار تقريبًا من بنك البنية التحتية لولاية رود آيلاند لتصميم وهندسة مشاريع إدارة مياه الأمطار
7
إعادة افتتاح جسر ميلر-روتوندا بولاية ميشيغان الأمريكية عام 2026 بعد إعادة بنائه
8
شركة Immuta الأمريكية تطلق أربع ميزات جديدة لإدارة الوصول إلى البيانات لمنصة Databricks
9
جامعة الكومنولث الكاريبي تخطط لإنشاء مدينة جامعية ذكية "إيكو فيستا" على مساحة 283 فدانًا في جامايكا
10
شركة Allora الأمريكية تتعاون مع Pairpoint لبناء طبقة ذكاء تنبؤي