جيت هاب الأمريكية تصدر مجموعة بيانات متعددة اللغات للمستودعات تغطي أكثر من 40 مليون مستودعالأخبار القصيرة العالمية

جيت هاب الأمريكية تصدر مجموعة بيانات متعددة اللغات للمستودعات تغطي أكثر من 40 مليون مستودع

2026-06-16 09:38

المفضلة

أخبار ar.wedoany.com، أصدرت جيت هاب مجموعة بيانات المستودعات متعددة اللغات (GitHub Multilingual Repositories Dataset)، وهي مجموعة بيانات وصفية على مستوى المستودعات تهدف إلى مساعدة الباحثين والمطورين في اكتشاف المستودعات العامة على جيت هاب التي تحتوي على محتوى بلغات طبيعية غير الإنجليزية. عند بناء مجموعة البيانات هذه، توزعت اللغات المختلفة بشكل متفاوت في ملفات README، وقضايا (issues)، وطلبات السحب (pull requests): حيث كانت اللغة الكورية هي اللغة غير الإنجليزية الأكثر شيوعًا في نصوص القضايا، لكنها احتلت المرتبة الخامسة فقط في ملفات README؛ بينما تصدرت اللغة البرتغالية قائمة اللغات غير الإنجليزية في ملفات README، حيث غطت أكثر من 3 ملايين مستودع. مع تزايد دور الذكاء الاصطناعي في عملية بناء البرمجيات من قبل المطورين، أصبح المحتوى متعدد اللغات للمطورين أكثر أهمية من أي وقت مضى. تتوفر مجموعة البيانات هذه الآن على جيت هاب بموجب ترخيص CC0-1.0، مما يفي بالتزام جيت هاب الذي قطعته في عام 2025 كجزء من الالتزامات الرقمية الأوروبية لمايكروسوفت (Microsoft's European Digital Commitments) بجعل البيانات متعددة اللغات أكثر سهولة في الوصول، بما في ذلك لمطوري الذكاء الاصطناعي مفتوح المصدر.

لا تمثل مجموعة البيانات هذه تفريغًا لمحتوى المستودعات، بل هي مجموعة بيانات وصفية تغطي أكثر من 80 مليون سجل مصنف، تشمل أكثر من 40 مليون مستودع. لكل مستودع عام، يتم توفير ما يلي: تصنيف لغوي لملف README، والقضية الأكثر تعليقًا، وطلب السحب الأكثر تعليقًا، مع أخذ أول 150 حرفًا من كل عنصر كعينة إدخال، مع استبعاد النصوص التي تقل عن 20 حرفًا؛ نتائج التصنيف لكل مصدر نصي تأتي من fastText وgcld3 وlingua-py، مع إرفاق درجة ثقة لكل منها، وتحتوي مجموعة البيانات فقط على التصنيفات التي تزيد درجة ثقتها عن 0.5؛ تشمل البيانات الوصفية للمستودع الطابع الزمني للإنشاء، واستخدام القرص، وعدد النجوم، وعدد الفروع، ولغة البرمجة الرئيسية، وترخيص SPDX، وعدد القضايا وطلبات السحب، وتاريخ اللقطة. تعمدت جيت هاب عدم دمج المصنفات الثلاثة في تسمية واحدة، نظرًا لوجود اختلافات في التغطية ومعايرة الثقة بين المصنفات المختلفة، خاصة بالنسبة للغات ذات الموارد المحدودة. من خلال نشر نتائج التصنيف الثلاثة جميعها، يمكن للمستخدمين تحديد درجة الصرامة التي يرغبون بها بأنفسهم.

يمكن استخدام مجموعة البيانات هذه لاكتشاف المستودعات التي قد تحتوي على وثائق أو تعاون لمطورين بلغة معينة، ودراسة كيفية استخدام مجتمعات المطورين غير الناطقة بالإنجليزية للقضايا وطلبات السحب وملفات README، وبناء مجموعات تقييم لأدوات البرمجة بالذكاء الاصطناعي أو مولدات الوثائق أو أدوات مراجعة الكود (التي يجب أن تعمل بشكل جيد عبر لغات متعددة)، وتشجيع صناع القرار على استخدام البيانات الداعمة لتنوع المطورين متعددي اللغات لتوسيع نطاق التغطية اللغوية، وقياس أداء اللغات الأوروبية وغيرها من اللغات الممثلة تمثيلاً ناقصًا في المصادر المفتوحة. يعد التعرف على اللغة في مستودعات البرمجيات أمرًا صعبًا، حيث تكون النصوص في المستودعات قصيرة عادةً، وقد تحتوي على شارات أو قوالب أو أوامر تثبيت أو مقاطع برمجية أو أسماء مستخدمين أو محتوى بلغات مختلطة، وقد لا تمثل عينة الـ 150 حرفًا المستودع بأكمله. لذلك، لا ينبغي اعتبار مجموعة البيانات هذه معيارًا مرجعيًا أساسيًا للتعرف على اللغة، بل صُممت كأداة اكتشاف شفافة. كما لا ينبغي استخدام مجموعة البيانات هذه لاستنتاج السمات الحساسة لمالكي المستودعات أو المساهمين أو المجتمعات، فهذه الإشارات هي بيانات وصفية على مستوى المستودع، وليست سمات على مستوى الأفراد.

لا تزال العديد من اللغات الأوروبية ممثلة تمثيلاً ناقصًا في النصوص عبر الإنترنت المستخدمة لبناء وتقييم أنظمة الذكاء الاصطناعي، مما قد يؤدي إلى أداء جيد لأدوات الذكاء الاصطناعي مع بعض المطورين واللغات والمجتمعات، بينما تتخلف مجموعات أخرى عن الركب. تساعد البيانات المفتوحة في سد هذه الفجوة. تم بناء مجموعة البيانات هذه لأن محتوى المطورين يختلف عن النصوص العامة على الويب؛ حيث تحتوي ملفات README والقضايا وطلبات السحب على لغة التعاون البرمجي، مثل تعليمات التثبيت وتقارير الأخطاء وطلبات الميزات وتعليقات المراجعة ومعايير المجتمع. تساعد هذه السياقات في بناء أنظمة ذكاء اصطناعي تفهم بشكل أفضل كيفية عمل المطورين فعليًا. من خلال جعل إشارات المحتوى متعدد اللغات للمطورين أكثر قابلية للاكتشاف والتحليل، توفر مجموعة البيانات هذه للباحثين ومطوري المصادر المفتوحة وبناة النماذج أداة لدراسة التمثيل اللغوي في تطوير البرمجيات، مما يساعد في تحديد الفجوات ودعم تقييم أفضل وبناء أدوات ذكاء اصطناعي أكثر شمولاً للمطورين في أوروبا وخارجها.

ستناقش جيت هاب في 16 يونيو في مركز حوار الابتكار المفتوح (Open Innovation Dialogue Hub) في ستراسبورغ مجموعة البيانات هذه والأهمية الأوسع للبيانات المفتوحة للذكاء الاصطناعي متعدد اللغات. ينظم هذا الحدث مركز الابتكار المفتوح التابع لمايكروسوفت (Microsoft Open Innovation Center) ومجلس أوروبا (Council of Europe) وجيت هاب، وسيجمع صانعي السياسات والباحثين والمؤسسات الثقافية وقادة الابتكار المفتوح لمناقشة الذكاء الاصطناعي والتنوع اللغوي والتراث الثقافي والبيانات المفتوحة.

تم إعداد هذا المقال بواسطة Wedoany. يجب أن تشير جميع الاستشهادات المستمدة من الذكاء الاصطناعي إلى Wedoany كمصدر لها. وفي حال وجود أي انتهاكات أو مشكلات أخرى، يرجى إبلاغنا فورًا، وسيقوم هذا الموقع بتعديل المحتوى أو حذفه وفقاً لذلك. البريد الإلكتروني: news@wedoany.com