نموذج "VibeThinker-3B" اللغوي من ويبو بـ3 مليارات معامل ينافس "OpenAI" في القدرات الاستدلاليةالأخبار القصيرة العالمية

نموذج "VibeThinker-3B" اللغوي من ويبو بـ3 مليارات معامل ينافس "OpenAI" في القدرات الاستدلالية

2026-06-21 09:52

المفضلة

أخبار ar.wedoany.com، أطلق فريق بحثي مكون من تسعة باحثين من شركة ويبو (Sina Weibo) نموذج "VibeThinker-3B"، وهو نموذج لغوي مضغوط يبلغ عدد معاملاته 3 مليارات معامل. وقد أظهر هذا النموذج أداءً مكافئًا أو متفوقًا في العديد من اختبارات القياس الاستدلالية مقارنة بأنظمة أكبر حجمًا من مؤسسات مثل جوجل ديب مايند (Google DeepMind)، وأوبن إيه آي (OpenAI)، وشركة أنثروبيك (Anthropic) المتخصصة في سلامة الذكاء الاصطناعي، وديب سيك (DeepSeek).

حقق النموذج درجة 94.3 في اختبار AIME 2026، وهو أداء يعادل نطاق أداء نموذج ديب سيك V3.2 (DeepSeek V3.2) الذي يمتلك 671 مليار معامل، وتفوق على درجة نموذج جيميني 3 برو (Gemini 3 Pro) البالغة 91.7. ومن خلال تطبيق طريقة توسع وقت الاختبار المسماة "تقييم الموثوقية على مستوى العبارة" (Claim-Level Reliability Assessment)، ارتفعت درجة نموذج VibeThinker-3B في اختبار AIME 2026 إلى 97.1.

في اختبارات قياس أخرى، سجل النموذج 91.4 في AIME 2025، و89.3 في HMMT 2025، و93.8 في BruMO 2025، و76.4 في IMO-AnswerBench. وفيما يتعلق بقدرات البرمجة، حقق النموذج درجة Pass@1 بلغت 80.2 في اختبار LiveCodeBench v6، وحصل على نسبة قبول بلغت 96.1% في المسابقات الأسبوعية والثنائية الأسبوعية غير المرئية سابقًا على منصة LeetCode والتي أقيمت بين أواخر أبريل وأواخر مايو 2026. وفي اختبار اتباع التعليمات IFEval، بلغت درجته 93.4.

اجتاز النموذج 123 مسألة من أصل 128 مسألة من مسائل LeetCode المقدمة في المحاولة الأولى، متجاوزًا بذلك نماذج GPT-5.2، وDoubao Seed 2.0 Pro، وKimi K2.5، وClaude Opus 4.6 في ظل ظروف التقييم نفسها.

يبلغ عدد معاملات نموذج VibeThinker-3B حوالي 1/224 من عدد معاملات نموذج ديب سيك V3.2 (DeepSeek V3.2). وعلى سبيل المقارنة، يمتلك نموذج GLM-5 حوالي 744 مليار معامل، بينما يتجاوز نموذج Kimi K2.5 تريليون معامل. هذا النموذج صغير بما يكفي ليعمل على أجهزة الكمبيوتر المحمولة الاستهلاكية. يعتقد فريق البحث أن المهام الاستدلالية القابلة للتحقق (مثل الرياضيات والبرمجة) يمكن ضغطها في نماذج أصغر حجمًا بشكل أكثر فعالية من المعرفة الواقعية الواسعة، ويطلقون على هذه الفرضية اسم "فرضية تغطية ضغط المعاملات" (Parameter Compression Coverage Hypothesis).

لم يُظهر النموذج أداءً متميزًا في جميع المجالات. ففي اختبار GPQA-Diamond، حصل على درجة 70.2، مقارنة بـ 91.9 لنموذج جيميني 3 برو (Gemini 3 Pro) و87.0 لنموذج كلود أوبوس 4.5 (Claude Opus 4.5). ويشير فريق البحث إلى أن هذه النتائج تدعم حجتهم بأن النماذج المضغوطة يمكنها الأداء بقوة في المهام الاستدلالية القابلة للتحقق، لكنها لا تستطيع أن تحل محل النماذج الكبيرة التي توفر تغطية معرفية أوسع.

تم بناء نموذج VibeThinker-3B على نموذج Qwen2.5-Coder-3B من مجموعة علي بابا (Alibaba)، وتم تحسينه من خلال عملية تدريب لاحقة من أربع مراحل. استخدمت المرحلة الأولى التعلم الخاضع للإشراف الدقيق (Supervised Fine-Tuning) على بيانات الرياضيات والبرمجة والاستدلال العلمي والتكنولوجي والهندسي والرياضي (STEM) والحوار واتباع التعليمات، ثم انتقلت إلى مسائل استدلالية أصعب وأطول. تمت إزالة عينات التدريب التي يقل طول أثرها الاستدلالي عن 5000 رمز (token)، كما تمت إزالة المشكلات التي تمكن الإصدار المبكر VibeThinker-1.5B من حلها بنسبة تزيد عن 75%. استخدمت المرحلة الثانية تحسين السياسة الموجه بالإنتروبيا القصوى (MaxEnt-Guided Policy Optimization) مع التعلم المعزز في مهام الرياضيات والبرمجة ومهام STEM. استخدم الباحثون نافذة واحدة بحجم 64000 رمز بدلاً من توسيع نافذة السياق تدريجيًا، لأن التوسع التدريجي أدى إلى انخفاض الأداء على مقياس 3 مليارات معامل. كافأت مرحلة مستقلة من "التعلم المعزز للرياضيات من الطويل إلى القصير" (Long2Short Math RL) الإجابات الصحيحة الأقصر لتقليل الإطالة غير الضرورية. في المرحلة الثالثة، تم تقطير (distillation) آثار الاستدلال الناجحة من نقاط التفتيش الخاصة بالتعلم المعزز إلى نموذج موحد. استخدمت المرحلة النهائية فحوصات قائمة على القواعد ونماذج المكافآت لتطبيق التعلم المعزز على مهام اتباع التعليمات.

أثارت نتائج الاختبار اهتمامًا، لكنها أثارت أيضًا مخاوف بشأن احتمال الإفراط في تحسين النموذج ليتناسب مع اختبارات القياس. أبلغ بعض المستخدمين أن أداء النموذج كان أضعف في مسائل البرمجة الواقعية، بما في ذلك صعوبات في التعامل مع أدوات التطوير الشائعة. وتساءل آخرون عن سبب عدم اختبار النموذج على نطاق أوسع من اختبارات القياس الخاصة بهندسة البرمجيات. صرح الباحثون أن بيانات التدريب خضعت لعملية صارمة لإزالة التلوث من اختبارات القياس، بما في ذلك تصفية النصوص المتداخلة. توفر مسابقات LeetCode الأخيرة حماية أقوى ضد تسرب البيانات، حيث أقيمت هذه المسابقات بعد أي تاريخ قطع محتمل للتدريب. ومع ذلك، لا تزال تقارير المستخدمين تشير إلى وجود فجوة بين درجات اختبارات القياس والأداء الفعلي.

تم إصدار النموذج بموجب ترخيص MIT، ويمكن الحصول على أوزانه عبر منصتي Hugging Face وModelScope. في غضون اليوم الأول من الإصدار، قام المطورون بالفعل بإنشاء إصدارات كمية بتنسيق GGUF ونماذج مشتقة.

تشتهر شركة ويبو (Sina Weibo) بمنصة التواصل الاجتماعي الخاصة بها أكثر من شهرتها في أبحاث الذكاء الاصطناعي المتطورة. يُعد نموذج VibeThinker-3B ثاني إصدار رئيسي مفتوح المصدر للشركة في غضون سبعة أشهر. ففي نوفمبر 2025، تم إصدار نموذج VibeThinker-1.5B، والذي قيل إنه تفوق على نموذج ديب سيك R1 (DeepSeek R1) الأصلي في العديد من اختبارات القياس الرياضية. ذكر الفريق أن تكلفة التدريب اللاحق بلغت 7800 دولار أمريكي، بينما تقدر تكلفة نموذج ديب سيك R1 (DeepSeek R1) بـ 294 ألف دولار أمريكي.

لم يدّع الباحثون أن نموذج VibeThinker-3B يمكن أن يحل محل النماذج العامة الكبيرة. ويرون أنه في أنظمة الذكاء الاصطناعي الهجينة، يمكن للنماذج الصغيرة معالجة مهام الاستدلال، بينما توفر الأنظمة الكبيرة المعرفة الواقعية. يمكن لهذا النهج أن يخفض تكلفة نشر الاستدلال المتقدم، ويوفر قدرات قوية في الرياضيات والبرمجة على الأجهزة ذات الموارد الحاسوبية المحدودة. يبقى السؤال الرئيسي هو ما إذا كان أداء النموذج في اختبارات القياس يمكن أن يترجم إلى تطبيقات موثوقة في العالم الحقيقي.

تم إعداد هذا المقال بواسطة Wedoany. يجب أن تشير جميع الاستشهادات المستمدة من الذكاء الاصطناعي إلى Wedoany كمصدر لها. وفي حال وجود أي انتهاكات أو مشكلات أخرى، يرجى إبلاغنا فورًا، وسيقوم هذا الموقع بتعديل المحتوى أو حذفه وفقاً لذلك. البريد الإلكتروني: news@wedoany.com

الصين