أصدر قسم أبحاث جوجل مؤخرًا مجموعة خوارزميات TurboQuant، وهي إنجاز برمجي يهدف إلى معالجة مشكلة اختناق الذاكرة في النماذج اللغوية الكبيرة. تقلل هذه الخوارزمية استخدام الذاكرة للنماذج بمتوسط 6 أضعاف من خلال ضغط متطرف للذاكرة المؤقتة للمفاتيح والقيم، كما تحسن الأداء بمقدار 8 أضعاف عند حساب الانتباه، مما قد يساعد الشركات في خفض تكاليف التشغيل بأكثر من 50%. تم نشر الورقة البحثية ذات الصلة مجانًا، ويمكن تطبيقها دون الحاجة إلى التدريب.
تعتمد TurboQuant على أطر رياضية مثل PolarQuant و Johnson-Lindenstrauss الكمية، وتقلل بشكل فعال من أخطاء التكميم من خلال معالجة من مرحلتين. في الاختبارات على نماذج مثل Llama-3.1-8B و Mistral-7B، قللت الخوارزمية من استهلاك الذاكرة بمقدار 6 أضعاف على الأقل مع الحفاظ على الأداء، وحققت تسريعًا بمقدار 8 أضعاف على أجهزة مثل NVIDIA H100.
كان رد فعل المجتمع حارًا، حيث اختبر المحلل التقني @Prince_Canuma نموذج Qwen3.5-35B في بيئة MLX، وأظهرت التقارير أن TurboQuant ببت 2.5 قللت ذاكرة التخزين المؤقت KV بمقدار 5 أضعاف تقريبًا دون أي فقدان في الدقة. وأشار المستخدم @NoahEpstein_ إلى أن الخوارزمية تقلل الفجوة بين الذكاء الاصطناعي المحلي وخدمات السحابة، مما يمكن الأجهزة الاستهلاكية من معالجة سياقات أطول.
من ناحية السوق، شهدت أسعار أسهم موردي الذاكرة اتجاهًا هبوطيًا، مما يعكس توقعات بتراجع الطلب المحتمل على ذاكرة النطاق الترددي العالي. بالنسبة للشركات، توفر TurboQuant فرصة للتحسين الفوري، حيث يمكنها تحسين خطوط الاستدلال، وتوسيع قدرات معالجة السياق، وتعزيز النشر المحلي دون الحاجة إلى إعادة تدريب النماذج.
اختارت جوجل إطلاق TurboQuant قبل مؤتمري ICLR 2026 في ريو دي جانيرو بالبرازيل و AISTATS 2026 في طنجة بالمغرب، مما يمثل انتقالًا من النظرية الأكاديمية إلى التطبيقات الإنتاجية. توفر الخوارزمية بنية تحتية فعالة للذاكرة لعصر وكلاء الذكاء الاصطناعي، وقد تدفع الصناعة نحو اتجاه "ذاكرة أفضل".








