يمكن لعلماء البيانات الآن نشر نماذج اللغات الكبيرة (LLMs) أسرع بـ 8 مرات مع TurboQuant من Google

علماء البيانات: خفّضوا تجاوزات تكلفة نماذج اللغة الكبيرة بنسبة 340% مع تخصيص دقيق للتكاليف
توجيهات الإنعاش القلبي الرئوي للمارة أصبحت أكثر فعالية بنسبة 40% بفضل الذكاء الاصطناعي للأطباء
📰
AI for Data Science
⏱ 1 min read

يمكن لعلماء البيانات الآن نشر نماذج اللغات الكبيرة (LLMs) أسرع بـ 8 مرات مع TurboQuant من Google

يمكن لعلماء البيانات الآن تحقيق استدلال أسرع بنسبة 8 أضعاف لنماذج LLMs وتقليل بصمة الذاكرة بشكل كبير باستخدام TurboQuant، وهي مجموعة ضغط جديدة من Google. هذه القدرة تعد بتحويل طريقة نشر أنظمة AI للتحليلات التنبؤية وأنظمة RAG.

Share X LinkedIn Facebook

ما كان يُعد سابقًا عنق زجاجة مقيد بالذاكرة يحد من أداء نماذج اللغات الكبيرة (LLMs) والبحث المتجهي، يمكن الآن أن يعمل أسرع بـ 8 مرات، مما يؤثر بشكل مباشر على كيفية نشر علماء البيانات لأنظمة الاسترجاع المعزز للتوليد (RAG) وتوسيع نطاقها. تمكّن مجموعة الخوارزميات الجديدة من Google، TurboQuant، من تحقيق هذه الزيادة في الكفاءة عن طريق ضغط ذاكرة التخزين المؤقت لهذه المكونات الحاسمة للـ AI إلى 3 بت فقط، كل ذلك دون الحاجة إلى إعادة تدريب النموذج أو التضحية بالدقة.

بالنسبة لأي عالم بيانات يعمل مع نماذج LLMs و RAG، فإن إدارة ذاكرة التخزين المؤقت للمفتاح والقيمة (KV cache) تمثل تحديًا مستمرًا. غالبًا ما تصبح هذه الذاكرة المؤقتة، وهي “ورقة غش” رقمية سريعة الوصول للمعلومات المستخدمة بشكل متكرر، عنق زجاجة رئيسي، خاصة عند زيادة أطوال السياق. مع نمو السياق، يتوسع الوصول إلى ذاكرة التخزين المؤقت KV بشكل خطي، مما يستهلك كميات هائلة من الذاكرة ويبطئ الحسابات بشكل كبير.

لقد حاولت طرق الاستيعاب المتجهي (VQ) التقليدية تخفيف ذلك، لكنها غالبًا ما تقدم نفقات ذاكرة خاصة بها أو تتطلب حسابات كاملة الدقة مكلفة حسابيًا على كتل بيانات صغيرة، مما يقوض جزئيًا أهداف الضغط الخاصة بها. كان هذا الكفاح مع الذاكرة وزمن الاستجابة واستخدام GPU الفعال عقبة كبيرة في نشر أدوات AI قابلة للتوسع وفي الوقت الفعلي لعلماء البيانات، مما يحد من طموح تطبيقات AI للتحليلات التنبؤية.

يغير TurboQuant هذا النموذج بشكل أساسي. إنها مجموعة من خوارزميات الضغط المتقدمة المصممة للقضاء على نفقات الذاكرة مع الحفاظ على دقة مثالية. هذا يعني أن عالم البيانات يمكنه الآن نشر نماذج LLMs أكبر أو التعامل مع نوافذ سياق أطول بكثير على الأجهزة الحالية، وبالتالي فتح إمكانيات جديدة لأدوات التعلم الآلي الخاصة بهم.

يظهر التأثير المباشر في سرعات استدلال أسرع وتوفير كبير في التكاليف على البنية التحتية السحابية مثل Google Vertex AI أو AWS SageMaker من خلال الحاجة إلى عدد أقل أو وحدات معالجة رسومات (GPUs) أقل قوة للاستدلال. بالنسبة لعلماء البيانات الذين يركزون على تشغيل النماذج، يترجم هذا مباشرة إلى دورات تكرار أسرع لنماذج AI للتحليلات التنبؤية، وأنظمة RAG أكثر استجابة، وأدوات ذكاء اصطناعي أكثر قوة في الإنتاج، مما يسمح لهم بمعالجة المشكلات التي كانت تعتبر سابقًا مكثفة للغاية من حيث الموارد.

ضع في اعتبارك سير عمل عالم بيانات ينشر نظام RAG لاسترجاع المعرفة الداخلية أو دعم العملاء في الوقت الفعلي. قبل TurboQuant: كان عالم البيانات سيقضي وقتًا طويلاً في تحديد استخدام الذاكرة أثناء الاستدلال، غالبًا ما يواجه أخطاء نفاذ الذاكرة (OOM) المزعجة عند محاولة تقديم مستندات أطول أو معالجة استعلامات محادثة أكثر تعقيدًا ومتعددة الأدوار. هذا يعني القتال المستمر مع حدود ذاكرة KV cache. غالبًا ما تضمنت التحسينات تقليم السياق كثيف العمالة، أو اللجوء إلى نماذج LLMs أصغر وأقل قدرة مع جودة مخرجات متضررة، أو الدعوة المترددة لاستثمارات كبيرة في مسرعات تستند إلى وحدات معالجة الرسوميات H100 الأكثر تكلفة، والتي لم تخفف المشكلة إلا جزئيًا. كان كل تكرار لتحسين الإنتاجية أو تمديد طول السياق عملية شاقة من التجربة والخطأ، مما أدى إلى أوقات نشر أبطأ وتكاليف تشغيل أعلى لأدوات التعلم الآلي الخاصة بهم، مما قيد في النهاية نطاق وأداء حل AI لعلوم البيانات.

بعد TurboQuant: يقوم عالم البيانات الآن بدمج TurboQuantCache في خط أنابيب استدلال LLM الخاص به ببضعة أسطر من التعليمات البرمجية. بدلاً من محاربة حدود الذاكرة، يلاحظون زيادة في الأداء بمقدار 8 أضعاف لعمليات KV cache على وحدات معالجة الرسوميات H100، والتي تم تحقيقها من خلال ضغط فعال بـ 3 بت.

Source: TurboQuant: Is the Compression and Performance Worth the Hyp  ·  Processed: June 03, 2026
Stay Ahead

Get weekly AI insights

The latest AI tools, news and strategies — delivered to your inbox.

هذا الموقع مسجل على wpml.org كموقع تطوير. قم بالتبديل إلى مفتاح موقع إنتاجي لـ remove this banner.