يمكن لعلماء البيانات الآن نشر نماذج اللغات الكبيرة (LLMs)

ما كان يُعد سابقًا عنق زجاجة مقيد بالذاكرة يحد من أداء نماذج اللغات الكبيرة (LLMs) والبحث المتجهي، يمكن الآن أن يعمل أسرع بـ 8 مرات، مما يؤثر بشكل مباشر على كيفية نشر علماء البيانات لأنظمة الاسترجاع المعزز للتوليد (RAG) وتوسيع نطاقها. تمكّن مجموعة الخوارزميات الجديدة من Google، TurboQuant، من تحقيق هذه الزيادة في الكفاءة عن طريق ضغط ذاكرة التخزين المؤقت لهذه المكونات الحاسمة للـ AI إلى 3 بت فقط، كل ذلك دون الحاجة إلى إعادة تدريب النموذج أو التضحية بالدقة.

بالنسبة لأي عالم بيانات يعمل مع نماذج LLMs و RAG، فإن إدارة ذاكرة التخزين المؤقت للمفتاح والقيمة (KV cache) تمثل تحديًا مستمرًا. غالبًا ما تصبح هذه الذاكرة المؤقتة، وهي “ورقة غش” رقمية سريعة الوصول للمعلومات المستخدمة بشكل متكرر، عنق زجاجة رئيسي، خاصة عند زيادة أطوال السياق. مع نمو السياق، يتوسع الوصول إلى ذاكرة التخزين المؤقت KV بشكل خطي، مما يستهلك كميات هائلة من الذاكرة ويبطئ الحسابات بشكل كبير.

لقد حاولت طرق الاستيعاب المتجهي (VQ) التقليدية تخفيف ذلك، لكنها غالبًا ما تقدم نفقات ذاكرة خاصة بها أو تتطلب حسابات كاملة الدقة مكلفة حسابيًا على كتل بيانات صغيرة، مما يقوض جزئيًا أهداف الضغط الخاصة بها. كان هذا الكفاح مع الذاكرة وزمن الاستجابة واستخدام GPU الفعال عقبة كبيرة في نشر أدوات AI قابلة للتوسع وفي الوقت الفعلي لعلماء البيانات، مما يحد من طموح تطبيقات AI للتحليلات التنبؤية.

يغير TurboQuant هذا النموذج بشكل أساسي. إنها مجموعة من خوارزميات الضغط المتقدمة المصممة للقضاء على نفقات الذاكرة مع الحفاظ على دقة مثالية. هذا يعني أن عالم البيانات يمكنه الآن نشر نماذج LLMs أكبر أو التعامل مع نوافذ سياق أطول بكثير على الأجهزة الحالية، وبالتالي فتح إمكانيات جديدة لأدوات التعلم الآلي الخاصة بهم.

يظهر التأثير المباشر في سرعات استدلال أسرع وتوفير كبير في التكاليف على البنية التحتية السحابية مثل Google Vertex AI أو AWS SageMaker من خلال الحاجة إلى عدد أقل أو وحدات معالجة رسومات (GPUs) أقل قوة للاستدلال. بالنسبة لعلماء البيانات الذين يركزون على تشغيل النماذج، يترجم هذا مباشرة إلى دورات تكرار أسرع لنماذج AI للتحليلات التنبؤية، وأنظمة RAG أكثر استجابة، وأدوات ذكاء اصطناعي أكثر قوة في الإنتاج، مما يسمح لهم بمعالجة المشكلات التي كانت تعتبر سابقًا مكثفة للغاية من حيث الموارد.

ضع في اعتبارك سير عمل عالم بيانات ينشر نظام RAG لاسترجاع المعرفة الداخلية أو دعم العملاء في الوقت الفعلي. قبل TurboQuant: كان عالم البيانات سيقضي وقتًا طويلاً في تحديد استخدام الذاكرة أثناء الاستدلال، غالبًا ما يواجه أخطاء نفاذ الذاكرة (OOM) المزعجة عند محاولة تقديم مستندات أطول أو معالجة استعلامات محادثة أكثر تعقيدًا ومتعددة الأدوار. هذا يعني القتال المستمر مع حدود ذاكرة KV cache. غالبًا ما تضمنت التحسينات تقليم السياق كثيف العمالة، أو اللجوء إلى نماذج LLMs أصغر وأقل قدرة مع جودة مخرجات متضررة، أو الدعوة المترددة لاستثمارات كبيرة في مسرعات تستند إلى وحدات معالجة الرسوميات H100 الأكثر تكلفة، والتي لم تخفف المشكلة إلا جزئيًا. كان كل تكرار لتحسين الإنتاجية أو تمديد طول السياق عملية شاقة من التجربة والخطأ، مما أدى إلى أوقات نشر أبطأ وتكاليف تشغيل أعلى لأدوات التعلم الآلي الخاصة بهم، مما قيد في النهاية نطاق وأداء حل AI لعلوم البيانات.

بعد TurboQuant: يقوم عالم البيانات الآن بدمج TurboQuantCache في خط أنابيب استدلال LLM الخاص به ببضعة أسطر من التعليمات البرمجية. بدلاً من محاربة حدود الذاكرة، يلاحظون زيادة في الأداء بمقدار 8 أضعاف لعمليات KV cache على وحدات معالجة الرسوميات H100، والتي تم تحقيقها من خلال ضغط فعال بـ 3 بت.

هذه المقالة لأغراض المعلومات العامة فقط ولا تشكّل نصيحة مهنية. كانت الحقائق وتفاصيل المنتجات والأرقام دقيقة حسب علمنا وقت النشر وقد تكون تغيّرت منذ ذلك الحين. زيكاي ناشر مستقل وغير تابع للشركات المذكورة. وجدت خطأً؟ راجع سياسة التصحيحات والإزالة.

#AI news#AI tools#artificial intelligence#Data Scientist#workflow automation

أفضل أدوات الذكاء الاصطناعي لـعلوم البيانات — مُختبَرة ومُقيّمة

تقييم مستقل من 1 إلى 10. بعض الروابط تمنحنا عمولة — ولا تؤثر على التقييمات أبدًا.

Luzmo Embedded Analytics with AIقم بتضمين تحليلات مدعومة بالذكاء الاصطناعي مباشرة في منتجك لتجارب مستخدم واقعية ومستندة إلى البيانات.

8.0/10

المراجعة زيارة ↗

SAS Viya Analyticsسرّع التحليلات المتقدمة و ML من البيانات إلى القرارات بكفاءة لا مثيل لها.

8.0/10

المراجعة

Julius AI Data Analysis Assistantاكتشف رؤى أعمق في البيانات فورًا باستعلامات اللغة الطبيعية والتحليل الآلي.

8.0/10

المراجعة زيارة ↗

موجز الذكاء الاصطناعي الأسبوعي لمهنتك

بريد واحد أسبوعيًا: تغييرات الذكاء الاصطناعي التي تمسّ مهنتك فعلًا — أدوات وعروض وما يجب فعله.

مجاني · رسالة واحدة أسبوعيًا · مصنّفة حسب المهنة · إلغاء الاشتراك متى شئت

← الخبر السابقعلماء البيانات: خفّضوا تجاوزات تكلفة نماذج اللغة الكبيرة بنسبة 340% مع تخصيص دقيق للتكاليف

تصفّح حسب المهنة

مجموعات

الشركة

يمكن لعلماء البيانات الآن نشر نماذج اللغات الكبيرة (LLMs) أسرع بـ 8 مرات مع TurboQuant من Google

موجز الذكاء الاصطناعي الأسبوعي لمهنتك