Data Scientists : Réduisez les dépassements de coûts des LLM de 340 % grâce à une attribution granulaire

Des Data Scientists réduisent la latence des systèmes de recommandation de 75 % grâce à une adaptation quasi en temps réel
Les Data Scientists peuvent désormais déployer les LLM 8x plus rapidement avec TurboQuant de Google
📰
AI for Data Science
⏱ 4 min read

Data Scientists : Réduisez les dépassements de coûts des LLM de 340 % grâce à une attribution granulaire

Les Data Scientists peuvent réduire les dépassements de coûts des LLM de 340 % en moyenne en mettant en œuvre une attribution granulaire des coûts au niveau des requêtes. Cela permet une optimisation ciblée, économisant un temps de développement considérable et prévenant les dépassements de budget.

Share X LinkedIn Facebook

Les équipes dépassent souvent leurs budgets de coûts pour les LLM de 340 % en moyenne, mais une nouvelle approche permet aux Data Scientists d’identifier et de réduire ces dépassements en attribuant précisément les coûts au niveau des requêtes. Cette capacité transforme la manière dont les professionnels gèrent les solutions d’AI en production, transformant les dépenses cachées en informations exploitables et déplaçant l’attention des tarifs par token vers l’efficacité opérationnelle globale.

Ce qui a changé pour les Data Scientists : Le paysage pour les Data Scientists qui construisent des solutions d’AI en production a fondamentalement évolué au-delà du simple entraînement des modèles. Les décisions critiques portent désormais sur des compromis complexes qui ont un impact direct sur le budget, la vitesse de déploiement et la maintenabilité à long terme. À l’ère des LLM, la question « construire ou acheter » ne concerne plus l’entraînement à partir de zéro, mais plutôt le choix entre appeler une API, affiner un modèle open-source, ou construire et héberger une pile personnalisée.

Une enquête Omdia de 2025 a indiqué que 95 % des parties prenantes estiment que la construction offre plus de personnalisation, tandis que 91 % ont convenu que les plateformes pré-construites s’expédient plus rapidement. Les deux affirmations sont vraies, créant un dilemme qui affecte directement les calendriers de projet et l’allocation des ressources d’un Data Scientist. En dessous de 100 000 requêtes quotidiennes, les API comme GPT-4o Mini sont souvent idéales pour leur faible surcharge, mais au-dessus de 1 million de requêtes quotidiennes, les coûts par token peuvent rapidement éroder les marges.

De manière critique, le matériel et l’électricité ne représentent que 20 à 30 % des coûts d’auto-hébergement ; les 70 à 80 % restants sont du personnel, un facteur souvent sous-estimé dans les projections initiales. Les Data Scientists doivent tenir compte de ces coûts MLOps cachés et du fardeau du verrouillage technologique (« framework lock-in »), qui peut nécessiter des migrations coûteuses plus tard.

Au-delà des coûts des LLM, les Data Scientists sont confrontés au principe CACE (Changing Anything Changes Everything) dans les systèmes de ML. Une petite modification peut déclencher des effets en cascade inattendus, en particulier avec des modèles complexes. La recherche révèle que la dépendance aux données est une forme de dette technique plus coûteuse que la dépendance au code, car les données sont plus difficiles à suivre, à versionner et à expliquer aux futurs mainteneurs.

Une part importante d’un système de ML réel n’est pas le code du modèle lui-même, mais l’infrastructure environnante : les magasins de fonctionnalités, la logique des pipelines, la surveillance et les déclencheurs de réentraînement. Les Data Scientists choisissent fréquemment un modèle plus complexe pour un gain de précision marginal de 2 %, pour passer ensuite 18 mois en débogage, en surcharge de réentraînement et en maintenance – un choix qui impacte de manière disproportionnée leur productivité et les calendriers de projet.

L’intégration efficace de l’AI d’analyse prédictive nécessite une compréhension approfondie de ces coûts opérationnels à long terme, et pas seulement des métriques de performance initiales.

Avant vs Après : Avant de mettre en œuvre une attribution granulaire des coûts pour leurs outils d’AI pour les Data Scientists : Un Data Scientist estimait manuellement l’utilisation des API LLM en fonction des factures globales du projet, constatant souvent des dépassements de budget de 340 % sans savoir quelles fonctionnalités ou quels prompts spécifiques en étaient responsables. Cela conduisait à des mesures de réduction des coûts réactives et non ciblées, et à un temps considérable passé à essayer de faire de l’ingénierie inverse sur les modèles d’utilisation, prenant parfois des semaines pour identifier la cause première d’un pic de coûts.

Après : Avec une attribution granulaire des coûts au niveau des requêtes, un Data Scientist peut voir exactement quelles fonctionnalités, quels groupes d’utilisateurs, ou même quels prompts spécifiques génèrent la consommation des LLM. Cela permet une optimisation proactive, identifiant les prompts ou les fonctionnalités inefficaces en quelques heures au lieu de semaines, permettant des ajustements ciblés qui peuvent prévenir les dépassements de budget et libérer un temps substantiel pour des modèles plus percutants.

Source: Six Choices Every AI Engineer Has to Make (and Nobody Teache  ·  Processed: June 03, 2026
Stay Ahead

Get weekly AI insights

The latest AI tools, news and strategies — delivered to your inbox.

Ce site est enregistré sur wpml.org comme site de développement. Passez à une clé de site de production pour remove this banner.