Data Scientists : Réduisez les dépassements de coûts des

Les équipes dépassent souvent leurs budgets de coûts pour les LLM de 340 % en moyenne, mais une nouvelle approche permet aux Data Scientists d’identifier et de réduire ces dépassements en attribuant précisément les coûts au niveau des requêtes. Cette capacité transforme la manière dont les professionnels gèrent les solutions d’AI en production, transformant les dépenses cachées en informations exploitables et déplaçant l’attention des tarifs par token vers l’efficacité opérationnelle globale.

Ce qui a changé pour les Data Scientists : Le paysage pour les Data Scientists qui construisent des solutions d’AI en production a fondamentalement évolué au-delà du simple entraînement des modèles. Les décisions critiques portent désormais sur des compromis complexes qui ont un impact direct sur le budget, la vitesse de déploiement et la maintenabilité à long terme. À l’ère des LLM, la question « construire ou acheter » ne concerne plus l’entraînement à partir de zéro, mais plutôt le choix entre appeler une API, affiner un modèle open-source, ou construire et héberger une pile personnalisée.

Une enquête Omdia de 2025 a indiqué que 95 % des parties prenantes estiment que la construction offre plus de personnalisation, tandis que 91 % ont convenu que les plateformes pré-construites s’expédient plus rapidement. Les deux affirmations sont vraies, créant un dilemme qui affecte directement les calendriers de projet et l’allocation des ressources d’un Data Scientist. En dessous de 100 000 requêtes quotidiennes, les API comme GPT-4o Mini sont souvent idéales pour leur faible surcharge, mais au-dessus de 1 million de requêtes quotidiennes, les coûts par token peuvent rapidement éroder les marges.

De manière critique, le matériel et l’électricité ne représentent que 20 à 30 % des coûts d’auto-hébergement ; les 70 à 80 % restants sont du personnel, un facteur souvent sous-estimé dans les projections initiales. Les Data Scientists doivent tenir compte de ces coûts MLOps cachés et du fardeau du verrouillage technologique (« framework lock-in »), qui peut nécessiter des migrations coûteuses plus tard.

Au-delà des coûts des LLM, les Data Scientists sont confrontés au principe CACE (Changing Anything Changes Everything) dans les systèmes de ML. Une petite modification peut déclencher des effets en cascade inattendus, en particulier avec des modèles complexes. La recherche révèle que la dépendance aux données est une forme de dette technique plus coûteuse que la dépendance au code, car les données sont plus difficiles à suivre, à versionner et à expliquer aux futurs mainteneurs.

Une part importante d’un système de ML réel n’est pas le code du modèle lui-même, mais l’infrastructure environnante : les magasins de fonctionnalités, la logique des pipelines, la surveillance et les déclencheurs de réentraînement. Les Data Scientists choisissent fréquemment un modèle plus complexe pour un gain de précision marginal de 2 %, pour passer ensuite 18 mois en débogage, en surcharge de réentraînement et en maintenance – un choix qui impacte de manière disproportionnée leur productivité et les calendriers de projet.

L’intégration efficace de l’AI d’analyse prédictive nécessite une compréhension approfondie de ces coûts opérationnels à long terme, et pas seulement des métriques de performance initiales.

Avant vs Après : Avant de mettre en œuvre une attribution granulaire des coûts pour leurs outils d’AI pour les Data Scientists : Un Data Scientist estimait manuellement l’utilisation des API LLM en fonction des factures globales du projet, constatant souvent des dépassements de budget de 340 % sans savoir quelles fonctionnalités ou quels prompts spécifiques en étaient responsables. Cela conduisait à des mesures de réduction des coûts réactives et non ciblées, et à un temps considérable passé à essayer de faire de l’ingénierie inverse sur les modèles d’utilisation, prenant parfois des semaines pour identifier la cause première d’un pic de coûts.

Après : Avec une attribution granulaire des coûts au niveau des requêtes, un Data Scientist peut voir exactement quelles fonctionnalités, quels groupes d’utilisateurs, ou même quels prompts spécifiques génèrent la consommation des LLM. Cela permet une optimisation proactive, identifiant les prompts ou les fonctionnalités inefficaces en quelques heures au lieu de semaines, permettant des ajustements ciblés qui peuvent prévenir les dépassements de budget et libérer un temps substantiel pour des modèles plus percutants.

Cet article est fourni à titre d'information générale uniquement et ne constitue pas un conseil professionnel. Les faits, détails produits et chiffres étaient exacts à notre connaissance au moment de la publication et peuvent avoir changé depuis. Zekai est un éditeur indépendant, sans lien avec les entreprises mentionnées. Une erreur ? Consultez notre politique de corrections et retrait.

#AI news#AI tools#artificial intelligence#Data Scientist#workflow automation

Le briefing IA hebdo pour votre métier

Un e-mail par semaine : les changements IA qui touchent vraiment votre métier — outils, offres, et quoi en faire.

Gratuit · 1 e-mail/semaine · segmenté par métier · désabonnement à tout moment

← Article précédentDes Data Scientists réduisent la latence des systèmes de recommandation de 75 % grâce à une adaptation quasi en temps réel Article suivant →Les Data Scientists peuvent désormais déployer les LLM 8x plus rapidement avec TurboQuant de Google

Explorer par métier

Collections

Société

Data Scientists : Réduisez les dépassements de coûts des LLM de 340 % grâce à une attribution granulaire

Le briefing IA hebdo pour votre métier