7 : pourquoi ses tokens s’épuisent plus vite Opus 4. 7 consomme plus de tokens que la version précédente, avec des implications sur les coûts et la gestion des sorties. La consommation de tokens Opus 4. 7 est au cœur des tests lancés après la mise en service de cette version.
La consommation de tokens Opus 4.7 est au cœur des tests lancés après la mise en service de cette version. Si Opus 4.7 offre des performances accrues sur certaines tâches, elle dépense toutefois ses tokens plus rapidement que Opus 4.6, en partie à cause d’un nouveau tokeniseur et d’une réflexion plus poussée sur les prompts.
Opus 4.7: pourquoi la consommation de tokens augmente
Les tarifs d’entrée et de sortie restent identiques entre les deux versions: 5 dollars par million de tokens en entrée et 25 dollars par million de tokens en sortie. Cependant, le passage à Opus 4.7 peut nécessiter davantage de tokens pour une même entrée. Le nouveau tokeniseur peut théoriquement entraîner entre 1,0 et 1,35 fois de tokens supplémentaires selon le contenu. Par ailleurs, Opus 4.7 est conçu pour être plus performant lorsque l’effort demandé est plus important, ce qui améliore la fiabilité sur les tâches complexes mais génère des jetons de sortie plus importants.
Impact pratique et ajustements
Dans des tests menés avec des prompts relativement simples, une même requête peut consommer environ 41 % de tokens en plus avec Opus 4.7 par rapport à Opus 4.6. Pour mesurer cela, des tests utilisant l’API ont été mis en place afin de comparer les consommations sur des scénarios identiques et d’observer les variations selon le type de contenu.
Ce que cela change pour les utilisateurs
Pour les utilisateurs, cela signifie que, même si le coût par token reste le même, la dépense globale peut augmenter si l’usage n’est pas adapté. En parallèle, Anthropic a réagi en réduisant la taille des réponses lorsque possible, afin d’économiser les tokens en sortie tout en conservant la performance sur les cas complexes.
- Coût global : le tarif par token est inchangé, mais une consommation plus élevée peut accroître le coût pour un flux donné.
- Qualité et complexité : meilleure gestion des requêtes complexes, avec des jetons de sortie plus importants dans certains scénarios.
- Réduction des sorties : des ajustements ont permis de limiter la surconsommation de tokens en sortie lorsque la longueur des réponses pouvait être réduite.
Limites et incertitudes
Les chiffres observés dépendent fortement du type de contenu et de la formulation des prompts. Le tokeniseur et le comportement du modèle varient selon le contexte; des résultats obtenus sur des prompts simples peuvent différer sur des cas plus techniques ou longs. Il est recommandé de mesurer l’impact sur ses propres flux pour estimer précisément le coût et la performance.
Pour terminer
En résumé, Opus 4.7 apporte des gains de performance, mais au prix d’une consommation de tokens plus élevée. La clé pour les équipes est de mesurer l’impact sur leurs propres prompts et d’ajuster la longueur des sorties lorsque c’est possible afin d’équilibrer coût et efficacité. Une question demeure : comment les futures versions optimiseront ces deux aspects sans sacrifier la fiabilité ?