MuiRouter
Retour au blog
8 min de lecture

Claude Sonnet 5 est là : le Sonnet le plus agentique d'Anthropic comble l'écart avec Opus 4.8

Anthropic a lancé Claude Sonnet 5 le 30 juin 2026, avec des performances en codage agentique et en utilisation d'outils proches d'Opus 4.8, à un tarif bien inférieur. Voici ce qui a été publié, ce que disent les benchmarks et les avis indépendants, le piège tarifaire à connaître, et ce que cela signifie si vous développez avec l'IA.

Claude Sonnet 5AnthropicModèles IA

Le 30 juin 2026, Anthropic a lancé Claude Sonnet 5, qu'elle qualifie de modèle Sonnet le plus agentique à ce jour. L'argument est simple : des performances en codage agentique et en utilisation d'outils qui comblent la majeure partie de l'écart avec Claude Opus 4.8, à un tarif de lancement inférieur même à celui du Sonnet 4.6 sortant. C'est désormais le modèle par défaut des offres Free et Pro de Claude.

Cette combinaison est la vraie histoire ici, plus que n'importe quel benchmark isolé. Pendant des années, l'arbitrage a été brutal : payer le prix d'Opus pour une capacité de pointe, ou accepter un véritable écart de capacité pour économiser. Sonnet 5 est la tentative d'Anthropic de réduire fortement cet arbitrage. Reste à savoir si l'entreprise y parvient, ce qui dépend de ce que vous cherchez à optimiser — et, comme plusieurs évaluateurs l'ont souligné, de votre lecture attentive des détails tarifaires au-delà du chiffre affiché.

Ce qu'Anthropic a réellement publié

Selon l'annonce de Claude Sonnet 5 d'Anthropic et sa system card, ce lancement se concentre sur la capacité agentique : planifier un travail en plusieurs étapes, utiliser des outils comme les navigateurs et les terminaux, et fonctionner avec moins de supervision que les précédents modèles Sonnet.

  • ID du modèle : claude-sonnet-5, disponible via l'API, Claude Code et la Claude Platform.
  • Il est désormais le modèle par défaut des offres Free et Pro de Claude.
  • Déjà disponible sur Amazon Bedrock, en plus de l'API directe.
  • Positionné explicitement comme un moyen moins coûteux d'exécuter des charges de travail agentiques qui nécessitaient auparavant un modèle plus grand.

Ce positionnement compte : Anthropic ne présente pas Sonnet 5 comme un nouveau plafond de pointe. L'entreprise le présente comme le modèle à utiliser par défaut pour le travail agentique, Opus 4.8 restant réservé aux tâches qui exigent encore davantage.

Comparaison des benchmarks avec Sonnet 4.6 et Opus 4.8

Les chiffres phares évoluent dans le même sens en matière de raisonnement, de codage, d'utilisation d'outils et d'utilisation d'ordinateur :

BenchmarkSonnet 4.6Sonnet 5Opus 4.8
Codage agentique (SWE-bench Pro)58,1 %63,2 %69,2 %
Terminal-Bench 2.167,0 %80,4 %
Utilisation d'ordinateur (OSWorld-Verified)78,5 %81,2 %
Humanity's Last Exam (avec outils)46,8 %57,4 %57,9 %
Travail de connaissance (GDPval-AA v2)1 6181 615

Deux éléments ressortent. D'abord, le bond de Terminal-Bench — 13 points — est la plus forte progression isolée, ce qui correspond bien au positionnement de Sonnet 5 par Anthropic comme un lancement axé sur l'agentique plutôt que comme une mise à niveau générale des connaissances. Ensuite, sur GDPval-AA v2, Sonnet 5 devance même Opus 4.8, 1 618 contre 1 615. La marge est étroite et il ne s'agit que d'un seul benchmark, mais il est rare qu'un modèle moins cher surpasse le modèle phare sur quoi que ce soit — un point à connaître si votre charge de travail ressemble davantage à du travail de connaissance structuré qu'à du codage agentique pur.

Sur SWE-bench Pro en particulier, Sonnet 5 accuse toujours six points de retard sur Opus 4.8. C'est l'écart à garder à l'esprit avant de router par défaut toutes vos tâches de codage vers le modèle le moins cher.

Ce que disent les avis indépendants

Les chiffres d'Anthropic ne sont qu'un point de données. Voici ce que les évaluateurs ont constaté en mettant réellement Sonnet 5 au travail :

CodeRabbit, qui l'a testé spécifiquement pour l'écriture et la revue de code, l'a qualifié de modèle le plus performant de sa catégorie pour écrire du code — il a tendance à écrire d'abord les tests, à construire l'implémentation en fonction de ceux-ci, puis à tout exécuter avant de considérer la tâche terminée. Mais ses résultats en matière de revue sont mitigés : la précision des commentaires s'est nettement améliorée (passant d'environ 29 % à 38–40 %), tandis que le taux de détection de bugs en revue de code est tombé à environ 50–51 %, contre un score situé entre la haute cinquantaine et la basse soixantaine pour Sonnet 4.6. Leur recommandation est de l'utiliser avec un effort de raisonnement moyen — passer au niveau d'effort maximal double à peu près le coût sans détecter davantage de bugs.

Simon Willison a signalé le détail le plus susceptible de piéger ceux qui migrent sans vérifier : Sonnet 5 est livré avec un nouveau tokenizer, et un même texte en anglais produit désormais environ 30 % de tokens en plus qu'avec Sonnet 4.6. Le texte en chinois est à peine affecté, mais pour les prompts majoritairement en anglais, c'est une réelle hausse de coût dissimulée derrière un prix affiché inchangé. Il a également noté que Sonnet 5 n'accepte plus les paramètres d'échantillonnage temperature, top_p ou top_k — à vérifier si votre intégration en dépend.

La couverture médiatique (TechCrunch et d'autres) a mis l'accent sur l'aspect tarifaire — « un moyen moins coûteux de faire tourner des agents » — et a présenté ce lancement comme une étape d'Anthropic pour réduire l'écart avec Opus tout en poursuivant sa montée en puissance à l'approche d'une introduction en bourse largement évoquée. Les premiers utilisateurs cités dans cette couverture se sont montrés positifs sur l'achèvement des tâches : un ingénieur de Zapier a décrit le modèle menant à bien des tâches complexes de bout en bout, et un cofondateur de Lovable a souligné des refus systématiquement nets des requêtes dangereuses.

La comparaison de benchmarks de MarkTechPost aboutit à une recommandation de routage plutôt qu'à un verdict tranché : orienter la majorité du travail vers Sonnet 5 avec un effort faible à moyen, et réserver Opus 4.8 aux tâches où la précision est critique. Au niveau d'effort maximal, ils ont constaté que le coût de Sonnet 5 peut dépasser celui d'Opus 4.8 sans gain de précision équivalent — l'option économique cesse de l'être si l'on pousse tous les curseurs au maximum.

Le constat qui revient dans tous les avis indépendants : solide pour construire et exécuter, en léger recul (pas en chute libre) pour détecter les bugs subtils, et réellement moins cher seulement si l'on mesure effectivement sa propre consommation de tokens plutôt que de se fier au prix affiché.

Tarification — et le piège dans les petits caractères

Anthropic tarife Sonnet 5 de façon agressive, mais selon un calendrier :

ModèleEntréeSortie
claude-sonnet-5 (tarif de lancement, jusqu'au 2026-08-31)2 $ / 1M tokens10 $ / 1M tokens
claude-sonnet-5 (tarif standard, à partir du 2026-09-01)3 $ / 1M tokens15 $ / 1M tokens
claude-sonnet-4-63 $ / 1M tokens15 $ / 1M tokens
claude-opus-4-85 $ / 1M tokens25 $ / 1M tokens

Même au tarif standard, Sonnet 5 égale le prix affiché de Sonnet 4.6 tout en obtenant des scores nettement supérieurs sur l'ensemble des critères — cette partie de l'argumentaire tient la route. Mais la découverte de Willison concernant le tokenizer signifie que la vraie comparaison ne porte pas sur le prix par token, mais sur le prix par tâche achevée ; les charges de travail majoritairement en anglais doivent s'attendre à une réelle augmentation du nombre de tokens en migrant depuis Sonnet 4.6, tarif de lancement ou non. La mise en cache standard des prompts d'Anthropic s'applique toujours par-dessus tout cela — les lectures en cache sont facturées avec une forte remise, les écritures en cache comportent une majoration ponctuelle — donc, comme toujours, vérifiez le chiffre réel dans votre propre tableau de bord de facturation plutôt que de faire le calcul à partir du seul prix affiché.

Sécurité

Anthropic indique que Sonnet 5 présente des taux de comportements indésirables plus faibles que Sonnet 4.6 — moins de coopération avec des usages malveillants, moins de tromperie — et se montre plus constant pour refuser les requêtes malveillantes et résister aux tentatives de détournement par injection de prompt. Les garde-fous de sécurité sont activés par défaut.

Sa capacité en cybersécurité est délibérément en retrait par rapport à celle d'Opus 4.8 : lors des propres tests d'Anthropic, Sonnet 5 n'a jamais réussi à développer intégralement un exploit fonctionnel de bout en bout. C'est un choix de conception plutôt qu'une lacune pour la plupart des usages — c'est la même logique que l'approche « classificateur plus repli » de Claude Fable 5 : la capacité de pointe est verrouillée, et le modèle en disponibilité générale est livré avec les garde-fous déjà intégrés.

Ce que cela signifie pour les développeurs

  • Mesurez le coût par tâche achevée, pas le coût par token — le changement de tokenizer signifie que le prix affiché seul vous induira en erreur, particulièrement pour les charges de travail majoritairement en anglais.
  • Recalculez vos volumes de tokens sur des prompts réels avant de supposer que Sonnet 5 représente un gain de coût évident par rapport à Sonnet 4.6.
  • Vérifiez si votre intégration dépend de temperature, top_p ou top_k — Sonnet 5 ne les accepte plus.
  • Commencez avec un effort de raisonnement moyen. CodeRabbit et MarkTechPost ont tous deux constaté que le niveau d'effort maximal augmente le coût sans gain de précision équivalent.
  • Conservez Opus 4.8 dans votre routage pour les tâches où la précision est critique — Sonnet 5 réduit l'écart, il ne le comble pas entièrement, en particulier pour des tâches comme la revue de code minutieuse où détecter les bugs subtils compte le plus.

Ce que cela signifie pour les utilisateurs de MuiRouter

MuiRouter repose sur une idée simple : une seule clé API, un seul modèle d'intégration, et une façon plus claire de router l'accès aux principaux modèles d'IA. Un lancement comme celui de Sonnet 5 — moins cher, plus performant, mais avec des nuances de tarification et de tokenizer à surveiller — est exactement le type de changement qu'une passerelle unifiée est censée absorber à votre place.

Nous avons ajouté claude-sonnet-5 au catalogue de MuiRouter au tarif de lancement publié par Anthropic. Votre intégration ne change pas ; le modèle, sa tarification et la hausse programmée du 2026-09-01 sont tous gérés derrière la passerelle.

Comme toujours, ne considérez claude-sonnet-5 comme opérationnel qu'après l'avoir vérifié de bout en bout sur votre propre compte — le routage réel dépend toujours de la disponibilité en amont. Cette réserve mise à part, c'est précisément le type de lancement où garder une intégration stable porte ses fruits : les détails de tarification et de tokenizer sont exactement le genre de chose que vous ne voulez pas suivre manuellement pour chaque modèle que vous utilisez.

En bref

Claude Sonnet 5 constitue une réelle avancée pour le travail agentique et le codage, à un prix qui, sur le papier, est inférieur même à celui de son propre prédécesseur. Les benchmarks le confirment, tout comme les évaluateurs indépendants — avec deux réserves à garder en tête : la détection de bugs en revue de code a légèrement reculé, même si les commentaires sont devenus plus pertinents, et le nouveau tokenizer signifie que « moins cher » doit être mesuré par tâche achevée, pas par token, avant d'y croire.

Si vous développez avec l'IA, cela mérite d'être testé dès maintenant sur vos charges de travail réelles. Prévoyez un budget pour le changement de tokenizer si vous migrez des prompts majoritairement en anglais, commencez avec un effort moyen, et continuez à router votre travail le plus critique vers Opus 4.8 jusqu'à ce que Sonnet 5 ait fait ses preuves sur vos propres chiffres.

Sources officielles

Source OpenAI publiée le 30 juin 2026.

Préparez le prochain lancement de modèle

Commencez avec une seule API Key et un chemin plus clair pour router l'accès aux futurs modèles dès que l'amont est disponible.

Inscription