Le 29 septembre 2025, Anthropic a publié Claude Sonnet 4.5, nouvelle version de son modèle de langage. L’annonce intervient dans un contexte de course technologique intense entre les principaux acteurs de l’IA générative. Cette mise à jour se distingue par un positionnement clair : permettre la création d’agents intelligents capables de gérer des tâches complexes de manière autonome.
Une amélioration mesurable sur le code
Les performances de Claude Sonnet 4.5 progressent particulièrement sur les benchmarks liés à la programmation.
Sur SWE-bench Verified, un test de référence en ingénierie logicielle, le modèle atteint 61,4 % de réussite, contre 42 % pour la version précédente. En configuration avancée, ce score monte à 77,2 %.
Ces chiffres traduisent une capacité accrue à comprendre, corriger et générer du code dans des situations réelles. Plusieurs équipes techniques rapportent une baisse notable des erreurs dans leurs workflows internes. Certains témoignages évoquent même une réduction du taux d’erreur de 9 % à 0 % sur des projets spécifiques.
Le modèle gère également mieux les sessions longues. Des contextes de plus de 30 heures de travail peuvent désormais être traités avec cohérence, ce qui ouvre des possibilités pour des projets nécessitant une compréhension étendue et durable.
Des outils pour bâtir des agents
Anthropic accompagne ce lancement d’un ensemble d’outils destinés aux développeurs. Le Claude Agent SDK permet de concevoir des agents autonomes personnalisés. Ces agents peuvent planifier, exécuter et ajuster leurs actions sans intervention humaine constante.
L’application elle-même évolue. Elle intègre désormais une mémoire longue, capable de retenir des informations sur plusieurs sessions. L’édition de contexte permet de modifier à la volée les données prises en compte par le modèle. L’exécution directe de code et de fichiers simplifie l’interaction pour les utilisateurs techniques.
Une extension Chrome et une compatibilité avec VS Code facilitent l’intégration dans les environnements de travail habituels. L’objectif affiché est de réduire les frictions entre l’usage du modèle et les outils du quotidien.
Sécurité renforcée, mais à quel prix ?
Anthropic insiste sur les améliorations en matière de sécurité. Le modèle a été entraîné pour réduire certains comportements jugés problématiques : flatterie excessive, tentatives de tromperie, recherche de pouvoir, dérives dans le raisonnement. La protection contre les attaques par injection de prompt a également été renforcée.
Un nouveau système de filtrage, classé ASL-3 (Anthropic Safety Level 3), priorise la détection de risques sensibles, notamment les contenus liés aux domaines chimique, biologique, radiologique et nucléaire. Le système génère moins de faux positifs qu’auparavant. Dans les cas où le filtrage bloque une requête non sensible, Sonnet 4 peut être utilisé en substitution.
Ces mesures s’inscrivent dans la stratégie d’Anthropic de se positionner comme un acteur privilégiant la sécurité. Reste à savoir si ces garde-fous n’entravent pas certains usages légitimes, notamment dans la recherche ou l’éducation.
Un modèle pour qui, pour quoi ?
Les premiers retours d’utilisateurs dessinent un portrait contrasté. Claude Sonnet 4.5 excelle dans les tâches techniques : développement logiciel, analyse de données, gestion de projets complexes. Les équipes qui construisent des agents ou des workflows automatisés trouvent dans cette version un gain réel de fiabilité.
En revanche, pour les usages créatifs ou conversationnels simples, les améliorations semblent moins perceptibles. Certains utilisateurs rapportent une impression de régression sur des tâches littéraires ou d’aide à la rédaction, domaines où les versions précédentes se montraient déjà performantes. Ces perceptions restent subjectives et varient selon les cas d’usage.
Ce constat pose une question stratégique : Anthropic cible-t-il prioritairement les professionnels et les entreprises, au risque de décevoir les utilisateurs grand public ? Ou cette spécialisation traduit-elle simplement une maturité du marché, où chaque modèle trouve son créneau ?
L’ère des agents autonomes est-elle vraiment là ?
Avec Claude Sonnet 4.5, Anthropic affirme une vision : celle d’agents capables d’agir de manière autonome dans des environnements complexes. Cette direction n’est pas unique. OpenAI, Google et d’autres acteurs travaillent sur des architectures similaires.
Mais un agent fiable ne se résume pas à un modèle performant. Il nécessite des infrastructures robustes, des interfaces adaptées, une gestion fine des permissions et des limites claires. Les outils annoncés par Anthropic vont dans ce sens, mais leur adoption réelle dépendra de leur facilité d’usage et de leur intégration dans les pratiques existantes.
La question demeure : sommes-nous prêts à confier des décisions et des actions à des systèmes autonomes, même sous surveillance humaine ? Et surtout, quelles conséquences si ces systèmes se trompent dans des contextes sensibles (finance, santé, droit) ?
Ce qu’il faut retenir
Claude Sonnet 4.5 marque une progression technique nette, particulièrement pour les développeurs et les équipes construisant des agents autonomes. Les améliorations en sécurité et en fiabilité répondent à des préoccupations légitimes, mais posent aussi des questions sur les limites imposées.
Ce modèle confirme une tendance de fond : l’IA générative évolue vers des systèmes capables d’agir, pas seulement de répondre. Reste à définir collectivement les garde-fous nécessaires pour que cette autonomie serve réellement nos intérêts.
Sources
Anthropic. Introducing Claude Sonnet 4.5. Anthropic Blog, 29 septembre 2025. (https://www.anthropic.com/news/claude-sonnet-4-5)
Princeton NLP. SWE-bench: Can Language Models Resolve Real-World GitHub Issues? GitHub Repository. (https://github.com/princeton-nlp/SWE-bench)




