#GatePreIPOsLaunchesWithSpaceX


Anthropic a lancé une nouvelle version : Claude Opus 4.7 😈

Anthropic vient tout juste de sortir Claude Opus 4.7 — son modèle le plus puissant accessible au public à ce jour. Et dans le tableau comparatif, ils ont aussi montré Claude Mythos Preview — un « monstre » interne, qui n’est pas encore distribué à tout le monde (en raison de ses capacités cybernétiques puissantes).

La programmation agentique (est la compétence la plus importante pour les développeurs)
SWE-bench Pro (résout des tâches complexes de correction de bugs) :
Mythos Preview — 77,8 % | Opus 4.7 — 64,3 % | Opus 4.6 — 53,4 % | GPT-5.4 — 57,7 %
SWE-bench Verified : Mythos — 93,9 % | Opus 4.7 — 87,6 % | Opus 4.6 — 80,8 %

C’est une avancée énorme. Mythos double presque les résultats des modèles de 2024–2025 sur des tâches GitHub réelles.
Terminal-Bench 2.0 (travail en terminal, codage agentique) :
Mythos — 82,0 % | GPT-5.4 — 75,1 % | Opus 4.7 — 69,4 %

La pensée multidisciplinaire et les tâches complexes Humanity’s Last Exam (l’un des « examens finaux » les plus difficiles de l’humanité, multidisciplinaire, niveau graduate) :

Mythos — 56,8 % | Opus 4.7 — 46,9 % Avec outils : Mythos — 64,7 % | Opus 4.7 — 54,7 %
GPQA Diamond (niveau élevé de réflexion scientifique): Toutes les top-modèles autour de 94 %, Mythos légèrement en tête — 94,6 %.

Capacités agentiques
Utilisation d’outils à grande échelle (MCP-Atlas) :
Opus 4.7 — 77,3 % (leader parmi ceux disponibles)
Utilisation informatique agentique (OSWorld-Verified): Opus 4.7 — 78,0 % | Mythos — 79,6 %
Recherche agentique (BrowseComp): GPT-5.4 en tête avec 89,3 %, Mythos — 86,9 %
Reproduction de vulnérabilités en cybersécurité (CyberGym): Mythos — 83,1 % (il est particulièrement puissant ici)

Pensée visuelle et multimodalité CharXiv Reasoning : Opus 4.7 sans outils — 82,1 % | avec outils — 91,0 % Mythos — 93,2 % avec outils.
Q&R multilingue (MMMLU): Opus 4.7 et 4.6 — environ 91 %, Gemini 3.1 Pro — 92,6 %.

Opus 4.7 est actuellement le meilleur choix pour la majorité des tâches :
Bien meilleur qu’Opus 4.6 dans presque tous les domaines (notamment en codage agentique, utilisation informatique, raisonnement visuel et analyse financière).
Même prix : $5 / $25 pour un million de tokens.
Accessible à tous via Claude, API, Bedrock, Vertex AI, etc.
Améliorations dans le traitement d’images haute qualité (jusqu’à 3,75 MP), nouveau niveau d’effort « extra high », revue ultra dans Claude Code, etc.

Mythos Preview, c’est carrément un monstre — c’est le niveau supérieur. Il domine presque tous les benchmarks agentiques et complexes. Anthropic le garde en accès limité (Project Glasswing), car le modèle est particulièrement puissant pour la recherche et la reproduction de vulnérabilités dans le code. En gros — c’est une « cyber-arme » de niveau frontier, encore en test avec des safeguards renforcés. Anthropic affirme directement : Opus 4.7 est inférieur à Mythos sur presque tous les axes, mais il est plus sûr et déjà prêt pour la production.

2026 — ce ne sont plus juste des « chatbots ». On voit de véritables agents capables de travailler des heures en terminal, de corriger du code réel, d’analyser des finances et de résoudre des problèmes de niveau PhD.
Opus 4.7 peut déjà être déployé en production pour des workflows complexes. Mythos indique la direction que prend l’industrie dans les mois à venir.

Est-ce que c’est déjà le futur ?
qu’en pensez-vous ? 🤝
Voir l'original
post-image
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler