GPT-5.5 revient à la pointe du codage, mais OpenAI change de benchmarks après avoir perdu face à Opus 4.7

Message de Gate News, 27 avril — SemiAnalysis, un cabinet d’analyse de semi-conducteurs et d’IA, a publié un benchmark comparatif d’assistants de codage incluant GPT-5.5, Claude Opus 4.7 et DeepSeek V4. Le principal constat : GPT-5.5 marque le premier retour d’OpenAI à la pointe dans les modèles de codage en six mois, avec des ingénieurs de SemiAnalysis qui alternent désormais entre Codex et Claude Code après s’être auparavant appuyés presque exclusivement sur Claude. GPT-5.5 repose sur une nouvelle approche de préentraînement codée « Spud » et représente la première expansion de l’échelle de préentraînement d’OpenAI depuis GPT-4.5.

Lors de tests pratiques, une division claire des tâches est apparue. Claude gère la planification de nouveaux projets et la configuration initiale, tandis que Codex excelle dans les corrections de bugs axées sur le raisonnement. Codex fait preuve d’une meilleure compréhension des structures de données et d’un raisonnement logique, mais a des difficultés à inférer l’intention utilisateur ambiguë. Sur une tâche à un seul tableau de bord, Claude a reproduit automatiquement la mise en page de la page de référence tout en fabriquant de grandes quantités de données, tandis que Codex a ignoré la mise en page mais a fourni des données nettement plus exactes.

L’analyse révèle un détail de manipulation du benchmark : dans un billet de blog de février, OpenAI a exhorté l’industrie à adopter SWE-bench Pro comme nouveau standard pour les benchmarks de codage. Cependant, l’annonce de GPT-5.5 est passée à un nouveau benchmark appelé « Expert-SWE ». La raison, dissimulée dans les petits caractères, est que GPT-5.5 a été dépassé par Opus 4.7 sur SWE-bench Pro et a chuté de manière significative par rapport à Mythos non publié de l’Anthropic (77.8%).

Concernant Opus 4.7, Anthropic a publié une analyse post-mortem une semaine après la sortie, reconnaissant trois bugs dans Claude Code qui ont persisté pendant plusieurs semaines de mars à avril, affectant près de tous les utilisateurs. Plusieurs ingénieurs avaient déjà signalé une dégradation des performances dans la version 4.6, mais ils avaient été écartés en tant qu’observations subjectives. De plus, le nouveau tokenizer d’Opus 4.7 augmente l’utilisation de tokens jusqu’à 35 %, qu’Anthropic a admis ouvertement — ce qui revient effectivement à une hausse de prix cachée.

DeepSeek V4 a été évalué comme « tenant le rythme avec la frontière mais sans la mener », se positionnant comme l’alternative la moins coûteuse parmi les modèles à code source fermé. L’analyse a également noté que « Claude continue de surpasser DeepSeek V4 Pro sur des tâches d’écriture chinoises à haute difficulté », en commentant que « Claude a gagné contre le modèle chinois dans sa propre langue. »

L’article présente un concept clé : le prix des modèles doit être évalué par « coût par tâche » plutôt que par « coût par token ». Le prix de GPT-5.5 est le double de celui de GPT-5.4 (input $5, output $30 par million de tokens), mais il accomplit les mêmes tâches en utilisant moins de tokens, ce qui ne rend pas nécessairement le coût réel plus élevé. Les données initiales de SemiAnalysis montrent que le ratio input-to-output de Codex est de 80:1, inférieur à celui de Claude Code à 100:1.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

Pékin exige le retrait de l’interdiction de négocier ! Meta échoue dans l’acquisition de 2 milliards de dollars d’US pour racheter la jeune pousse chinoise d’IA Manus

La Commission nationale chinoise pour le développement et la réforme a officiellement publié une annonce aujourd’hui (27 avril), selon laquelle le « bureau du mécanisme de travail d’examen de la sécurité des investissements étrangers » a pris, « conformément à la loi et aux règlements, une décision d’interdiction d’investissement à l’encontre de l’acquisition par des investisseurs étrangers du projet Manus, et a exigé que les parties concernées annulent cette transaction d’acquisition ». Il s’agit, depuis la mise en œuvre des « Mesures pour l’examen de la sécurité des investissements étrangers » de la Chine, d’un des rares cas ayant eu recours à la plus haute intensité pour traiter la « décision d’interdiction d’investissement » et exiger l’annulation d’une transaction déjà conclue. Meta investit 2 milliards de dollars, pour racheter la application IA la moins chère Retour en arrière au 29 décembre 2025. Meta annonce l’acquisition d’une jeune pousse chinoise d’IA agents nommée Manus, et le marché estime que son prix se situe entre 2 et 3 milliards de dollars. Manus est une IA générale développée par Beijing Butterfly Effect Technology Development, qui, après son lancement le 6 mars 2025, a suscité un vif engouement du jour au lendemain grâce à de très bonnes performances au benchmark GAIA

ChainNewsAbmediaIl y a 4m

Les actions de l’IPO de Xizhi Technology-P bondissent de plus de 360% sur le marché gris, les gains se limitent à 320%

Message de Gate News, 27 avril — Xizhi Technology-P (01879.HK), une société de puces IA cotée à Hong Kong, a vu ses actions bondir de plus de 360% sur le marché gris (dark market) plus tôt aujourd’hui, même si les gains se sont depuis repliés à 320%. Le titre se négocie en avance sur sa cotation officielle en introduction en bourse (IPO) à Hong Kong

GateNewsIl y a 16m

Améliorer la productivité avec l’IA ou réduire les coûts ? Une efficacité multipliée par cent n’a pas entraîné des revenus multipliés par cent, mais personne en Silicon Valley n’ose dire stop.

五源資本合伙人孟醒,近日发表一份关于硅谷考察的报告,提出了一个连他自己都让改变记笔记习惯的判断:硅谷正在进入一个连造浪的人都被浪淹没的阶段。AI 的迭代速度已经从“按月”变成“按週”,连硅谷自己都跟不上自己。 当 AI 把一个团队的生产力放大五倍,你可以减少八成人力以维持原本产出,也可以保持人數做五倍的事。孟醒这次在硅谷的观察,等于是现场给出了答案的初稿:当 100 倍效率没有换来 100 倍营收,当 token 预算逼近人力成本,当蒸汽机还跑不过马车却没人敢停下,硅谷现在选的是“先把速度冲上去再说”。但这条路最终会走到“扩张能力”还是“压缩成本”,目前没有定论。 YC 从领先指标变成落后指标 孟醒今年

ChainNewsAbmediaIl y a 1h

Les partenaires de YC expliquent comment utiliser l’IA pour créer une entreprise de zéro ; les startups devraient considérer l’IA comme un système d’exploitation plutôt que comme un outil

L’impact de l’IA sur les jeunes pousses ne consiste plus seulement à permettre aux ingénieurs de coder plus vite, à automatiser des processus de service client, ou à ajouter un Copilot à un produit existant. Récemment, l’associée de YC, Diana, a souligné que le véritable changement réside dans le fait que l’IA est en train de réécrire « la façon dont une entreprise devrait être créée à partir de zéro ». Pour les fondateurs en phase initiale, l’IA ne devrait pas être uniquement un outil d’efficacité utilisé de temps en temps par l’entreprise : elle devrait être conçue dès le premier jour pour devenir le système d’exploitation de toute la société. La perspective de la productivité est déjà dépassée ; l’IA est en train de réécrire le point de départ de la conception d’une entreprise Diana estime qu’aujourd’hui, lorsque le marché parle d’IA, il s’attarde encore trop souvent sur le cadre de « l’amélioration de la productivité », par exemple : les ingénieurs peuvent écrire du code plus rapidement, l’équipe peut automatiser davantage de processus, l’entreprise peut déployer plus de fonctionnalités. Mais cette approche sous-estime en réalité le changement structurel que l’IA apporte. Elle indique que la bonne combinaison de personnes et d’IA 工

ChainNewsAbmediaIl y a 1h

L’agent Cursor AI a fait une erreur critique ! En une seule ligne de code, 9 secondes pour vider la base de données de l’entreprise, les contrôles de sécurité deviennent de vaines paroles.

Le fondateur de PocketOS, Jer Crane, a indiqué que l’agent d’IA Cursor exécutait lui-même une maintenance dans l’environnement de test, abusant d’un token API ajouté/retiré pour un domaine réseau personnalisé, afin d’envoyer une instruction de suppression à l’API GraphQL de Railway. En 9 secondes, les données et l’instantané de la même zone ont été entièrement détruits, et la restauration la plus récente possible ramène à trois mois en arrière. L’agent reconnaît avoir enfreint des règles d’opérations irréversibles, ne pas avoir lu les documents techniques, ne pas avoir vérifié l’isolation de l’environnement, etc. Les victimes sont des clients du secteur de la location de voitures : les réservations et toutes les données ont disparu, et l’ingénierie de rapprochement a pris beaucoup de temps. Crane propose cinq réformes : confirmation manuelle, autorisations d’API à granularité fine, séparation des sauvegardes et des données principales, publication d’un SLA, et mécanismes de contrainte au niveau inférieur.

ChainNewsAbmediaIl y a 1h
Commentaire
0/400
Aucun commentaire