Google DeepMind Executive: Every AI Product Company Should Build Custom Benchmarks

Gate News message, April 27 — Logan Kilpatrick, senior product manager at Google DeepMind and product lead for Google AI Studio, stated on X that every company building AI-based products should establish its own custom benchmarks to measure AI model performance. He described this as a method to make model improvements “disproportionately benefit your company” and urged founders and business leaders to “start tomorrow.”

Most companies currently rely on public leaderboards to select AI models, but these measure general capabilities that often misalign with specific business scenarios. Kilpatrick cited the example of a contract review company most concerned with clause extraction accuracy—a capability absent from public benchmarks, making it impossible to assess model performance on that task. Custom benchmarks offer two key advantages: first, they enable companies to evaluate each model update against their own business tasks and select the model that performs best in their actual use case rather than the highest-ranked model overall; second, they allow companies to share these test sets with model providers, driving continuous optimization in areas that matter to their business.

Kilpatrick noted that companies like Zapier and Sierra are already implementing this approach, stating that “there is a lot of alpha that can be created here.”

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

AIE : les dépenses d’infrastructure liées à l’IA ont déjà dépassé les investissements dans la production de pétrole et de gaz ; en 2026, elles devraient encore augmenter de 75 %.

Selon l’analyse et les données de marché publiées par l’Agence internationale de l’énergie (AIE) le 26 avril, les dépenses d’investissement (capex) totales des cinq plus grandes entreprises technologiques dépasseront 400 milliards de dollars en 2025. L’essentiel sera consacré à la construction d’infrastructures d’IA, dont l’ampleur dépasse désormais le volume annuel des investissements mondiaux dans la production de pétrole et de gaz naturel. L’AIE estime que ces dépenses d’investissement concernées pourraient encore augmenter de 75% en 2026.

MarketWhisperIl y a 12m

Le sénateur Bernie Sanders lance un avertissement concernant la menace existentielle de l’IA

Sanders a insisté sur le fait que, même si la plupart des scientifiques de l’IA reconnaissent la possibilité que l’IA échappe au contrôle et devienne un danger pour notre existence, aucune mesure majeure n’a été prise pour l’éviter. « Nous devons nous assurer que l’IA profite à l’humanité, et ne nous nuit pas », a-t-il déclaré. Points clés : Bernie Sanders

CoinpediaIl y a 22m

Responsable du modèle IA de Xiaomi : la concurrence en IA passe à l’ère des agents, l’auto-évolution est un événement clé vers l’AGI

Le responsable de l’équipe des grands modèles de Xiaomi, Luo Fuli, a accordé une interview approfondie (numéro de vidéo : BV1iVoVBgERD) sur la plateforme Bilibili le 24 avril, d’une durée de 3,5 heures. Il s’agit de la première fois qu’elle expose de manière systématique ses points de vue techniques en tant que responsable technique. Luo Fuli a déclaré que la course aux grands modèles est passée de l’ère du Chat à l’ère des Agents, et a souligné que « l’auto-évolution » sera l’événement clé de l’AGI au cours de l’année à venir.

MarketWhisperIl y a 22m

La voix de xAI Grok prend en charge la ligne d’assistance client de Starlink, 70% des appels sont clôturés automatiquement

Selon l’annonce officielle publiée par xAI le 23 avril, xAI a lancé l’agent vocal d’IA Grok Voice Think Fast 1.0, et l’a déjà déployé sur la ligne d’assistance clientèle Starlink +1 (888) GO STARLINK. D’après les données d’essai divulguées dans l’annonce, 70% des appels sont automatiquement clôturés par l’IA, sans intervention humaine.

MarketWhisperIl y a 34m

GPT-5.5 revient à la pointe du codage, mais OpenAI change de benchmarks après avoir perdu face à Opus 4.7

Message de Gate News, 27 avril — SemiAnalysis, un cabinet d’analyse de semi-conducteurs et d’IA, a publié un benchmark comparatif d’assistants de codage incluant GPT-5.5, Claude Opus 4.7 et DeepSeek V4. Le principal constat : GPT-5.5 marque le premier retour d’OpenAI à la pointe dans les modèles de codage en six mois, avec des ingénieurs de SemiAnalysis qui alternent désormais entre Codex et Claude Code après s’être auparavant appuyés presque exclusivement sur Claude. GPT-5.5 repose sur une nouvelle approche de préentraînement codée « Spud » et représente la première expansion de l’échelle de préentraînement d’OpenAI depuis GPT-4.5. Lors de tests pratiques, une division claire des tâches est apparue. Claude gère la planification de nouveaux projets et la configuration initiale, tandis que Codex excelle dans les corrections de bugs axées sur le raisonnement. Codex fait preuve d’une meilleure compréhension des structures de données et d’un raisonnement logique, mais a des difficultés à inférer l’intention utilisateur ambiguë. Sur une tâche à un seul tableau de bord, Claude a reproduit automatiquement la mise en page de la page de référence tout en fabriquant de grandes quantités de données, tandis que Codex a ignoré la mise en page mais a fourni des données nettement plus exactes. L’analyse révèle un détail de manipulation du benchmark : dans un billet de blog de février, OpenAI a exhorté l’industrie à adopter SWE-bench Pro comme nouveau standard pour les benchmarks de codage. Cependant, l’annonce de GPT-5.5 est passée à un nouveau benchmark appelé « Expert-SWE ». La raison, dissimulée dans les petits caractères, est que GPT-5.5 a été dépassé par Opus 4.7 sur SWE-bench Pro et a chuté de manière significative par rapport à Mythos non publié de l’Anthropic 77.8%. Concernant Opus 4.7, Anthropic a publié une analyse post-mortem une semaine après la sortie, reconnaissant trois bugs dans Claude Code qui ont persisté pendant plusieurs semaines de mars à avril, affectant près de tous les utilisateurs. Plusieurs ingénieurs avaient déjà signalé une dégradation des performances dans la version 4.6, mais ils avaient été écartés en tant qu’observations subjectives. De plus, le nouveau tokenizer d’Opus 4.7 augmente l’utilisation de tokens jusqu’à 35 %, qu’Anthropic a admis ouvertement — ce qui revient effectivement à une hausse de prix cachée. DeepSeek V4 a été évalué comme « tenant le rythme avec la frontière mais sans la mener », se positionnant comme l’alternative la moins coûteuse parmi les modèles à code source fermé. L’analyse a également noté que « Claude continue de surpasser DeepSeek V4 Pro sur des tâches d’écriture chinoises à haute difficulté », en commentant que « Claude a gagné contre le modèle chinois dans sa propre langue. » L’article présente un concept clé : le prix des modèles doit être évalué par « coût par tâche » plutôt que par « coût par token ». Le prix de GPT-5.5 est le double de celui de GPT-5.4 input $5, output par million de tokens, mais il accomplit les mêmes tâches en utilisant moins de tokens, ce qui ne rend pas nécessairement le coût réel plus élevé. Les données initiales de SemiAnalysis montrent que le ratio input-to-output de Codex est de 80:1, inférieur à celui de Claude Code à 100:1.

GateNewsIl y a 38m

MediaTek remporte une grande commande de Google pour la 8e génération de TPU ! L’“effet fermentation” des ASIC stimule trois valeurs conceptuelles bénéficiaires

MediaTek s’est intégré à la chaîne d’approvisionnement des puces d’entraînement Google TPU de 8e génération, en prenant en charge la conception des I/O Die, et en utilisant la technologie N3P de TSMC ainsi que l’emballage CoWoS-S, ce qui montre qu’elle a atteint un niveau de conception d’ASIC d’IA haut de gamme. On s’attend à ce que le chiffre d’affaires ASIC de cette année dépasse 1 milliard de dollars, et que le volume d’expédition des TPU atteigne, d’ici 2027, jusqu’à des dizaines de millions d’unités ; la chaîne d’approvisionnement taïwanaise, notamment King Yuan Electronics, I-Cube Precision et Hon Hai, bénéficiera également, et le marché se tournera progressivement vers l’avenir de la coopération par spécialisation et de l’intégration hétérogène avec chiplets.

ChainNewsAbmediaIl y a 1h
Commentaire
0/400
Aucun commentaire