Executivo da Google DeepMind: Toda Empresa de Produtos de IA Deve Criar Benchmarks Personalizados

Mensagem do Gate News, 27 de abril — Logan Kilpatrick, gerente sênior de produto na Google DeepMind e líder de produto do Google AI Studio, declarou no X que toda empresa que desenvolve produtos baseados em IA deve criar seus próprios benchmarks personalizados para medir o desempenho dos modelos de IA. Ele descreveu isso como um método para fazer com que as melhorias no modelo “beneficiem desproporcionalmente a sua empresa” e incentivou fundadores e líderes de negócios a “começar amanhã.”

A maioria das empresas atualmente depende de leaderboards públicos para selecionar modelos de IA, mas eles medem capacidades gerais que muitas vezes não se alinham aos cenários específicos do negócio. Kilpatrick citou o exemplo de uma empresa de revisão de contratos mais preocupada com a precisão na extração de cláusulas — uma capacidade ausente de benchmarks públicos, tornando impossível avaliar o desempenho do modelo nessa tarefa. Benchmarks personalizados oferecem duas vantagens principais: primeiro, eles permitem que as empresas avaliem cada atualização de modelo em relação às suas próprias tarefas de negócio e escolham o modelo que tem melhor desempenho no caso de uso real, em vez do modelo mais bem classificado no geral; segundo, eles permitem que as empresas compartilhem esses conjuntos de teste com os provedores de modelo, impulsionando a otimização contínua nas áreas que importam para o seu negócio.

Kilpatrick observou que empresas como Zapier e Sierra já estão implementando essa abordagem, afirmando que “há muito alfa que pode ser criado aqui.”

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

IEA: Os gastos com infraestrutura de IA já ultrapassaram os investimentos na produção de petróleo e gás; em 2026, espera-se que aumentem mais 75%

De acordo com a análise e os dados de mercado divulgados pela Agência Internacional de Energia (IEA) em 26 de abril, o investimento total em despesas de capital das cinco maiores empresas de tecnologia em 2025 ultrapassou US$ 400 bilhões, com foco principalmente na construção de infraestrutura de IA; o tamanho já superou o volume anual de investimentos globais em produção de petróleo e gás natural. A IEA estima que, em 2026, as despesas de capital relacionadas poderão crescer ainda mais 75%.

MarketWhisper11m atrás

O senador Bernie Sanders emite um alerta sobre a ameaça existencial da IA

Sanders enfatizou que, mesmo que a maioria dos cientistas de IA reconheça a possibilidade de a IA escapar do controle e se tornar um perigo para a nossa existência, nenhuma medida importante foi tomada para evitá-la. “Devemos garantir que a IA beneficie a humanidade, e não nos prejudique”, afirmou. Principais conclusões: Bernie Sanders

Coinpedia21m atrás

Responsável pelo grande modelo de IA da Xiaomi: a competição em IA está mudando para a era dos Agentes; a autoevolução é o evento-chave para a AGI

A responsável pela equipe do grande modelo da Xiaomi, Luo Fuli, concedeu uma entrevista em profundidade (número do vídeo: BV1iVoVBgERD) na plataforma Bilibili em 24 de abril, com duração de 3,5 horas. Esta foi sua primeira vez, em sua função como responsável técnico, a expor de forma sistemática suas perspectivas técnicas em público. Luo Fuli afirmou que a corrida pela competição de grandes modelos passou da era do Chat para a era dos Agentes e apontou que “autoevolução” será o principal evento para a AGI no próximo ano.

MarketWhisper21m atrás

A voz do Grok da xAI assume a linha de atendimento ao cliente da Starlink, 70% das ligações são encerradas automaticamente

De acordo com o anúncio oficial da xAI em 23 de abril, a xAI lançou o agente de IA de voz Grok Voice Think Fast 1.0 e já foi implantado na linha de atendimento ao cliente do Starlink +1 (888) GO STARLINK. De acordo com os dados de testes divulgados no anúncio, 70% das ligações são encerradas automaticamente por IA, sem necessidade de intervenção de um humano.

MarketWhisper33m atrás

GPT-5.5 Volta ao Topo em Codificação, mas a OpenAI Troca os Benchmarks Depois de Perder para o Opus 4.7

Mensagem do Gate News, 27 de abril — A SemiAnalysis, uma empresa de análise de semicondutores e IA, divulgou um benchmark comparativo de assistentes de codificação, incluindo GPT-5.5, Claude Opus 4.7 e DeepSeek V4. A principal descoberta: GPT-5.5 marca o primeiro retorno da OpenAI ao limite do que há de mais avançado em modelos de codificação em seis meses, com engenheiros da SemiAnalysis agora alternando entre Codex e Claude Code depois de anteriormente dependerem quase exclusivamente de Claude. O GPT-5.5 é baseado em uma nova abordagem de pré-treinamento codificada como "Spud" e representa a primeira expansão do OpenAI na escala de pré-treinamento desde o GPT-4.5. Em testes práticos, surgiu uma divisão clara de funções. Claude fica com o planejamento de projetos novos e a configuração inicial, enquanto Codex se destaca em correções de bugs que exigem raciocínio intensivo. O Codex demonstra uma compreensão mais forte de estruturas de dados e raciocínio lógico, mas tem dificuldades para inferir a intenção ambígua do usuário. Em uma tarefa única no painel, o Claude replicou automaticamente o layout da página de referência, mas fabricou grandes quantidades de dados, enquanto o Codex pulou o layout, mas entregou dados significativamente mais precisos. A análise revela um detalhe de manipulação de benchmark: o post do blog da OpenAI de fevereiro incentivou a indústria a adotar o SWE-bench Pro como o novo padrão para benchmarks de codificação. No entanto, o anúncio do GPT-5.5 mudou para um novo benchmark chamado "Expert-SWE." O motivo, escondido nas letras miúdas, é que o GPT-5.5 foi superado pelo Opus 4.7 no SWE-bench Pro e ficou muito aquém do não lançado Mythos da Anthropic 77.8%. Em relação ao Opus 4.7, a Anthropic publicou uma análise pós-mortem uma semana após o lançamento, reconhecendo três bugs no Claude Code que persistiram por várias semanas de março a abril, afetando quase todos os usuários. Vários engenheiros já haviam relatado degradação de desempenho na versão 4.6, mas foram dispensados como observações subjetivas. Além disso, o novo tokenizador do Opus 4.7 aumenta o uso de tokens em até 35%, algo que a Anthropic admitiu abertamente—o que, efetivamente, constitui um aumento de preço oculto. O DeepSeek V4 foi avaliado como "acompanhando o ritmo da fronteira, mas não liderando," posicionando-se como a alternativa de menor custo entre modelos de código fechado. A análise também observou que "Claude continua a superar o DeepSeek V4 Pro em tarefas de escrita em chinês de alta dificuldade," comentando que "Claude venceu o modelo chinês na própria língua. O artigo apresenta um conceito-chave: a precificação dos modelos deve ser avaliada por "custo por tarefa" em vez de "custo por token." A precificação do GPT-5.5 é o dobro da do GPT-5.4 input $5, output por um milhão de tokens, mas ele conclui as mesmas tarefas usando menos tokens, tornando o custo real não necessariamente mais alto. Os dados iniciais da SemiAnalysis mostram que a proporção input-to-output do Codex é de 80:1, menor do que a do Claude Code, de 100:1.

GateNews37m atrás

聯發科 conquista grande pedido da Google do 8º TPU! ASIC acelera e impulsiona ações de três grupos relacionados

A MediaTek já entrou na cadeia de fornecimento de chips de treinamento do 8º geração de TPU do Google, responsável pelo design do I/O Die, e adotou a tecnologia de processo N3P da TSMC e o empacotamento CoWoS-S, mostrando que ela atingiu um nível de design de AI ASIC de ponta. Espera-se que, neste ano, a receita do segmento ASIC ultrapasse 1 bilhão de dólares, e que o volume de envio de TPU chegue a ter potencial de chegar a dezenas de milhões de unidades até 2027; a cadeia de fornecimento de Taiwan, como King Yuan Electronics, Jing Ce e Hon Hai, também será beneficiada, e o mercado está gradualmente se voltando para o futuro de divisão de trabalho, colaboração e integrações de chiplets e heterogêneas.

ChainNewsAbmedia1h atrás
Comentário
0/400
Sem comentários