Mensagem do Gate News, 27 de abril — Logan Kilpatrick, gestor sénior de produto na Google DeepMind e responsável de produto para o Google AI Studio, declarou no X que todas as empresas que criam produtos baseados em IA devem estabelecer os seus próprios benchmarks personalizados para medir o desempenho dos modelos de IA. Ele descreveu isto como um método para fazer com que as melhorias do modelo “beneficiem desproporcionadamente a sua empresa” e instou os fundadores e líderes empresariais a “começar amanhã.”
A maioria das empresas atualmente depende de quadros de liderança públicos para selecionar modelos de IA, mas estes medem capacidades gerais que muitas vezes não se alinham com cenários empresariais específicos. Kilpatrick citou o exemplo de uma empresa de revisão de contratos cuja principal preocupação é a precisão da extração de cláusulas — uma capacidade que não existe nos benchmarks públicos, tornando impossível avaliar o desempenho do modelo nessa tarefa. Os benchmarks personalizados oferecem duas vantagens principais: primeiro, permitem que as empresas avaliem cada atualização do modelo face às suas próprias tarefas de negócio e selecionem o modelo que melhor funciona no seu caso de uso real, em vez do modelo com melhor classificação no geral; segundo, permitem que as empresas partilhem estes conjuntos de testes com os fornecedores de modelos, impulsionando a otimização contínua nas áreas que importam para o seu negócio.
Kilpatrick referiu que empresas como a Zapier e a Sierra já estão a implementar esta abordagem, afirmando que “há muito alpha que pode ser criado aqui.”
Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a
Isenção de responsabilidade.
Related Articles
IEA: O investimento em infraestruturas de IA já ultrapassou o investimento na produção de petróleo e gás; em 2026, prevê-se que aumente mais 75%
De acordo com a análise e os dados de mercado divulgados pela Agência Internacional da Energia (IEA) a 26 de abril, o investimento de capital (capex) total das cinco principais empresas tecnológicas em 2025 ultrapassa 400 mil milhões de dólares, sendo aplicado principalmente à construção de infraestruturas de IA, num nível já superior ao do investimento anual global em produção de petróleo e gás natural. A IEA estima que os capex relacionados poderão aumentar mais 75% em 2026.
MarketWhisper12m atrás
O senador Bernie Sanders emite um aviso sobre a ameaça existencial da IA
Sanders sublinhou que, mesmo que a maioria dos cientistas de IA reconheça a possibilidade de a IA escapar ao controlo e se tornar um perigo para a nossa existência, não foram tomadas medidas importantes para evitar isso. “Temos de garantir que a IA beneficia a humanidade, e não nos prejudica”, afirmou.
Principais lições:
Bernie Sanders
Coinpedia22m atrás
Responsável pelo grande modelo da Xiaomi: a competição em IA está a mudar para a era dos agentes, e a autoevolução é um evento-chave para a AGI
A responsável da equipa de grandes modelos da Xiaomi, Luo Fuli, concedeu uma entrevista aprofundada na plataforma Bilibili em 24 de abril (número do vídeo: BV1iVoVBgERD). A entrevista teve a duração de 3,5 horas e foi a sua primeira exposição pública e sistemática das suas perspetivas técnicas enquanto responsável técnico. Luo Fuli afirmou que a competição na área dos grandes modelos já passou da era do Chat para a era do Agent, e indicou que «autoevolução» será o acontecimento-chave para a AGI no próximo ano.
MarketWhisper22m atrás
A Voz do Grok da xAI assume a linha de atendimento ao cliente da Starlink, 70% das chamadas são arquivadas automaticamente
De acordo com o comunicado oficial publicado pela xAI a 23 de abril, a xAI lançou o agente de IA de voz Grok Voice Think Fast 1.0 e já o colocou em funcionamento na linha telefónica de apoio ao cliente +1 (888) GO STARLINK. Com base nos dados de testes divulgados no anúncio, 70% das chamadas são encerradas automaticamente por IA, sem necessidade de intervenção humana.
MarketWhisper34m atrás
GPT-5.5 Regressa ao Estado da Arte na Codificação, mas a OpenAI Muda os Benchmarks Depois de Perder para o Opus 4.7
Gate News mensagem, 27 de Abril — A SemiAnalysis, uma empresa de análise de semicondutores e IA, publicou um benchmark comparativo de assistentes de codificação, incluindo GPT-5.5, Claude Opus 4.7 e DeepSeek V4. A principal conclusão: GPT-5.5 marca o primeiro regresso da OpenAI ao estado da arte em modelos de codificação em seis meses, com engenheiros da SemiAnalysis agora a alternar entre Codex e Claude Code após antes dependerem quase exclusivamente de Claude. O GPT-5.5 baseia-se numa nova abordagem de pré-treinamento com o nome de código "Spud" e representa a primeira expansão do OpenAI da escala de pré-treinamento desde o GPT-4.5.
Em testes práticos, surgiu uma divisão clara de responsabilidades. Claude trata do planeamento de novos projectos e da configuração inicial, enquanto Codex se destaca em correcções de bugs que exigem raciocínio intensivo. O Codex mostra uma compreensão mais forte de estruturas de dados e raciocínio lógico, mas tem dificuldades em inferir intenções de utilizador ambíguas. Numa tarefa única no mesmo painel, o Claude replicou automaticamente o layout da página de referência, mas fabricou grandes quantidades de dados; já o Codex ignorou o layout, mas entregou dados significativamente mais precisos.
A análise revela um detalhe de manipulação do benchmark: um post de Fevereiro da OpenAI incentivava a indústria a adoptar o SWE-bench Pro como o novo padrão para benchmarks de codificação. No entanto, o anúncio do GPT-5.5 mudou para um novo benchmark chamado "Expert-SWE." O motivo, escondido nas letras pequenas, é que o GPT-5.5 foi ultrapassado pelo Opus 4.7 no SWE-bench Pro e ficou muito aquém do Mythos 77.8%, ainda não lançado da Anthropic.
Quanto ao Opus 4.7, a Anthropic publicou uma análise pós-mortem uma semana após o lançamento, reconhecendo três bugs no Claude Code que persistiram por várias semanas de Março a Abril, afectando quase todos os utilizadores. Vários engenheiros tinham previamente reportado degradação de desempenho na versão 4.6, mas foram descartados como observações subjectivas. Além disso, o novo tokenizador do Opus 4.7 aumenta o uso de tokens em até 35%, o que a Anthropic admitiu abertamente — constituindo, na prática, um aumento de preço oculto.
O DeepSeek V4 foi avaliado como "acompanhar o ritmo da fronteira, mas não liderar," posicionando-se como a alternativa de menor custo entre os modelos de código fechado. A análise também notou que "o Claude continua a superar o DeepSeek V4 Pro em tarefas de escrita chinesa de alta dificuldade," comentando que "o Claude venceu o modelo chinês na sua própria língua."
O artigo introduz um conceito-chave: a precificação do modelo deve ser avaliada por "custo por tarefa" e não por "custo por token." A precificação do GPT-5.5 é o dobro da do GPT-5.4 input $5, output por milhão de tokens, mas conclui as mesmas tarefas usando menos tokens, pelo que o custo real não é necessariamente mais alto. Os dados iniciais da SemiAnalysis mostram que a razão input-para-output do Codex é de 80:1, inferior à do Claude Code, que é de 100:1.
GateNews38m atrás
A MediaTek garante uma grande encomenda da Google para a 8.ª geração de TPU! A fermentação impulsionada por ASIC beneficia três ações conceptuais
A MediaTek já entrou na cadeia de fornecimento de chips de treino TPU de 8.ª geração da Google, assumindo a conceção do I/O Die, e adoptando o processo N3P da TSMC e o empacotamento CoWoS-S, o que evidencia que já atingiu um nível de conceção de AI ASIC de gama alta. Prevê-se que a receita de ASIC ultrapasse 1 mil milhões de dólares este ano, e que o volume de envio de TPU chegue, até 2027, a ter esperanças de atingir dezenas de milhões de unidades; cadeias de fornecimento de Taiwan como King Yuan Electronics, Chroma e Hiwin também beneficiarão, à medida que o mercado se vai gradualmente orientando para a divisão de trabalho e para o futuro de chiplets e de integração heterogénea.
ChainNewsAbmedia1h atrás