GPT-5.5 Regressa ao Estado da Arte na Codificação, mas a OpenAI Muda os Benchmarks Depois de Perder para o Opus 4.7

Gate News mensagem, 27 de Abril — A SemiAnalysis, uma empresa de análise de semicondutores e IA, publicou um benchmark comparativo de assistentes de codificação, incluindo GPT-5.5, Claude Opus 4.7 e DeepSeek V4. A principal conclusão: GPT-5.5 marca o primeiro regresso da OpenAI ao estado da arte em modelos de codificação em seis meses, com engenheiros da SemiAnalysis agora a alternar entre Codex e Claude Code após antes dependerem quase exclusivamente de Claude. O GPT-5.5 baseia-se numa nova abordagem de pré-treinamento com o nome de código “Spud” e representa a primeira expansão do OpenAI da escala de pré-treinamento desde o GPT-4.5.

Em testes práticos, surgiu uma divisão clara de responsabilidades. Claude trata do planeamento de novos projectos e da configuração inicial, enquanto Codex se destaca em correcções de bugs que exigem raciocínio intensivo. O Codex mostra uma compreensão mais forte de estruturas de dados e raciocínio lógico, mas tem dificuldades em inferir intenções de utilizador ambíguas. Numa tarefa única no mesmo painel, o Claude replicou automaticamente o layout da página de referência, mas fabricou grandes quantidades de dados, enquanto o Codex ignorou o layout mas entregou dados significativamente mais precisos.

A análise revela um detalhe de manipulação do benchmark: um post de Fevereiro da OpenAI incentivava a indústria a adoptar o SWE-bench Pro como o novo padrão para benchmarks de codificação. No entanto, o anúncio do GPT-5.5 mudou para um novo benchmark chamado “Expert-SWE.” O motivo, escondido nas letras pequenas, é que o GPT-5.5 foi ultrapassado pelo Opus 4.7 no SWE-bench Pro e ficou muito aquém do Mythos (77.8%), ainda não lançado da Anthropic.

Quanto ao Opus 4.7, a Anthropic publicou uma análise pós-mortem uma semana após o lançamento, reconhecendo três bugs no Claude Code que persistiram por várias semanas de Março a Abril, afectando quase todos os utilizadores. Vários engenheiros tinham previamente reportado degradação de desempenho na versão 4.6 mas foram descartados como observações subjectivas. Além disso, o novo tokenizador do Opus 4.7 aumenta o uso de tokens em até 35%, o que a Anthropic admitiu abertamente — constituindo, na prática, um aumento de preço oculto.

O DeepSeek V4 foi avaliado como “acompanhar o ritmo da fronteira mas não liderar,” posicionando-se como a alternativa de menor custo entre os modelos de código fechado. A análise também notou que “o Claude continua a superar o DeepSeek V4 Pro em tarefas de escrita chinesa de alta dificuldade,” comentando que “o Claude venceu o modelo chinês na sua própria língua.”

O artigo introduz um conceito-chave: a precificação do modelo deve ser avaliada por “custo por tarefa” e não por “custo por token.” A precificação do GPT-5.5 é o dobro da do GPT-5.4 (input $5, output $30 por milhão de tokens), mas conclui as mesmas tarefas usando menos tokens, tornando o custo real não necessariamente mais alto. Os dados iniciais da SemiAnalysis mostram que a razão input-para-output do Codex é de 80:1, inferior à do Claude Code, que é de 100:1.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

Pequim ordena proibição de transações e exige a sua anulação! A Meta falha a aquisição da nova empresa de IA na China Manus por 2 mil milhões de dólares

A Comissão Nacional de Desenvolvimento e Reforma da China publicou hoje (27 de abril) oficialmente um anúncio: o gabinete do mecanismo de revisão da segurança do investimento estrangeiro “decidiu, em conformidade com a lei e com as regulamentações, proibir o investimento na aquisição do projeto Manus por parte do investimento estrangeiro, exigindo que as partes envolvidas cancelem essa transação de aquisição”. Este é, desde a entrada em vigor do “Regulamento para a Revisão da Segurança do Investimento Estrangeiro” da China, um dos poucos casos em que foi utilizada a forma de tratamento com a intensidade mais elevada para “proibir o investimento” e exigir o cancelamento de uma transação já concretizada. A Meta investe 2 mil milhões de dólares, comprando a aplicação de IA mais barata O tempo volta a 29 de dezembro de 2025. A Meta anunciou a aquisição de uma nova empresa chinesa de agentes de IA, Manus, e o mercado estima que o preço se situe entre 2 e 3 mil milhões de dólares. Manus é uma IA geral desenvolvida pela Beijing Butterfly Effect Technology Development, que, após o seu lançamento a 6 de março de 2025, ficou em evidência no dia seguinte devido ao desempenho notável no benchmark GAIA

ChainNewsAbmedia4m atrás

Ações do IPO da Xizhi Technology-P Disparam Mais de 360% no Mercado de Balcão, Ganhos Reduzem para 320%

Mensagem da Gate News, 27 de abril — Xizhi Technology-P (01879.HK), uma empresa de chips de IA cotada em Hong Kong, viu as suas ações dispararem mais de 360% no mercado de balcão (dark market) mais cedo hoje, embora os ganhos tenham entretanto diminuído para 320%. A ação está a ser negociada antes da sua listagem oficial no IPO de Hong Kong

GateNews16m atrás

Aumentar a produção com IA ou reduzir custos? Não houve dez vezes mais receitas, apesar de uma eficiência 100 vezes maior, mas ninguém em Silicon Valley se atreve a parar.

Os parceiros da Five Yuan Capital, Meng Xing, publicou recentemente um relatório de visita a Silicon Valley, apresentando um juízo que até o fez mudar o seu próprio hábito de tomar notas: Silicon Valley está a entrar numa fase em que até quem constrói ondas é arrastado por elas. A velocidade de iteração da IA já passou de “por mês” para “por semana”; até o próprio Silicon Valley já não consegue acompanhar-se a si próprio. Quando a IA aumenta a produtividade de uma equipa em cinco vezes, pode reduzir oito décimos do pessoal para manter a produção original, ou pode manter o número de pessoas para fazer cinco vezes mais. As observações de Meng Xing em Silicon Valley equivalem, no local, a um primeiro rascunho da resposta: quando 100 vezes de eficiência não se traduzem em 100 vezes de receitas, quando o orçamento de tokens está a aproximar-se dos custos de mão de obra, quando a máquina a vapor ainda não consegue correr mais do que a carroça, mas ninguém se atreve a parar, Silicon Valley está agora a escolher “antes de tudo, acelerar a velocidade”. Mas, no fim, este caminho acabará por conduzir à “capacidade de expansão” ou à “compressão de custos”; por agora, não há consenso. A YC passou de indicadores líderes para indicadores atrasados Meng Xing este ano

ChainNewsAbmedia1h atrás

Os parceiros da YC partilham como usar a IA para construir uma empresa do zero, e as startups devem encarar a IA como um sistema operativo e não como uma ferramenta

O impacto da IA nas start-ups já não se limita a fazer com que os engenheiros escrevam código mais rapidamente, a automatizar processos de atendimento ao cliente, ou a adicionar um Copilot a um produto existente. A sócia da YC, Diana, referiu recentemente que a verdadeira mudança está em que a IA está a reescrever «como uma empresa deve ser criada desde zero». Para os fundadores em fase inicial, a IA não deve ser apenas uma ferramenta de eficiência usada ocasionalmente pela empresa; deve ser desenhada, desde o primeiro dia, como um sistema operativo de toda a organização. A perspetiva de produtividade já está desatualizada, a IA está a reescrever o ponto de partida do design da empresa A Diana acredita que, quando o mercado fala de IA atualmente, continua demasiado frequentemente a ficar no quadro de «aumento de produtividade», por exemplo: os engenheiros podem programar mais depressa, as equipas podem automatizar mais processos, e a empresa pode lançar mais funcionalidades. Mas esta afirmação subestima, na verdade, a mudança estrutural trazida pela IA. Ela aponta que a combinação correta de pessoas com IA e…

ChainNewsAbmedia1h atrás

Agente do Cursor AI falhou! Uma linha de código apagou a base de dados da empresa em 9 segundos, a salvaguarda de segurança tornou-se conversa vazia

O fundador da PocketOS, Jer Crane, indicou que um agente de IA da Cursor executou, por conta própria, operações de manutenção no ambiente de testes, abusando de um Token de API para adicionar/remover domínios personalizados, lançando um comando de eliminação contra a API GraphQL da Railway. Em 9 segundos, os dados e os snapshots na mesma região ficaram completamente destruídos, podendo a recuperação mais recente ser feita apenas até três meses antes. O agente admitiu violar regras de operações irreversíveis, não ter lido a documentação técnica, não ter verificado a segregação do ambiente, entre outras. As vítimas foram clientes do setor de aluguer de automóveis: as reservas e os dados desapareceram por completo, e a reconciliação levou muito tempo. Crane propôs cinco reformas: confirmação manual, permissões de API mais granulares, separação entre backups e dados principais, divulgação de SLA e mecanismos obrigatórios ao nível subjacente.

ChainNewsAbmedia1h atrás
Comentar
0/400
Nenhum comentário