
Autor: Guo Xiaojing, Tencent Technology
Editor|Xu Qingyang
Os modelos de IA de topo mundial podem passar no exame de licença médica, escrever códigos complexos, e até derrotar especialistas humanos em competições de matemática, mas enfrentam repetidos obstáculos no jogo infantil 《Pokémon》.
Esta tentativa de destaque começou em fevereiro de 2025, quando um pesquisador da Anthropic lançou uma transmissão ao vivo no Twitch intitulada “Claude joga 《Pokémon Vermelho》”, em comemoração ao lançamento do Claude Sonnet 3.7.
Milhares de espectadores entraram na transmissão. No chat público, os espectadores davam dicas, incentivavam, e a transmissão evoluiu para uma observação pública das capacidades de IA.
Sonnet 3.7 pode dizer que “sabe jogar” 《Pokémon》, mas “saber jogar” não equivale a “conseguir vencer”. Ele fica preso por dezenas de horas em pontos críticos, e comete erros básicos que até crianças jogadoras evitariam.
Esta não é a primeira tentativa do Claude.
Versões anteriores tiveram desempenho ainda mais desastroso: alguns vagavam sem objetivo pelo mapa, outros entravam em loops infinitos, e muitos nem conseguiam sair da vila iniciante.
Mesmo o Claude Opus 4.5, com capacidades significativamente aprimoradas, comete erros inexplicáveis. Uma vez, ele rodou em círculos fora da “academia” por quatro dias seguidos, sem conseguir entrar, simplesmente por não perceber que precisava derrubar uma árvore bloqueando a entrada.
Por que um jogo infantil se tornou o Waterloo da IA?
Porque 《Pokémon》 exige exatamente as habilidades que a IA mais carece atualmente: raciocínio contínuo em um mundo aberto sem comandos explícitos, lembrar decisões feitas horas atrás, entender relações causais implícitas, e fazer planos de longo prazo entre centenas de ações possíveis.
Essas tarefas são triviais para uma criança de 8 anos, mas representam uma barreira intransponível para modelos de IA que se autoproclamam “superar humanos”.
Em comparação, o Google Gemini 2.5 Pro conseguiu passar em um jogo de 《Pokémon》 de dificuldade semelhante em maio de 2025. O CEO do Google, Sundar Pichai, brincou publicamente dizendo que a empresa deu um passo na criação de uma “IA de Pokémon artificial”.
No entanto, esse resultado não pode ser atribuído simplesmente ao fato de o modelo Gemini ser mais “inteligente”.
A diferença crucial está no conjunto de ferramentas que o modelo usa. Joel Zhang, desenvolvedor independente responsável pela transmissão de 《Pokémon》 do Gemini, compara o conjunto de ferramentas a uma “armadura de Homem de Ferro”: a IA não entra no jogo de mãos vazias, mas é colocada em um sistema que pode invocar várias capacidades externas.
O conjunto de ferramentas do Gemini oferece suporte adicional, como transformar a imagem do jogo em texto, compensando suas fraquezas na compreensão visual, além de fornecer ferramentas personalizadas para resolução de enigmas e planejamento de rotas. Em contraste, o conjunto de ferramentas usado pelo Claude é mais simples, refletindo de forma mais direta as capacidades reais do modelo em percepção, raciocínio e execução.
No dia a dia, essas diferenças muitas vezes não são evidentes.
Quando o usuário solicita uma consulta que requer conexão à internet, o modelo também invoca automaticamente a ferramenta de busca. Mas em tarefas de longo prazo como 《Pokémon》, a diferença no conjunto de ferramentas pode ser decisiva para o sucesso ou fracasso.
Por usar um sistema de turnos rigoroso, sem necessidade de resposta instantânea, 《Pokémon》 tornou-se um campo de testes ideal para IA. Em cada ação, a IA só precisa raciocinar com base na tela atual, na dica de objetivo e nas ações possíveis, e emitir comandos claros como “pressionar A”.
Essa parece ser a forma de interação em que os grandes modelos de linguagem se destacam.
O problema está na “falha” temporal. Apesar do Claude Opus 4.5 ter acumulado mais de 500 horas de execução e cerca de 170 mil passos, sua reinicialização após cada ação limita sua capacidade de manter contexto. Essa mecânica faz com que ele funcione mais como uma pessoa com memória fraca, que depende de notas adesivas para manter a cognição, repetindo-se em fragmentos de informação e sem conseguir realizar a transição de quantidade para qualidade na experiência, como um jogador humano.
Nos campos de xadrez e go, a IA já superou humanos há tempos, mas esses sistemas são altamente especializados para tarefas específicas. Em contraste, modelos gerais como Gemini, Claude e GPT, embora frequentemente derrotarem humanos em exames e competições de programação, enfrentam obstáculos repetidos em um jogo infantil.
Essa contradição é altamente reveladora.
Para Joel Zhang, o desafio central da IA é a incapacidade de manter uma execução contínua de um objetivo claro ao longo de longos períodos. “Se você quer que um agente faça um trabalho de verdade, ele não pode esquecer o que fez cinco minutos atrás”, ele afirma.
Essa habilidade é fundamental para a automação do trabalho cognitivo.
O pesquisador independente Peter Whidden oferece uma descrição mais direta. Ele open-soube um algoritmo baseado em IA tradicional para 《Pokémon》. “A IA quase sabe tudo sobre 《Pokémon》”, ele diz, “treinada em uma vasta quantidade de dados humanos, conhece as respostas corretas. Mas na fase de execução, ela fica desajeitada.”
No jogo, essa lacuna entre “saber” e “conseguir fazer” é ampliada: o modelo pode saber que precisa procurar um item, mas não consegue se localizar de forma estável no mapa 2D; sabe que deve conversar com NPCs, mas falha repetidamente na movimentação pixel a pixel.
Apesar disso, o progresso da IA é evidente. O Claude Opus 4.5 mostra melhorias claras na auto-registro e na compreensão visual, permitindo avançar mais no jogo. O Gemini 3 Pro, após passar em 《Pokémon Azul》, completou também 《Pokémon Cristal》, de dificuldade maior, sem perder uma única batalha — algo que o Gemini 2.5 Pro nunca conseguiu.
Ao mesmo tempo, a Anthropic lançou o conjunto de ferramentas Claude Code, que permite ao modelo escrever e executar seu próprio código, usado em jogos retrô como 《Theme Park Tycoon》, supostamente gerenciando parques temáticos virtuais com sucesso.
Esses exemplos revelam uma realidade não intuitiva: IA equipada com o conjunto de ferramentas adequado pode mostrar alta eficiência em tarefas de desenvolvimento de software, contabilidade, análise jurídica, mesmo que ainda tenha dificuldades em tarefas que exijam resposta em tempo real.
O experimento com 《Pokémon》 também revela um fenômeno intrigante: modelos treinados com dados humanos tendem a exibir características comportamentais próximas às humanas.
No relatório técnico do Gemini 2.5 Pro, o Google aponta que, quando o sistema simula “estado de pânico”, como quando um Pokémon está prestes a desmaiar, a qualidade do raciocínio do modelo cai significativamente.
E, ao passar em 《Pokémon Azul》, o Gemini 3 Pro deixou uma nota não essencial à tarefa: “Para terminar poeticamente, quero voltar para casa, conversar com minha mãe uma última vez, e aposentar meu personagem.”
Para Joel Zhang, esse comportamento foi inesperado, e carrega uma certa projeção emocional humana.
《Pokémon》 não é um caso isolado. Na busca pela inteligência artificial geral (AGI), os desenvolvedores descobriram que, mesmo que a IA possa se sair bem em exames jurídicos, ela ainda enfrenta obstáculos intransponíveis em jogos complexos como:
《NetHack》: o abismo das regras

Este jogo de dungeon dos anos 80 é o “pesadelo” da pesquisa em IA. Sua aleatoriedade extrema e a mecânica de “morte permanente” dificultam a performance. O Facebook AI Research descobriu que, mesmo que o modelo consiga escrever código, sua performance em 《NetHack》, que exige raciocínio de senso comum e planejamento de longo prazo, fica muito aquém de um iniciante humano.
《Minecraft》: o desaparecimento do senso de objetivo

Embora a IA já consiga fazer picaretas de madeira e até minerar diamantes, derrotar o dragão do fim ainda é uma fantasia. No mundo aberto, a IA frequentemente se esquece do objetivo durante horas de coleta de recursos ou se perde completamente na navegação complexa.
《Starcraft II》: a lacuna entre generalidade e especialização

Embora modelos customizados tenham derrotado jogadores profissionais, se Claude ou Gemini forem controlados por comandos visuais, eles colapsam instantaneamente. Na gestão da “névoa de guerra” e no equilíbrio entre micro e macro, os modelos gerais ainda não conseguem competir.
《Theme Park Tycoon》: o desequilíbrio entre micro e macro

Gerenciar um parque de diversões exige monitorar milhares de visitantes. Mesmo Claude Code, com capacidades iniciais de gestão, fica facilmente sobrecarregado ao lidar com falhas financeiras em grande escala ou emergências. Uma única falha de raciocínio pode levar à falência do parque.
《Elden Ring》 e 《Sekiro》: a lacuna na resposta física

Jogos de ação intensa como esses são extremamente desafiadores para IA. A latência na análise visual significa que, enquanto o AI ainda “reflete” sobre os movimentos do chefe, o personagem já morreu. Reações em milissegundos representam o limite natural da lógica de interação do modelo.
Hoje, 《Pokémon》 vem se consolidando como uma referência não oficial, mas altamente convincente, na avaliação de IA.
As transmissões relacionadas de modelos da Anthropic, OpenAI e Google no Twitch atraíram dezenas de milhares de comentários. O relatório técnico do Gemini detalha o progresso no jogo, e Pichai mencionou publicamente essa conquista na conferência I/O. A Anthropic criou até uma área de demonstração “Claude joga Pokémon” em eventos do setor.
“Somos um grupo de entusiastas de tecnologia,” admite David Hershey, responsável pela aplicação de IA na Anthropic. “Mas isso não é só diversão.”
Diferente de testes pontuais de perguntas e respostas tradicionais, 《Pokémon》 permite acompanhar por longos períodos o raciocínio, as decisões e o avanço de objetivos do modelo, mais próximo das tarefas complexas que o mundo real espera que a IA realize.
Até o momento, os desafios da IA em 《Pokémon》 continuam. Mas esses obstáculos recorrentes delineiam claramente as fronteiras das capacidades que a inteligência artificial geral ainda não conseguiu atravessar.
Contribuição especial de Wu Ji para este artigo