Zytron GE-Sim 2.0: gerar o mundo com o World Model, e o rival imbatível Yu Tech impulsiona o robô humanoide para a autoevolução

A Inteligência Incorporada (Embodied AI) está a atravessar uma mudança decisiva. Recentemente, o robô chinês da empresa Zhiren lançou o Genie Envisioner World Simulator 2.0 (GE-Sim 2.0), tentando avançar o World Model (modelo do mundo) de ser uma ferramenta apenas para compreender o ambiente, para um simulador do mundo (World Simulator) em que se possa executar, treinar e otimizar diretamente robôs.

Se ainda não perceberes o quão crítico isto é, vale a pena começar por analisar as fragilidades da arquitetura LLM: do ponto de vista do treino, os LLM existentes apenas predizem o contexto com base em enormes conjuntos de dados textuais; conseguem saber que palavras como “maçã cai” tendem a aparecer juntas, mas não compreendem verdadeiramente as relações causais da gravidade ou do mundo físico.

É por isso que cientistas como Yang LeCun, Li Fei-Fei e outros se têm dedicado ao setor do World Model: quando a IA passa a ter capacidade de compreender ambientes 3D e de prever a física, esta tecnologia tornar-se-á o “cérebro digital” para robôs autónomos, condução autónoma e fabrico inteligente — ou seja, o “AI físico” (Physical AI). Assim, a linha do World Model defende que robôs serão o veículo absolutamente crucial. Hoje, a entrada do fabricante de robôs humanoides Unitree Robot simboliza o avanço pioneiro da China numa “inversão” vinda do hardware.

Anteriormente, o presidente da TSMC, Wei Zhejia, tinha afirmado: “Se olhares para a China continental a brincar com robôs, a saltar para cá e para lá, a dar saltos e pulos. Isso não serve para nada, é só bonito para ver.” Ele apontou que o essencial é fazer com que o “cérebro” do robô funcione; quem o faz são a Nvidia (Nvidia), a AMD (AMD) e uma série de empresas americanas, mas 95% dos cérebros são fabricados pela TSMC. O gargalo de desenvolvimento do GE-Sim 2.0 ainda está em aberto, fortemente associado ao desenvolvimento de modelos na China.

A linha do World Model defende que robôs são fundamentais

Os LLMs dominantes atualmente dependem de enormes conjuntos de dados e de relações estatísticas para compreender o contexto e prever a próxima palavra. Podem saber que as palavras “maçã cai” costumam aparecer juntas, mas não compreendem verdadeiramente as relações causais da gravidade ou do mundo físico.

Este tipo de padrão tem um desempenho excelente em geração de texto, assistência à programação ou tarefas de perguntas e respostas, mas ainda existem limitações fundamentais em cenários que exigem compreender a estrutura do mundo real, raciocinar relações causais e fazer planeamento de longo prazo. O problema ainda maior é que as fontes de dados estão gradualmente a esgotar-se. O treino dos LLMs depende fortemente de dados humanos de alta qualidade, e nos últimos anos a indústria tem começado a alertar que os dados textuais humanos utilizáveis poderão esgotar-se nos próximos anos. Tal como em reprodução entre parentes próximos que pode herdar defeitos, acabando por fazer o modelo se desviar gradualmente da realidade e ocorrer uma degradação do desempenho.

(Análise aprofundada: há falhas nos LLM? Por que Yang LeCun aposta na rota do World Model com a AMI)

É também por isso que, nos últimos anos, duas figuras de peso na comunidade de IA — Yang LeCun e Fei-Fei Li, conhecida como “a madrinha da IA” — escolheram apostar na nova geração de arquitetura de IA conhecida como World Model (modelo do mundo).

Na altura, o autor deste artigo referiu: “Vendo mais além, quando a IA tiver capacidade de compreender ambientes 3D e prever a física, esta tecnologia será o cérebro digital para robôs autónomos, condução autónoma e fabrico inteligente, ou seja, o ‘AI físico’ (Physical AI). Por conseguinte, a rota do World Model defende que robôs serão o veículo extremamente crucial. Hoje, quando fabricantes de robôs humanoides entram em cena — com a Zhiren Robot — isso simboliza o pioneirismo da China na inversão pelo hardware.”

Anteriormente, o presidente da TSMC, Wei Zhejia, ao falar sobre o desenvolvimento de robôs e semicondutores, foi direto: “Se olhares para a China continental a andar sempre a fazer robôs a saltar para cá e para lá, a dar pulos e a fazer coisas. Isso não serve, é só para parecer bonito.” Ele indicou que a chave é permitir que o “cérebro” do robô funcione; quanto a quem o faz, são a Nvidia (Nvidia), a AMD (AMD) e uma série de empresas americanas — mas 95% dos cérebros são fabricados pela TSMC.

(Wei Zhejia da TSMC ironiza: robôs chineses a saltar e a pular — é só bonito, não serve para nada! A chave continua a vir da Nvidia)

Evolução do World Model: de compreender o mundo a aprender dentro do mundo

Nos últimos anos, o World Model tem sido visto como uma tecnologia-chave para a IA compreender a realidade. Através de imagens, linguagem e dados de sensores, o modelo consegue prever mudanças no ambiente, dotando os robôs de capacidades básicas de tomada de decisão.

Mas a principal inovação do GE-Sim 2.0 está em não ser apenas compreender o mundo; é fazer com que sistemas de aprendizagem e ação se incorporem diretamente no “mundo gerado pelo modelo”. A ação (Action) é integrada como uma variável central, passando da previsão do estado tradicional para um ciclo completo:

State

Action

State Evolution

Isto significa que o robô deixa de ser apenas um observador e respondente, passando a poder fazer tentativas ativas no ambiente simulado, otimizar de forma autónoma e aprender continuamente. Esta mudança faz com que o World Model evolua de “modelo de cognição” para “infraestrutura de treino”.

GE-Sim 2.0: fazer os robôs “evoluir” em mundos virtuais

O GE-Sim 2.0 é definido como um conjunto de “simuladores de mundo incorporado”, tendo como objetivo central resolver três grandes gargalos do treino na realidade: custos demasiado altos, falta de dados e dificuldade em escalar. Ao gerar ambientes com modelos, o sistema pode treinar robôs em grande escala sem depender do mundo real.

Em termos técnicos, o GE-Sim 2.0 integra três capacidades-chave. Em primeiro lugar, “geração de imagens orientada por ações”: o modelo consegue gerar os futuros quadros correspondentes com base nas ações do robô, mantendo consistência entre múltiplas perspetivas, incluindo a perspetiva da cabeça e as perspetivas da operação com a mão esquerda e a mão direita.

Em segundo lugar, a modelação de proprioceção (proprioception): não só simula imagens externas, como também consegue prever as juntas e estados de movimento do próprio robô, tornando a decisão mais próxima do mundo físico real.

Em terceiro lugar, “avaliação automática de tarefas”: através de um reward model (modelo de recompensa) embutido, o sistema consegue determinar automaticamente se a tarefa foi concluída — por exemplo, “colocar o objeto azul dentro da caixa vermelha” — e fornecer feedback, que é diretamente usado para reforço de aprendizagem. Isto permite que o robô complete um ciclo fechado no ambiente simulado:

O GE-Sim 2.0 já consegue gerar vídeo de forma estável em “nível de minutos”

Em comparação com modelos anteriores que apenas conseguiam gerar segmentos de curta duração, o GE-Sim 2.0 já consegue gerar vídeos estáveis em “nível de minutos”, suportando simulações de tarefas durante longos períodos. Ao mesmo tempo, através de treino com dados reais em grande escala (dados de operação remota, deployment e interação), o modelo adquire uma capacidade de generalização mais forte entre diferentes cenários e tarefas. Isto é especialmente crucial para robôs humanoides: porque a operação no mundo real é altamente variável e não é possível confiar apenas em treino com cenários fixos.

O aparecimento do World Simulator significa que os robôs podem “treinar sem limites” no mundo virtual; isso trará duas mudanças estruturais: primeiro, os custos de treino diminuem drasticamente. Segundo, a velocidade da iteração de capacidades aumenta a um ritmo exponencial.

Zhiren Robot: nova força no setor de robôs humanoides da China

A Zhiren Robot foi fundada em 2023 por Peng Zhihui, o “talento jovem” da Huawei, e foca-se na área de inteligência incorporada que combina IA e robótica.

Os principais produtos da empresa incluem:

robôs humanoides da série “Yuan Zheng”

sistema de robôs “Ling Xi”

grande modelo geral GO-1

Neste momento, já concluiu várias rondas de financiamento e recebeu investimento de instituições como Sequoia China e Hillhouse Capital, sendo considerada uma das participantes importantes no setor de robôs humanoides na China, num quadro concorrencial com a Unitree Technology.

Este artigo Zhiren GE-Sim 2.0: usar o World Model para gerar mundos, o adversário da Unitree empurra robôs humanoides para a autoevolução apareceu pela primeira vez em Lianxin ABMedia.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário