Mensagem do Gate News, 23 de abril — Pesquisadores do Google, incluindo He Kaiming e Xie Saining, publicaram um artigo que apresenta o Vision Banana, um modelo geral de compreensão visual criado por meio de ajuste fino leve de instruções do modelo de geração de imagem Nano Banana Pro (Gemini 3 Pro ). A principal inovação unifica as saídas de todas as tarefas visuais como imagens RGB, permitindo segmentação, estimativa de profundidade e predição de normais de superfície por meio de geração de imagens, sem arquiteturas ou funções de perda específicas da tarefa.
Na segmentação semântica, o Vision Banana superou o modelo especializado SAM 3 em 4,7 pontos percentuais no Cityscapes; na segmentação por expressão de referência, ele superou o SAM 3 Agent. No entanto, ficou atrás do SAM 3 em segmentação de instâncias. Para tarefas 3D, a estimativa métrica de profundidade alcançou 0,929 de acurácia média em quatro conjuntos de dados padrão, superando os 0,918 do Depth Anything V3, usando apenas dados sintéticos sem informações reais de profundidade ou parâmetros de câmera durante a inferência. A estimativa de normais de superfície obteve resultados de ponta em três benchmarks internos.
O ajuste fino envolveu dados mínimos de tarefas de visão misturados ao treinamento original de geração de imagens, preservando as capacidades de geração do modelo — o desempenho correspondeu ao Nano Banana Pro original nos testes de qualidade de geração. O artigo propõe que o pré-treinamento de geração de imagens em visão é paralelo ao pré-treinamento de geração de texto em linguagem: os modelos aprendem as representações internas necessárias para a compreensão de imagens durante a geração, com o ajuste fino de instruções apenas liberando essa capacidade.
Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o
Aviso Legal.
Related Articles
Samsung SDS Expande Parceria com Google Cloud para Atender Setores Regulados com Serviços de IA e Segurança
Mensagem do Gate News, 23 de abril — A Samsung SDS expandiu sua parceria com o Google Cloud para oferecer serviços de IA, computação em nuvem e segurança a setores regulados, incluindo governo e serviços financeiros.
As empresas vão implantar o Google Distributed Cloud para clientes que exigem localização de dados
GateNews3m atrás
Sullivan & Cromwell Pede Desculpas por Alucinações de IA em Petição Judicial com 40 Citações Errôneas
Mensagem do Gate News, 23 de abril — Sullivan & Cromwell, um grande escritório de advocacia de Wall Street, pediu desculpas a um juiz federal depois de apresentar uma petição judicial contendo aproximadamente 40 citações incorretas e outros erros causados por alucinações de IA. Andrew Dietderich, co-chefe da equipe global de reestruturação do escritório,
GateNews19m atrás
Tencent Lança e Disponibiliza em Código Aberto Prévia do Hunyuan Hy3 com 295B de Parâmetros
Mensagem do Gate News, 23 de abril — A Tencent revelou e disponibilizou em código aberto a prévia do Hunyuan Hy3, um modelo híbrido de linguagem mixture-of-experts (mistura de especialistas) com fusão de pensamento rápido e lento. O modelo possui 295 bilhões de parâmetros no total e 21 bilhões de parâmetros ativos, com suporte a um comprimento máximo de contexto de 256K
GateNews33m atrás
Coreia do Sul e Vietnã firmam 70+ MOUs em IA, Energia e Infraestrutura de Dados
Mensagem do Gate News, 23 de abril — A Coreia do Sul e o Vietnã assinaram mais de 70 memorandos de entendimento (MOUs) durante a visita oficial do presidente Lee Jae Myung a Hanói em 23 de abril, cobrindo IA, energia, infraestrutura e telecomunicações. Um fórum empresarial, com a participação de mais de 500 executivos, discutiu ecossistemas de IA e da indústria de energia, com grandes conglomerados coreanos, incluindo Samsung, SK, LG e Hyundai, representados.
GateNews33m atrás
Engenho de respostas por IA é alvo de poluição coletiva: 56% das respostas corretas no Gemini 3 não têm suporte de fonte
Este texto aponta que, ao consultar um mecanismo de respostas por IA, ele cita páginas da web em tempo real; se a fonte for gerada por IA ou faltar evidências, isso polui os resultados. Não é necessário mais treinar para que funcione, sendo isso chamado de contaminação por recuperação (retrieval contamination). Embora o Gemini3 tenha alta taxa de acerto, 56% das respostas não têm fontes verificáveis; casos como Lily Ray, Grokipedia etc. mostram que a IA é facilmente enganada por conteúdo inventado. A conclusão é que a camada de citação se desconecta de autores confiáveis, formando um ciclo de poluição autorreforçado; ainda assim, os usuários precisam voltar à fonte original e não devem tratar a resposta como o ponto final da verificação de fatos.
ChainNewsAbmedia41m atrás
Anthropic Diz ao Tribunal que Modelos de IA do Pentágono Implantados Não Têm 'Kill Switch'
Mensagem do Gate News, 23 de abril — A Anthropic protocolou um documento na U.S. Court of Appeals for the D.C. Circuit afirmando que, uma vez que seus modelos de IA sejam implantados em ambientes do Pentágono, a empresa não tem visibilidade nem meios técnicos para controlar ou desligar os modelos, e não existe um "kill switch"
GateNews43m atrás