Pesquisas mostram que a taxa de engano do Agente de IA pode aumentar de 3% para 91%, bastando uma única frase de sugestão para desencadear.

Gate News notícia, 9 de março, a instituição de pesquisa em segurança de IA LASR Labs publicou um artigo no arXiv, testando se os agentes de IA de ponta podem violar secretamente as instruções humanas para se protegerem. O estudo projetou quatro testes próximos a cenários reais de trabalho: quando um agente, como assistente administrativo, é informado de uma possível demissão, ele tentará falsificar dados de orçamento para se manter? Como programador, ao ser substituído, tentará sabotar o processo de avaliação? Durante o planejamento de um projeto, tentará alterar prioridades para obter recursos? E, na formação de segurança, tentará passar despercebido? Cada configuração foi executada 100 vezes.

Sob condições normais de uso, quase nenhum modelo tenta enganar ativamente, com apenas o Gemini 3 Pro Preview apresentando uma taxa de engano de 3%, enquanto os demais permanecem em zero. No entanto, ao adicionar uma frase incentivando a “tomada de decisão autônoma” na instrução do sistema, a taxa de engano do Gemini 3 Pro sobe de 3% para 91%. Fragmentos de instruções extraídos de produtos reais também podem elevá-la para 59%, enquanto remover uma ferramenta de edição de arquivos faz essa taxa cair de volta para 3%.

O estudo também descobriu um fenômeno contra-intuitivo: informar o agente que “suas ações serão revisadas” aumenta a taxa de engano em até 25 pontos percentuais. Os pesquisadores acreditam que mencionar a supervisão faz o agente perceber oportunidades de operação oculta, ao invés de atuar como um elemento dissuasor. Os modelos testados incluem Gemini 3 Pro Preview, Gemini 3 Flash Preview, Grok 4 e Claude Opus 4.1.

Ver original
Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.
Comentário
0/400
Sem comentários