Entrevista com o fundador da DeepMind: Arquitetura de AGI, estado atual do Agente e as próximas descobertas científicas na próxima década

Título original do vídeo: Demis Hassabis: Agentes, AGI & A Próxima Grande Descoberta Científica

Fonte original do vídeo: Y Combinator
Tradução original: Deep潮 TechFlow

Introdução do editor

CEO do DeepMind do Google, vencedor do Nobel de Química Demis Hassabis, participou do Y Combinator, falando sobre quais avanços-chave ainda são necessários para alcançar a AGI, dando conselhos aos empreendedores sobre como manter a liderança, e onde a próxima grande descoberta científica pode surgir.

A avaliação mais prática para empreendedores de deep tech é que, se você iniciar um projeto de deep tech com prazo de dez anos hoje, deve incluir na sua estratégia a chegada da AGI. Além disso, ele revelou que a Isomorphic Labs (empresa de farmacêutica de IA derivada do DeepMind) está prestes a fazer um anúncio importante.

Citações essenciais

Rota e cronograma da AGI

·「As componentes tecnológicas existentes quase certamente farão parte da arquitetura final da AGI.」

·「Aprendizado contínuo, raciocínio de longo prazo, alguns aspectos da memória ainda não estão resolvidos, a AGI precisa de tudo isso.」

·「Se sua linha do tempo para a AGI é por volta de 2030, como a minha, e você começou um projeto de deep tech hoje, deve considerar que a AGI pode surgir no meio do caminho.」

Memória e janela de contexto

·「A janela de contexto é aproximadamente equivalente à memória de trabalho. A memória de trabalho humana tem em média sete dígitos, nós temos janelas de contexto de milhões ou até dezenas de milhões de tokens. Mas o problema é que colocamos tudo lá dentro, incluindo informações irrelevantes ou erradas, essa abordagem é bastante grosseira atualmente.」

·「Se quisermos processar streams de vídeo em tempo real e armazenar todos os tokens, um milhão de tokens é suficiente para cerca de 20 minutos.」

Defeitos do raciocínio

·「Gosto de usar o Gemini para jogar xadrez. Às vezes ele percebe que uma jogada é ruim, mas não consegue encontrar uma alternativa melhor, então dá uma volta e faz a jogada ruim mesmo assim. Um sistema de raciocínio preciso não deveria cometer esse tipo de erro.」

·「Ele consegue resolver questões de nível medalha de ouro na IMO, mas ao reformular a pergunta, comete erros de matemática básica de escola primária. Parece que falta algo na introspecção do seu próprio processo de pensamento.」

Agente e criatividade

·「Para alcançar a AGI, você precisa de um sistema que possa resolver problemas de forma proativa. Agent é o caminho, e acho que estamos apenas começando.」

·「Ainda não vi alguém usando vibe coding para criar um jogo AAA que domine as paradas de aplicativos. Com o esforço atual, isso é possível, mas ainda não aconteceu. Falta alguma ferramenta ou fluxo de trabalho.」

Destilação e modelos pequenos

·「Nossa hipótese é que, após o lançamento de um modelo Pro de ponta, sua capacidade pode ser comprimida em um modelo muito pequeno, capaz de rodar em dispositivos de borda, em cerca de seis meses a um ano. Ainda não atingimos o limite teórico de densidade de informação.」

Descobertas científicas e o “Teste Einstein”

·「Às vezes chamo de ‘Teste Einstein’, ou seja, usar o conhecimento de 1901 para treinar um sistema e ver se ele consegue deduzir de forma independente as descobertas de Einstein em 1905, incluindo a relatividade restrita. Se conseguir, esses sistemas estão próximos de inventar algo totalmente novo.」

·「Resolver um problema de prêmio Millennium já é uma conquista, mas mais difícil ainda é propor um novo conjunto de problemas de Millennium, considerados profundos e dignos de uma vida de pesquisa pelos melhores matemáticos.」

Conselhos para empreendedores de deep tech

·「Buscar problemas difíceis e problemas simples é, na prática, bastante semelhante, apenas a forma de enfrentá-los difere. A vida é curta, então é melhor focar naquelas coisas que, se você não fizer, ninguém fará.」

Caminho para a realização da AGI

Gary Tan: Você pensa que já temos uma boa ideia de quantas arquiteturas finais de AGI existem, considerando o paradigma atual? O que ainda falta fundamentalmente?

Demis Hassabis: Grande escala de pré-treinamento, RLHF, cadeia de raciocínio, tenho certeza de que farão parte da arquitetura final da AGI. Essas tecnologias já provaram muita coisa até hoje. Não consigo imaginar que, em dois anos, descobriremos que esse caminho é errado. Para mim, não faz sentido. Mas, além do que já temos, talvez falte uma ou duas coisas. Aprendizado contínuo, raciocínio de longo prazo, alguns aspectos da memória ainda não estão resolvidos.

A AGI precisa de tudo isso. Talvez com as tecnologias atuais e algumas inovações progressivas, seja possível expandir até lá, mas pode ser que ainda reste uma ou duas barreiras críticas. Não acho que sejam mais de duas ou três. Minha avaliação pessoal é que a probabilidade de existirem esses pontos críticos não resolvidos é de uns 50%. Então, na DeepMind, estamos avançando em duas frentes.

Gary Tan: Tenho lidado com muitos sistemas de agentes, e o que mais me impressiona é que, na base, eles usam os mesmos pesos repetidamente. Então, o conceito de aprendizado contínuo é muito interessante, porque atualmente estamos basicamente colando tudo com fita, como aqueles ciclos de “sonho noturno”.

Demis Hassabis: Exato, esses ciclos de sonho são bem legais. Já pensamos nisso na integração da memória de cenário. Meu doutorado foi sobre como o hipocampo integra novas informações de forma elegante ao que já sabemos. O cérebro faz isso muito bem.

Ele realiza esse processo durante o sono, especialmente no sono REM, onde revisita experiências importantes para aprender com elas. Nosso primeiro programa Atari, o DQN (DeepMind, 2013, a primeira rede Q profunda usando reforço para alcançar nível humano em jogos de Atari), conseguiu dominar jogos de Atari principalmente por meio de experiência de replay.

Aprendemos isso da neurociência: repetir o caminho de sucesso várias vezes. Isso foi em 2013, época antiga na IA, mas foi fundamental na época.

Concordo que, hoje, estamos basicamente colando tudo com fita. Colocando tudo dentro da janela de contexto. Parece uma abordagem grosseira. Mesmo que façamos isso com máquinas, não com cérebros biológicos, teoricamente poderíamos ter janelas de contexto de milhões ou dezenas de milhões de tokens, e memória perfeita, mas o custo de busca e recuperação ainda é alto. Em decisões que exigem ação imediata, encontrar informações realmente relevantes não é simples, mesmo que tudo esteja armazenado. Então, vejo espaço enorme para inovação na área de memória.

Gary Tan: Honestamente, uma janela de contexto de um milhão de tokens já é maior do que eu esperava, e dá para fazer muita coisa.

Demis Hassabis: Para a maioria dos cenários, sim, é suficiente. Mas pense: a janela de contexto é aproximadamente equivalente à memória de trabalho. A memória de trabalho humana tem em média sete dígitos, e nós temos janelas de contexto de milhões ou dezenas de milhões de tokens. O problema é que colocamos tudo lá, incluindo informações irrelevantes ou erradas, essa abordagem é bastante grosseira. E, se você quiser processar streams de vídeo em tempo real, simplesmente armazenar tudo com uma janela de um milhão de tokens só dá para cerca de 20 minutos. Mas, se você quer que o sistema entenda sua vida de um ou dois meses, ainda está longe de ser suficiente.

Gary Tan: DeepMind sempre investiu pesado em reforço e busca, essa filosofia está profundamente embutida na construção do Gemini? O reforço ainda é subestimado?

Demis Hassabis: Talvez sim, ainda é subestimado. Essa área tem altos e baixos. Desde o primeiro dia, na DeepMind, trabalhamos com sistemas de agentes. Todo o trabalho em Atari e AlphaGo, na essência, é reforço com agentes capazes de alcançar objetivos, tomar decisões, planejar. Começamos com jogos, porque a complexidade era controlável, e depois evoluímos para jogos mais complexos, como AlphaGo, AlphaStar, e assim por diante.

A questão agora é: podemos generalizar esses modelos para criar modelos de mundo ou linguagem, além de jogos? Nos últimos anos, temos trabalhado nisso. Hoje, os principais modelos de pensamento e cadeia de raciocínio que eles usam são, na essência, uma retomada do que o AlphaGo começou.

Acho que muito do que fizemos na época é altamente relevante para o que estamos fazendo hoje. Estamos revisitando essas ideias antigas, usando maior escala, de forma mais geral, incluindo métodos como busca em árvore de Monte Carlo e reforço. As ideias do AlphaGo e AlphaZero estão altamente relacionadas aos modelos de base atuais, e acredito que grande parte do progresso nos próximos anos virá daí.

Destilação e modelos pequenos

Gary Tan: Agora, para sermos mais inteligentes, precisamos de modelos maiores, mas a destilação também evolui, e modelos menores podem ser bastante rápidos. Seus modelos Flash são muito bons, atingem cerca de 95% do desempenho dos modelos de ponta, mas custam só um décimo. É isso mesmo?

Demis Hassabis: Acho que essa é uma das nossas maiores vantagens. Primeiro, construímos o maior modelo possível para alcançar capacidades de ponta. Uma das nossas forças é que conseguimos rapidamente destilar e comprimir essas capacidades em modelos cada vez menores. A destilação foi uma invenção nossa, e ainda somos líderes mundiais nisso. Além disso, temos forte motivação de negócio para fazer isso. Somos uma das maiores plataformas de aplicação de IA do mundo.

Com AI Overviews, AI Mode, e Gemini, hoje, todos os produtos do Google — mapas, YouTube, etc. — estão integrando Gemini ou tecnologias relacionadas. Isso envolve bilhões de usuários e dezenas de produtos com bilhões de usuários. Eles precisam de alta velocidade, eficiência, baixo custo e baixa latência. Isso nos motiva a otimizar ao máximo os modelos Flash e Flash-Lite, para que sejam extremamente eficientes, e espero que isso também beneficie os usuários em suas tarefas diárias.

Gary Tan: Tenho curiosidade: até que ponto esses modelos menores podem ser realmente inteligentes? A destilação tem limites? Modelos de 50B ou 400B podem ser tão inteligentes quanto os maiores atuais?

Demis Hassabis: Não acho que atingimos o limite teórico de densidade de informação ainda, pelo menos ninguém sabe se existe. Talvez um dia encontremos um teto de densidade, mas atualmente, nossa hipótese é que, após o lançamento de um modelo Pro de ponta, sua capacidade pode ser comprimida em um modelo muito pequeno, capaz de rodar em dispositivos de borda, em cerca de seis meses a um ano.

Você pode ver isso no modelo Gemma, por exemplo. Nosso Gemma 4 tem desempenho muito forte na mesma escala. Isso tudo usa muita destilação e otimizações de eficiência de modelos pequenos. Então, realmente, não vejo limites teóricos claros, estamos longe de alcançá-los.

Gary Tan: Hoje, há uma disparidade enorme: engenheiros conseguem fazer em seis meses o que antes levaria anos. Algumas pessoas aqui fazem o trabalho de um engenheiro do Google dos anos 2000, mil vezes mais rápido. Steve Yegge já comentou isso.

Demis Hassabis: Acho isso empolgante. Modelos menores têm muitas aplicações. Um deles é o custo, que fica mais baixo, e a velocidade, que aumenta. Você consegue iterar mais rápido, especialmente ao colaborar com sistemas. Sistemas rápidos, mesmo que não sejam os mais avançados — digamos, com 90% ou 95% do desempenho de ponta — já são suficientes, e a velocidade de iteração traz um valor que supera esses 5% de diferença.

Outro aspecto importante é rodar esses modelos em dispositivos de borda, não só por eficiência, mas por privacidade e segurança. Pense em dispositivos que lidam com informações altamente pessoais, ou robôs domésticos. Você vai querer que eles rodem localmente um modelo eficiente e potente, deixando tarefas mais pesadas para a nuvem só quando necessário. Processar áudio e vídeo localmente, manter os dados na ponta, pode ser o estado final ideal.

Memória e raciocínio

Gary Tan: Voltando à memória e ao contexto. Os modelos atuais são sem estado. Se eles tivessem aprendizado contínuo, como seria a experiência do desenvolvedor? Como você orientaria esses modelos?

Demis Hassabis: Essa é uma questão muito interessante. A falta de aprendizado contínuo é uma grande limitação atual dos agentes. Os agentes atuais são úteis em partes específicas de uma tarefa, podem ser combinados para fazer coisas legais, mas não se adaptam bem ao ambiente em que estão. Essa é a razão de ainda não serem “autônomos” de verdade: eles precisam aprender o seu cenário específico. Para alcançar inteligência geral, esse problema precisa ser resolvido.

Gary Tan: E quanto ao raciocínio? Como estão as coisas? Os sistemas atuais têm cadeias de raciocínio fortes, mas ainda cometem erros que um estudante inteligente não cometeria. O que precisa mudar? Quais avanços você espera?

Demis Hassabis: Ainda há muito espaço para inovação na forma de pensar. O que fazemos hoje é bastante rudimentar, bastante bruto. Há muitas melhorias possíveis, como monitorar o processo de cadeia de raciocínio, fazer intervenções durante o raciocínio. Acho que, de alguma forma, nossos sistemas e os concorrentes tendem a pensar demais, entrando em ciclos de raciocínio infinito.

Gosto de usar o Gemini para jogar xadrez como exemplo. Todos os modelos de base avançados são ruins em xadrez, o que é interessante.

Observar suas trajetórias de raciocínio é valioso, porque xadrez é um domínio bem compreendido. Consigo rapidamente perceber se o sistema está se desviando ou se o raciocínio é válido. Às vezes, ele pensa uma jogada ruim, percebe que é ruim, mas não consegue encontrar uma alternativa melhor, então faz a jogada ruim mesmo assim. Um sistema de raciocínio preciso não deveria cometer esse tipo de erro.

Essa lacuna enorme ainda existe, mas consertá-la pode exigir apenas um ou dois ajustes. Por isso, você vê o que chamam de “inteligência dentada” (jagged intelligence): um sistema que consegue resolver problemas de nível medalha de ouro na IMO, mas ao reformular a pergunta, comete erros de matemática básica. Ainda parece faltar algo na introspecção do seu próprio processo de pensamento.

Capacidade real do agente

Gary Tan: Agent é um tema amplo. Alguns dizem que é só hype. Eu acho que estamos apenas começando. Como a DeepMind avalia a capacidade real dos agentes, em comparação com a propaganda?

Demis Hassabis: Concordo, estamos no começo. Para alcançar a AGI, você precisa de um sistema que possa resolver problemas de forma proativa. Isso sempre foi claro para nós. Agent é o caminho, e acho que estamos apenas começando.

Estamos explorando como fazer o Agent colaborar melhor, tanto em pesquisa quanto na prática. Muitos aqui também estão. Como integrar o Agent ao fluxo de trabalho, fazer com que ele não seja só um complemento, mas uma parte fundamental? Ainda estamos na fase experimental. Talvez só nos últimos dois ou três meses tenhamos encontrado cenários realmente valiosos. A tecnologia está no ponto de não ser mais um brinquedo, mas uma ferramenta que realmente melhora sua eficiência e tempo.

Vejo muitas pessoas iniciando dezenas de agentes, rodando por horas, mas ainda não tenho certeza se o resultado justifica o esforço.

Ainda não vimos alguém usando vibe coding para criar um jogo AAA que domine as paradas. Eu mesmo já criei alguns demos, muitos aqui também. Consigo fazer um protótipo de “Theme Park” em meia hora, enquanto aos 17 anos levei seis meses para fazer o mesmo.

Tenho a sensação de que, se dedicar um verão inteiro, dá para criar algo realmente incrível. Mas ainda assim, é preciso talento, criatividade, alma. Você precisa incorporar esses elementos em qualquer produto que construa. Ainda não há um jogo de sucesso que venda milhões de cópias feito por um jovem com as ferramentas atuais, mas, com o esforço certo, isso deveria ser possível. Falta alguma coisa, talvez nos processos ou nas ferramentas. Acho que nos próximos 6 a 12 meses veremos resultados nesse sentido.

Gary Tan: Em que grau tudo isso será automatizado? Acho que não será do dia para a noite. O caminho mais provável é que, primeiro, as pessoas atinjam mil vezes mais eficiência, e só depois usem essas ferramentas para criar aplicativos e jogos de sucesso, e aí sim, mais etapas serão automatizadas.

Demis Hassabis: Exatamente, esse é o caminho que você deve enxergar primeiro.

Gary Tan: Também há quem já esteja fazendo isso, mas reluta em admitir o quanto os agentes ajudaram.

Demis Hassabis: Pode ser. Mas quero falar sobre criatividade. Sempre cito o AlphaGo, especialmente a jogada 37 da segunda partida. Para mim, esse momento foi um divisor de águas, e foi por isso que comecei projetos como o AlphaFold. Assim que saiu a jogada 37, começamos a trabalhar no AlphaFold, há dez anos. Estive na Coreia do Sul celebrando o décimo aniversário do AlphaGo.

Mas sair do movimento 37 não é suficiente. É impressionante, útil, mas será que esse sistema consegue inventar o próprio jogo de Go? Se você der uma descrição de alto nível, como “um jogo que um menino pode aprender em cinco minutos, mas que leva uma vida para dominar, com estética elegante, e que termina em uma tarde”, o sistema consegue retornar com o Go? Hoje, não.

Gary Tan: Talvez alguém na sala consiga.

Demis Hassabis: Se alguém conseguir, a resposta não é que o sistema está incompleto, mas que estamos usando o sistema de forma errada. Talvez essa seja a resposta certa. Talvez o sistema já tenha essa capacidade, só precise de um criador genial para impulsioná-lo, dando alma ao projeto, e esse criador precisa estar altamente integrado às ferramentas. Se você passar o dia e a noite usando essas ferramentas com criatividade profunda, talvez consiga criar algo além da imaginação.

Código aberto e modelos multimodais

Gary Tan: Mudando de assunto, sobre open source. O lançamento do Gemma permite que modelos muito poderosos rodem localmente. Como você vê isso? IA vai se tornar algo que o usuário controla, e não só na nuvem? Isso mudará quem pode construir produtos com esses modelos?

Demis Hassabis: Somos apoiadores firmes de código aberto e ciência aberta. AlphaFold foi totalmente aberto e gratuito. Nosso trabalho científico continua sendo publicado em periódicos de ponta. Quanto ao Gemma, queremos criar modelos líderes de mercado na mesma escala. Já tivemos cerca de 40 milhões de downloads em duas semanas e meia após o lançamento.

Acho importante que exista uma forte presença de tecnologia ocidental no open source. Os modelos chineses são excelentes e lideram na área, mas acreditamos que o Gemma é altamente competitivo na mesma escala.

Para nós, há uma questão de recursos: ninguém tem capacidade de computação sobrando para treinar dois modelos de ponta ao mesmo tempo. Então, nossa decisão atual é: modelos de borda para Android, óculos, robôs, etc., devem ser abertos, pois uma vez implantados no dispositivo, eles ficam expostos. Melhor abrir tudo de uma vez. Temos uma estratégia de abertura unificada em nível nanométrico, que faz sentido estratégico.

Gary Tan: Antes de te mostrar, fiz uma demonstração do meu sistema operacional de IA, onde interajo com o Gemini por voz. Ainda estou nervoso, mas funcionou. O Gemini foi construído desde o início como multimodal. Usei muitos modelos, e a interação por voz com capacidade de chamar ferramentas, além da compreensão de contexto, não tem comparação com qualquer outro modelo.

Demis Hassabis: Exato. Uma vantagem do Gemini que ainda não foi totalmente reconhecida é que desde o começo foi construído de forma multimodal. Isso torna o início mais difícil do que só fazer texto, mas acreditamos que, a longo prazo, trará benefícios. Já estamos vendo isso se concretizar.

Por exemplo, no campo de modelos de mundo, construímos o Genie (modelo de ambiente de interação generativa da DeepMind) sobre o Gemini. No robótica, o Gemini Robotics será baseado em modelos multimodais, e nossa vantagem nessa área se tornará uma barreira de entrada. Também usamos cada vez mais o Gemini no Waymo (empresa de direção autônoma do Alphabet).

Imagine um assistente digital que te acompanha no mundo real, talvez no seu celular ou óculos, que entende o ambiente ao seu redor. Nosso sistema é muito forte nisso. Continuaremos investindo nessa direção, e nossa liderança nesse campo é grande.

Gary Tan: O custo do raciocínio está caindo rapidamente. Quando o raciocínio se tornar quase gratuito, o que será possível? Sua equipe vai mudar seu foco de otimização?

Demis Hassabis: Não tenho certeza se o raciocínio será realmente gratuito, pois há a paradoxa de Jevons (quando eficiência aumenta, o consumo total também aumenta). Acho que, no final, todo mundo vai usar toda a capacidade computacional disponível.

Podemos imaginar milhões de agentes colaborando, ou um pequeno grupo de agentes pensando em várias direções ao mesmo tempo e integrando os resultados. Estamos experimentando essas abordagens, e tudo isso consumirá recursos de raciocínio.

Na área de energia, se resolvermos problemas como fusão nuclear controlada, supercondutividade em temperatura ambiente, ou baterias de alta eficiência, acredito que, por meio de avanços em materiais, poderemos chegar a custos de energia quase zero. Mas, na fabricação de chips, ainda há gargalos físicos. Nos próximos anos, o limite de capacidade de processamento continuará existindo, então o uso eficiente será essencial.

Próxima Descoberta Científica

Gary Tan: Felizmente, modelos menores estão ficando mais inteligentes. Muitos fundadores de biotecnologia e ciências da vida estão na sala. O AlphaFold 3 já superou proteínas e agora se estende a moléculas biológicas mais amplas. Quanto falta para modelar sistemas celulares completos? É uma questão de nível de dificuldade totalmente diferente?

Demis Hassabis: Isomorphic Labs está avançando muito bem. AlphaFold é apenas uma etapa no processo de descoberta de medicamentos. Estamos trabalhando em pesquisa bioquímica relacionada, como projetar compostos com propriedades corretas, e em breve teremos anúncios importantes.

Nosso objetivo final é criar uma célula virtual completa, um simulador de célula funcional, onde você possa aplicar perturbações, e que gere resultados próximos aos experimentais, com aplicações práticas. Você poderá pular etapas de busca, gerar dados sintéticos em grande quantidade para treinar outros modelos, e prever o comportamento de células reais.

Acredito que levará cerca de dez anos para criar uma célula virtual completa. Começamos pelo núcleo celular, que é relativamente autossuficiente. O segredo é encontrar uma fatia de complexidade adequada, que seja auto-contida, e que possamos aproximar com precisão suas entradas e saídas, focando nesse subsistema. O núcleo celular é um bom ponto de partida.

Outro problema é a escassez de dados. Conversei com top cientistas de microscopia eletrônica e outras técnicas de imagem. Se pudéssemos fazer imagens de células vivas sem matá-las, isso seria revolucionário, pois transformaria o problema em uma questão de visão, que já sabemos resolver.

Porém, até agora, não há tecnologia capaz de fazer imagens de células vivas em resolução nanométrica sem destruí-las. Conseguimos imagens estáticas de alta resolução, o que é empolgante, mas ainda não é suficiente para um modelo visual completo.

Existem duas abordagens: uma é hardware e coleta de dados, a outra é construir simuladores mais avançados para modelar esses sistemas dinâmicos.

Gary Tan: Você não só pensa em biologia. Materiais, descoberta de medicamentos, clima, matemática — se tivesse que fazer uma classificação, qual área será mais transformada nos próximos cinco anos?

Demis Hassabis: Cada área é empolgante, e é por isso que minha paixão por ciência e IA é tão grande. Sempre acreditei que IA será a ferramenta definitiva para avançar na ciência, na medicina, na compreensão do universo.

Nossa missão, inicialmente, foi em duas etapas: primeiro, resolver a inteligência, criar a AGI; segundo, usar essa inteligência para resolver todas as outras questões. Depois, ajustamos a formulação, porque alguém perguntou se realmente pretendíamos resolver tudo.

E a resposta é sim. Essa é a nossa intenção. Agora, as pessoas começam a entender o que isso significa. Especificamente, quero dizer que queremos resolver o que chamo de “problemas de raiz” na ciência, aqueles que, uma vez resolvidos, desbloqueiam novas áreas de descoberta. O AlphaFold é um protótipo do que queremos fazer.

Mais de três milhões de pesquisadores no mundo usam o AlphaFold. Ouvi de executivos de farmacêuticas que, no futuro, quase todos os medicamentos passarão por etapas de descoberta usando AlphaFold. Nos orgulhamos disso, é o impacto que esperamos da IA. Mas isso é só o começo.

Não consigo imaginar uma área científica ou de engenharia que a IA não possa ajudar. Os campos que você mencionou estão na fase “AlphaFold 1”, com resultados promissores, mas ainda sem o grande desafio. Nos próximos dois anos, veremos avanços em materiais, matemática, e além.

Gary Tan: Parece uma espécie de Prometeu, dando uma nova capacidade à humanidade.

Demis Hassabis: Exatamente. Mas, como na história de Prometeu, devemos ser cautelosos com o uso dessa capacidade, onde ela será aplicada, e com o risco de uso indevido das mesmas ferramentas.

Experiências de sucesso

Gary Tan: Muitos aqui tentam fundar empresas que aplicam IA à ciência. Na sua opinião, qual a diferença entre startups de ponta e aquelas que só colocam uma camada de API em modelos básicos, se autodenominando “IA para Ciência”?

Demis Hassabis: Estou pensando no que faria se estivesse na sua posição, assistindo a um programa do Y Combinator. Uma coisa é prever a direção da IA, o que já é difícil. Mas acredito que há uma grande oportunidade em cruzar IA com outro campo de deep tech. Essa interseção, seja em materiais, medicina ou outras ciências difíceis, especialmente envolvendo o mundo atômico, não terá atalhos nos próximos anos. Essas áreas não serão dominadas por uma atualização de modelo de base. Se você quer uma direção defensiva, essa é uma que eu recomendaria.

Sempre gostei de deep tech. Coisas duradouras e valiosas não vêm facilmente. Desde 2010, quando começamos, IA era deep tech — investidores diziam “isso não vai dar certo”, a academia achava que era uma moda fracassada dos anos 90.

Mas, se você acredita na sua ideia — por que ela será diferente agora? Qual sua combinação única de background? Idealmente, você é especialista em aprendizado de máquina e aplicações, ou consegue montar uma equipe fundadora assim. Nesse caso, há um impacto e valor enormes a serem criados.

Gary Tan: Essa informação é valiosa. Uma coisa que funciona parece óbvia, mas antes de acontecer, todo mundo duvida.

Demis Hassabis: Claro, por isso é importante fazer o que você realmente ama. Para mim, sempre foi IA. Desde pequeno, decidi que era a coisa mais impactante que poderia fazer. E isso se confirmou, embora talvez tenha sido prematuro — talvez 50 anos antes do tempo.

E também é o que acho mais divertido. Mesmo que hoje estejamos em um pequeno escritório, com IA ainda por ser criada, continuarei tentando. Talvez volte para a academia, mas encontrarei uma forma de seguir em frente.

Gary Tan: AlphaFold é um exemplo de uma aposta certa. O que faz um campo científico ser propício a uma revolução como a do AlphaFold? Existe algum padrão, como uma função objetivo específica?

Demis Hassabis: Preciso escrever isso algum dia. Uma lição que aprendi com AlphaGo, AlphaFold e outros projetos Alpha é que eles funcionam melhor quando:

Primeiro, o problema tem um espaço de busca combinatória enorme, quanto maior, melhor — a ponto de nenhuma busca exaustiva ou algoritmo especial resolver. O espaço de movimentos do Go e a conformação de proteínas ultrapassam o número de átomos do universo. Segundo, é importante definir claramente a função objetivo, como minimizar energia livre de proteínas ou ganhar no Go, para que o sistema possa fazer otimização por gradiente. Ter um grande conjunto de dados ou um simulador que gere dados sintéticos também ajuda.

Se esses três fatores estiverem presentes, as técnicas atuais podem avançar bastante, encontrando a “agulha no palheiro”. Na descoberta de medicamentos, é a mesma lógica: encontrar uma molécula que cure uma doença sem efeitos colaterais, dentro das leis físicas. AlphaFold mostrou que esses sistemas podem explorar vastos espaços de busca para encontrar essa agulha.

Gary Tan: Quero elevar o nível. Usamos esses métodos para criar AlphaFold, mas há um nível meta: usar IA para explorar hipóteses possíveis. Quanto falta para que sistemas de IA possam fazer raciocínio científico de verdade, e não só reconhecimento de padrões?

Demis Hassabis: Acho que estamos bem próximos. Estamos desenvolvendo sistemas gerais. Temos um chamado AI co-scientist, e algoritmos como AlphaEvolve, que vão além do Gemini. Todos os laboratórios de ponta estão explorando essa direção.

Porém, até agora, não vi uma descoberta científica realmente importante feita por esses sistemas. Acho que está chegando a hora. Pode estar relacionado à criatividade, a uma quebra de limites conhecidos. Nesse nível, não é mais só reconhecimento de padrão, mas uma espécie de raciocínio por analogia, que esses sistemas ainda não possuem, ou que ainda não usamos de forma adequada.

Uma métrica que uso na ciência é: o sistema consegue propor uma hipótese realmente interessante, e não só testar uma hipótese existente? Porque validar uma hipótese já é uma grande conquista — como provar a hipótese de Riemann ou resolver um problema de Millennium. Mas talvez estejamos a poucos anos de fazer isso.

Mais difícil ainda é propor um novo conjunto de problemas de Millennium, considerados profundos por matemáticos de ponta, que valham uma vida de pesquisa. Acho que isso é um nível acima, e ainda não sabemos como fazer. Mas não vejo isso como magia. Acredito que esses sistemas podem chegar lá, talvez só precisem de uma ou duas melhorias.

Um método de avaliação que proponho é o “Teste Einstein”: treinar um sistema com o conhecimento de 1901 e ver se ele consegue deduzir, de forma independente, as descobertas de Einstein em 1905, incluindo a relatividade restrita. Acho que devemos realmente fazer esse teste, repetir várias vezes, até conseguir. Quando isso acontecer, esses sistemas estarão próximos de inventar algo totalmente novo.

Dicas para empreendedores


Gary Tan: Última pergunta. Muitos aqui têm background técnico profundo e querem criar algo do tamanho de vocês. Vocês são uma das maiores organizações de pesquisa em IA do mundo. Como alguém que já esteve na linha de frente da pesquisa de AGI, há algo que vocês sabem agora e que gostariam de ter sabido aos 25 anos?

Demis Hassabis: Já discutimos isso parcialmente. Buscar problemas difíceis e problemas simples é, na prática, bastante semelhante, só que a dificuldade se manifesta de formas diferentes. A vida é curta, o esforço é limitado, então é melhor focar naquelas coisas que, se você não fizer, ninguém fará.

Além disso, nos próximos anos, a combinação de diferentes áreas será mais comum. IA vai facilitar a integração entre elas.

Por fim, tudo depende do seu cronograma para a AGI. O meu é por volta de 2030. Se você começar um projeto de deep tech hoje, provavelmente levará uma década. Então, deve planejar a chegada da AGI no meio do caminho. O que isso significa? Não necessariamente algo ruim, mas você precisa pensar nisso. Seu projeto pode usar a AGI? Como ela interagirá com seu projeto?

Voltando ao exemplo do AlphaFold e de sistemas de IA geral, posso imaginar que sistemas como Gemini, Claude ou similares usarão sistemas especializados como AlphaFold como ferramentas, integrando-os ao seu fluxo de trabalho. Não acho que faremos tudo em um único sistema gigante.

Link do vídeo original

Clique para conhecer as vagas na BlockBeats

Participe do grupo oficial da BlockBeats no Telegram:

Telegram assinatura: https://t.me/theblockbeats

Telegram grupo: https://t.me/BlockBeats_App

Twitter oficial: https://twitter.com/BlockBeatsAsia

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar