Título original do vídeo: Demis Hassabis: Agentes, AGI & A Próxima Grande Descoberta Científica
Fonte original do vídeo: Y Combinator
Tradução original: Deep潮 TechFlow
CEO da DeepMind do Google, vencedor do Nobel de Química Demis Hassabis, foi convidado pelo Y Combinator para falar sobre os avanços-chave rumo à AGI, dar conselhos aos empreendedores sobre como manter a liderança, e onde pode surgir a próxima grande descoberta científica.
A avaliação mais prática para empreendedores de deep tech é que, se você iniciar hoje um projeto de deep tech com duração de dez anos, deve incluir na sua estratégia a chegada da AGI. Além disso, ele revelou que a Isomorphic Labs (empresa de farmacêutica de IA derivada da DeepMind) está prestes a fazer um anúncio importante.
·「As componentes tecnológicas existentes quase certamente farão parte da arquitetura final da AGI.」
·「Aprendizado contínuo, raciocínio de longo prazo, alguns aspectos da memória ainda não estão resolvidos; a AGI precisa dominar tudo isso.」
·「Se sua linha do tempo para a AGI é por volta de 2030, como a minha, e você começou um projeto de deep tech hoje, deve considerar que a AGI pode surgir no meio do caminho.」
·「A janela de contexto é aproximadamente equivalente à memória de trabalho. A memória de trabalho humana tem em média sete dígitos, enquanto nós temos janelas de contexto de milhões ou até dezenas de milhões de tokens. Mas o problema é que enchemos tudo lá dentro, incluindo informações irrelevantes ou erradas, o que é uma abordagem bastante grosseira atualmente.」
·「Se quisermos processar fluxos de vídeo em tempo real e armazenar todos os tokens, um milhão de tokens é suficiente para cerca de 20 minutos.」
·「Gosto de usar o Gemini para jogar xadrez. Às vezes ele percebe que uma jogada foi ruim, mas não consegue encontrar uma alternativa melhor, então dá uma volta e faz a jogada ruim mesmo assim. Um sistema de raciocínio preciso não deveria cometer esse tipo de erro.」
·「Ele consegue resolver questões de nível medalha de ouro na IMO, mas ao reformular a pergunta, comete erros de matemática básica de escola primária. Parece que ainda falta algo na introspecção do seu próprio processo de pensamento.」
·「Para alcançar a AGI, você precisa de um sistema que possa resolver problemas de forma proativa. Agent é o caminho, e acho que estamos apenas começando.」
·「Ainda não vi ninguém usando vibe coding para criar um jogo AAA que domine as paradas de aplicativos. Com o esforço atual, isso deve ser possível, mas ainda não aconteceu. Isso indica que falta alguma coisa nas ferramentas ou nos processos.」
·「Nossa hipótese é que, após o lançamento de um modelo Pro de ponta, sua capacidade pode ser comprimida em um modelo muito menor, capaz de rodar em dispositivos de borda, em cerca de seis meses a um ano. Ainda não atingimos o limite teórico de densidade de informação.」
·「Às vezes chamo de ‘Teste Einstein’ a capacidade de treinar um sistema com conhecimentos de 1901 e fazê-lo deduzir de forma independente as descobertas de Einstein em 1905, incluindo a relatividade restrita. Se isso for possível, esses sistemas estão próximos de inventar algo totalmente novo.」
·「Resolver um problema do Millennium Prize já é uma conquista, mas mais difícil ainda é propor um novo conjunto de problemas do Millennium, considerados profundos e dignos de uma pesquisa de uma vida por matemáticos de ponta.」
·「Perseguir problemas difíceis e problemas simples é, na prática, bastante semelhante, apenas com dificuldades diferentes. A vida é curta, então é melhor investir energia naquelas coisas que, se você não fizer, ninguém fará.」
Gary Tan: Você pensa sobre a AGI há quase mais tempo que todos. Com o paradigma atual, quanto da arquitetura final da AGI você acha que já temos? O que está fundamentalmente faltando agora?
Demis Hassabis: Grande escala de pré-treinamento, RLHF, cadeia de raciocínio, tenho certeza de que farão parte da arquitetura final da AGI. Essas tecnologias já provaram muita coisa até hoje. Não consigo imaginar que, em dois anos, descobriremos que esse caminho é errado; para mim, isso não faz sentido. Mas, além do que já temos, talvez falte uma ou duas coisas. Aprendizado contínuo, raciocínio de longo prazo, alguns aspectos da memória ainda não estão resolvidos.
A AGI precisa ser dominada completamente. Talvez com as tecnologias atuais e algumas inovações graduais, seja possível expandir até lá, mas também pode faltar uma ou duas chaves essenciais. Não acho que sejam mais de uma ou duas. Minha avaliação é que a probabilidade de existirem esses pontos críticos ainda não resolvidos é de uns 50/50. Então, na DeepMind, estamos avançando em duas frentes.
Gary Tan: Tenho lidado com muitos sistemas de agentes, e o que mais me impressiona é que, na base, eles usam o mesmo peso repetidamente. Então, o conceito de aprendizado contínuo é muito interessante, porque atualmente estamos basicamente colando as coisas com fita, como os ciclos de sonho noturno, por exemplo.
Demis Hassabis: Exato, esses ciclos de sonho são bem legais. Já pensamos nisso na integração da memória situacional. Meu doutorado foi sobre como o hipocampo integra novas informações de forma elegante ao sistema de conhecimento existente. O cérebro faz isso muito bem.
Ele realiza esse processo durante o sono, especialmente no sono REM, onde revisita experiências importantes para aprender com elas. Nosso primeiro programa de Atari, o DQN (DeepMind, 2013, a primeira rede Q profunda usando reforço para alcançar nível humano em jogos de Atari), conseguiu dominar os jogos usando uma técnica chamada experiência de replay.
Essa técnica, aprendida da neurociência, consiste em repetir o caminho de sucesso várias vezes. Era 2013, uma época antiga na IA, mas foi fundamental na época.
Concordo com você: estamos basicamente colando as coisas com fita. Colocamos tudo na janela de contexto. Isso não parece ideal. Mesmo que façamos isso com máquinas, não com cérebros biológicos, teoricamente poderíamos ter janelas de contexto de milhões ou dezenas de milhões de tokens, com memória perfeita, mas o custo de busca e recuperação ainda existe. Em momentos de decisão, encontrar informações realmente relevantes não é simples, mesmo que tudo esteja armazenado. Então, vejo um grande espaço para inovação na área de memória.
Gary Tan: Honestamente, uma janela de contexto de um milhão de tokens já é maior do que eu esperava, e dá para fazer muita coisa.
Demis Hassabis: Para a maioria dos cenários, sim, é suficiente. Mas pense: a janela de contexto é aproximadamente equivalente à memória de trabalho. A memória de trabalho humana tem, em média, sete dígitos, enquanto nossa janela de contexto pode chegar a milhões ou dezenas de milhões de tokens. O problema é que enchemos tudo lá dentro, incluindo informações irrelevantes ou erradas, o que é uma abordagem bastante grosseira. E, se quisermos processar fluxos de vídeo em tempo real, simplesmente armazenar todos os tokens, um milhão de tokens, por exemplo, só daria para cerca de 20 minutos. Mas, se quisermos que o sistema entenda sua vida de um ou dois meses, ainda está longe o suficiente.
Gary Tan: DeepMind sempre investiu pesado em reforço e busca, essa filosofia está profundamente embutida na construção do Gemini? O reforço ainda é subestimado?
Demis Hassabis: Talvez sim, tem altos e baixos. Desde o primeiro dia, na DeepMind, trabalhamos com sistemas de agentes. Todo o trabalho em Atari e AlphaGo, na essência, é de agentes de reforço, capazes de alcançar objetivos, tomar decisões e planejar por conta própria. Começamos com jogos, porque a complexidade era controlável, e depois evoluímos para jogos mais complexos, como AlphaGo, AlphaStar, e assim por diante.
A questão agora é: podemos generalizar esses modelos para criar modelos de mundo ou de linguagem, além de apenas jogos? Nos últimos anos, temos trabalhado nisso. Os modelos de ponta atuais, suas cadeias de raciocínio, são essencialmente uma retomada do que o AlphaGo começou.
Acredito que muito do que fizemos na época está altamente relacionado ao que fazemos hoje. Estamos revisitando essas ideias antigas, usando maior escala, de forma mais geral, incluindo métodos como busca em árvores Monte Carlo. As ideias do AlphaGo e AlphaZero estão muito relacionadas aos modelos de base atuais, e acho que grande parte do progresso nos próximos anos virá daí.
Gary Tan: Agora, para sermos mais inteligentes, precisamos de modelos maiores, mas a destilação também evolui, e modelos menores podem ser bastante rápidos. Seus modelos Flash são muito bons, atingem cerca de 95% do desempenho dos modelos de ponta, mas custam só uma décima do preço. É isso mesmo?
Demis Hassabis: Acho que essa é uma das nossas principais vantagens. Primeiro, você precisa criar o maior modelo possível para alcançar capacidades de ponta. Uma das nossas maiores forças é que conseguimos rapidamente destilar e comprimir essas capacidades em modelos cada vez menores. A destilação foi uma invenção nossa, e ainda somos líderes mundiais nisso. Além disso, temos forte motivação de negócios para fazer isso. Somos provavelmente a maior plataforma de aplicações de IA do mundo.
Com o AI Overviews, AI Mode, e Gemini, todos os produtos do Google, incluindo Maps, YouTube, etc., estão integrando o Gemini ou tecnologias relacionadas. Isso envolve bilhões de usuários e dezenas de produtos com bilhões de usuários. Eles precisam ser extremamente rápidos, eficientes, de baixo custo e com latência mínima. Isso nos motiva a otimizar ao máximo os modelos Flash e Flash-Lite, para que sejam altamente eficientes, e espero que isso também beneficie os usuários em suas tarefas diversas.
Gary Tan: Tenho curiosidade até que ponto esses modelos menores podem ser realmente inteligentes. A destilação tem limites? Modelos de 50B ou 400B podem ser tão inteligentes quanto os maiores modelos atuais?
Demis Hassabis: Não acho que tenhamos atingido o limite teórico de informação, pelo menos ninguém sabe se isso existe. Talvez um dia encontremos um teto de densidade de informação, mas atualmente nossa hipótese é que, após o lançamento de um modelo Pro de ponta, sua capacidade pode ser comprimida em um modelo muito menor, capaz de rodar em dispositivos de borda, em cerca de seis meses a um ano.
Você também pode ver isso no modelo Gemma: o Gemma 4, por exemplo, apresenta desempenho muito forte na mesma escala. Isso tudo envolve muita destilação e otimizações de eficiência de modelos pequenos. Então, realmente, não vejo limites teóricos claros, e acho que estamos longe de alcançá-los.
Gary Tan: Uma coisa absurda é que a quantidade de trabalho que engenheiros podem fazer hoje é de 500 a 1000 vezes maior do que há seis meses. Aqui na sala, alguns estão fazendo o equivalente a um engenheiro do Google dos anos 2000, mil vezes mais trabalho. Steve Yegge já comentou isso.
Demis Hassabis: Acho isso empolgante. Modelos menores têm muitas aplicações. Um deles é o custo baixo e a velocidade alta, que trazem benefícios. Em tarefas como codificação, você consegue iterar mais rápido, especialmente ao colaborar com sistemas. Sistemas rápidos, mesmo que não sejam de ponta, com 90-95% do desempenho, já são suficientes, e a velocidade de iteração compensa muito mais do que aquele 5-10% de diferença.
Outro grande benefício é rodar esses modelos em dispositivos de borda, não só por eficiência, mas por privacidade e segurança. Pense em dispositivos que lidam com informações altamente pessoais, ou robôs domésticos. Você gostaria que seu robô de casa rodasse um modelo eficiente localmente, deixando tarefas específicas para a nuvem apenas quando necessário. Processar áudio e vídeo localmente, manter os dados na própria máquina, pode ser o estado final ideal.
Gary Tan: Voltando à memória e ao contexto. Os modelos atualmente são sem estado. Se eles adquirirem capacidade de aprendizado contínuo, como será a experiência do desenvolvedor? Como você orientaria esses modelos?
Demis Hassabis: Essa é uma questão muito interessante. A falta de aprendizado contínuo é uma grande limitação atual dos agentes. Os agentes atuais são úteis em partes específicas de uma tarefa, podem ser combinados para fazer coisas legais, mas não se adaptam bem ao ambiente específico em que estão. Essa é a razão de ainda não serem verdadeiramente “autônomos” após o lançamento; eles precisam aprender o cenário em que estão. Para alcançar inteligência geral, esse problema deve ser resolvido.
Gary Tan: E quanto ao raciocínio? Onde estamos? Os modelos atuais têm cadeias de raciocínio fortes, mas ainda cometem erros que um estudante inteligente não cometeria. O que precisa ser mudado? Quais avanços você espera na área de raciocínio?
Demis Hassabis: Ainda há muito espaço para inovação na forma de pensar. O que fazemos hoje é bastante grosseiro, bastante bruto. Há muitas melhorias possíveis, como monitorar o processo de cadeia de raciocínio, fazer intervenções durante o raciocínio. Acho que, de alguma forma, nossos sistemas e os concorrentes tendem a pensar demais, entrando em ciclos viciosos.
Gosto de usar o Gemini para jogar xadrez como exemplo. Todos os modelos de base avançados, na área de xadrez, são bastante fracos, o que é interessante.
Observar suas trajetórias de raciocínio é valioso, porque xadrez é um domínio bem compreendido. Posso rapidamente perceber se o sistema está se desviando ou se o raciocínio é válido. O que vemos é que, às vezes, ele considera uma jogada ruim, percebe que é uma jogada ruim, mas não consegue encontrar uma alternativa melhor, então dá uma volta e faz a jogada ruim mesmo assim. Um sistema de raciocínio preciso não deveria cometer esse tipo de erro.
Essa grande lacuna ainda existe, mas consertá-la pode exigir apenas um ou dois ajustes. É por isso que se fala em “inteligência em degraus” (jagged intelligence): por um lado, consegue resolver questões de nível medalha de ouro na IMO, por outro, ao reformular a pergunta, comete erros de matemática básica. Parece que ainda falta algo na introspecção do próprio raciocínio.
Gary Tan: Agentes é um tema amplo. Algumas pessoas dizem que é só hype. Eu acho que estamos apenas começando. Na sua visão, qual é a avaliação real da capacidade dos agentes na DeepMind? Quanto da propaganda é exagerada?
Demis Hassabis: Concordo, estamos apenas no começo. Para alcançar a AGI, você precisa de um sistema que possa resolver problemas de forma proativa. Essa sempre foi nossa visão. Agente é o caminho, e acho que estamos apenas começando.
Estamos explorando como fazer agentes mais integrados ao fluxo de trabalho. Fizemos muitas experiências pessoais, e muitos aqui provavelmente também. Como fazer o agente colaborar melhor, não ser só um complemento, mas algo que realmente realize tarefas fundamentais. Ainda estamos na fase experimental. Talvez nos últimos dois ou três meses tenhamos começado a encontrar cenários realmente valiosos. A tecnologia já atingiu um ponto em que não é mais só demonstração de brinquedo, mas algo que realmente traz valor ao seu tempo e eficiência.
Vejo muitas pessoas iniciando dezenas de agentes e deixando-os rodar por horas, mas ainda não tenho certeza se o resultado justifica o esforço.
Ainda não vimos alguém usando vibe coding para criar um jogo AAA que domine as paradas de aplicativos. Eu mesmo já criei alguns demos, e muitos aqui também. Consigo fazer um protótipo de “Theme Park” em meia hora, enquanto aos 17 anos levei seis meses para fazer o mesmo.
Tenho a sensação de que, se alguém dedicar um verão inteiro, pode criar algo realmente incrível. Mas ainda assim, é preciso talento, criatividade, e uma certa alma no produto. Você precisa garantir que esses elementos estejam presentes em qualquer coisa que construa. Ainda não há um jogo de sucesso que venda mais de dez milhões de cópias feito por um jovem com as ferramentas atuais, mas, com o esforço certo, isso deveria ser possível. Falta alguma coisa, talvez nos processos ou nas ferramentas. Espero ver resultados assim nos próximos 6 a 12 meses.
Gary Tan: Em que grau tudo isso será totalmente automatizado? Acho que não será de cara, será um processo gradual. Primeiro, as pessoas vão alcançar uma eficiência mil vezes maior, e depois usarão essas ferramentas para criar aplicativos e jogos de sucesso. Só então mais etapas serão automatizadas.
Demis Hassabis: Exatamente, esse é o caminho natural.
Gary Tan: Também há quem já esteja fazendo isso, mas relutam em admitir o quanto os agentes ajudaram.
Demis Hassabis: Pode ser. Mas quero falar sobre criatividade. Sempre uso o exemplo do AlphaGo, especialmente a jogada 37 da segunda partida. Para mim, esse momento foi um divisor de águas, e foi por isso que comecei projetos como o AlphaFold. Assim que saiu aquela jogada, começamos a trabalhar no AlphaFold no dia seguinte, há dez anos. Fui a Coreia do Sul para comemorar o décimo aniversário do AlphaGo.
Mas sair do movimento 37 não é suficiente. É muito legal, muito útil, mas o sistema consegue inventar o próprio jogo de Go? Se você der uma descrição de alto nível, como “um jogo que se aprende em cinco minutos, mas que leva uma vida para dominar, com estética elegante, e que pode ser jogado em uma tarde”, o sistema consegue retornar com o Go? Hoje, não.
Gary Tan: Talvez alguém na sala consiga.
Demis Hassabis: Se alguém conseguir, a resposta não é que o sistema está faltando alguma coisa, mas que a nossa forma de usar o sistema está errada. Talvez essa seja a resposta certa. Talvez os sistemas atuais já tenham essa capacidade, só precisam de um criador genial para impulsioná-los, dar alma ao projeto, e estar altamente integrado às ferramentas. Se você passar o dia e a noite usando essas ferramentas, com criatividade profunda, talvez consiga criar algo além da imaginação.
Gary Tan: Mudando de assunto, sobre open source. Recentemente, o lançamento do Gemma permitiu que modelos muito poderosos rodem localmente. Como você vê isso? A IA vai se tornar algo que o usuário controla, ao invés de ficar só na nuvem? Isso mudará quem pode construir produtos com esses modelos?
Demis Hassabis: Somos apoiadores firmes de open source e ciência aberta. O AlphaFold foi totalmente aberto e gratuito. Nosso trabalho científico continua sendo publicado em periódicos de ponta. Quanto ao Gemma, queremos criar modelos líderes de mercado na mesma escala. Já tivemos cerca de 40 milhões de downloads em duas semanas e meia desde o lançamento.
Acho importante que exista uma forte presença de tecnologias ocidentais no open source. Os modelos chineses são excelentes e lideram nesse campo, mas acreditamos que o Gemma é altamente competitivo na mesma escala.
Temos um problema de recursos: ninguém tem capacidade de computação sobrando para treinar dois modelos de ponta ao mesmo tempo. Então, nossa estratégia atual é: modelos de borda para Android, óculos, robôs, etc., preferencialmente abertos, pois uma vez implantados nos dispositivos, eles ficam expostos. Melhor abrir tudo de uma vez. Temos uma política de abertura unificada em nível nanométrico, o que faz sentido estrategicamente.
Gary Tan: Antes de te mostrar, fiz uma demonstração do meu sistema de IA, onde interajo com o Gemini por voz. Ainda estou nervoso, mas funcionou. O Gemini foi construído desde o início como multimodal. Já usei muitos modelos, mas a interação por voz com ferramentas, com compreensão de contexto, é incomparável.
Demis Hassabis: Exato. Uma vantagem do Gemini que ainda não foi totalmente reconhecida é que desde o começo ele foi construído de forma multimodal. Isso torna o início mais difícil do que só fazer texto, mas acreditamos que, a longo prazo, trará grandes benefícios, e já estamos começando a colher esses frutos.
Por exemplo, no campo de modelos de mundo, construímos o Genie (modelo de ambiente de interação generativa da DeepMind) sobre o Gemini. No setor de robótica, o Gemini Robotics será baseado em modelos multimodais, e nossa vantagem nessa área se tornará uma barreira de entrada. Também estamos usando cada vez mais o Gemini na Waymo (empresa de direção autônoma do Alphabet).
Imagine um assistente digital que te acompanha no mundo real, talvez no seu celular ou óculos, que entende o ambiente físico ao seu redor. Nosso sistema é muito forte nisso. Continuaremos investindo nessa direção, e acredito que nossa liderança nessas questões será grande.
Gary Tan: O custo do raciocínio está caindo rapidamente. Quando o raciocínio se tornar quase gratuito, o que será possível? Sua equipe vai mudar seu foco de otimização por causa disso?
Demis Hassabis: Não tenho certeza se o raciocínio será realmente gratuito, há o paradoxo de Jevons (quando eficiência aumenta, o consumo total também aumenta). Acho que, no final, todo mundo usará toda a capacidade computacional disponível.
Podemos imaginar milhões de agentes colaborando, ou um pequeno grupo de agentes pensando em várias direções ao mesmo tempo e integrando os resultados. Estamos experimentando essas abordagens, e tudo isso consumirá recursos de raciocínio.
Na questão de energia, se conseguirmos resolver problemas como fusão nuclear controlada, supercondutividade em temperatura ambiente, ou baterias de alta eficiência, acredito que, por meio de avanços em materiais, poderemos chegar a custos de energia quase zero. Mas, na fabricação de chips, ainda há gargalos físicos, pelo menos nas próximas décadas. Portanto, o limite de capacidade de raciocínio continuará existindo, e precisaremos usar esses recursos de forma eficiente.
Gary Tan: Felizmente, os modelos menores estão ficando mais inteligentes. Muitos fundadores de biotecnologia e ciências da vida na sala. O AlphaFold 3 já superou proteínas e se expandiu para moléculas biológicas mais amplas. Quanto falta para modelar sistemas celulares completos? É uma questão de nível de dificuldade totalmente diferente?
Demis Hassabis: O progresso da Isomorphic Labs tem sido excelente. O AlphaFold é apenas uma etapa no fluxo de descoberta de medicamentos. Estamos trabalhando em pesquisa bioquímica relacionada, como projetar compostos com propriedades corretas, e em breve teremos anúncios importantes.
Nosso objetivo final é criar uma célula virtual completa, um simulador de célula funcional, onde você possa aplicar perturbações, com resultados próximos de experimentos reais e com aplicações práticas. Você poderá pular etapas de busca, gerar dados sintéticos em grande quantidade para treinar outros modelos, e fazer previsões sobre o comportamento de células reais.
Acredito que levará cerca de dez anos para criar uma célula virtual completa. Estamos começando pelo núcleo celular, que é relativamente autossuficiente. O segredo é encontrar uma fatia de complexidade adequada, que seja auto-contida, e que possamos aproximar de forma razoável sua entrada e saída, focando nesse subsistema. O núcleo celular é um bom ponto de partida.
Outro desafio é a escassez de dados. Conversei com top cientistas de microscopia eletrônica e outras técnicas de imagem. Se pudermos fazer imagens de células vivas sem matá-las, isso seria revolucionário, pois transformaria o problema em uma questão de visão, que já sabemos como resolver.
Porém, até onde sei, ainda não há tecnologia capaz de fazer imagens de células vivas em resolução nanométrica sem destruí-las. Conseguimos imagens estáticas de alta resolução, o que já é muito avançado, mas não suficiente para um sistema visual completo.
Existem duas abordagens: uma, de hardware e dados, e outra, de construir simuladores mais avançados para modelar esses sistemas dinâmicos.
Gary Tan: Você não só pensa em biologia. Materiais, descoberta de medicamentos, clima, matemática: se tivesse que fazer uma classificação, quais áreas serão mais transformadas nos próximos cinco anos?
Demis Hassabis: Cada área é empolgante, e é por isso que minha maior paixão é a ciência. Sempre acreditei que a IA será a ferramenta definitiva para avançar na compreensão científica, descobertas médicas e na nossa compreensão do universo.
Nossa missão, inicialmente, era de duas etapas: primeiro, resolver a inteligência, criar a AGI; segundo, usar essa AGI para resolver todas as outras questões. Depois, ajustamos a formulação, pois alguém perguntou se realmente pretendíamos resolver tudo.
E a resposta é sim. Essa é a nossa intenção. Agora, as pessoas começam a entender o que isso significa. Especificamente, quero dizer que queremos resolver o que chamo de “problemas de raiz” na ciência, aqueles que, uma vez resolvidos, desbloqueiam novas áreas de descoberta. O AlphaFold é um protótipo do que queremos fazer.
Mais de três milhões de pesquisadores no mundo usam o AlphaFold. Ouvi de executivos de farmacêuticas que, no futuro, quase todos os medicamentos passarão por etapas de descoberta usando o AlphaFold. Nos orgulhamos disso, é o impacto que esperamos da IA. Mas acho que isso é só o começo.
Não vejo nenhuma área científica ou de engenharia que a IA não possa ajudar. Os campos que você mencionou estão na fase “AlphaFold 1”, com resultados promissores, mas ainda sem o grande desafio. Nos próximos dois anos, veremos avanços em materiais, matemática, e além.
Gary Tan: Parece uma missão prométheica, dando à humanidade uma capacidade totalmente nova.
Demis Hassabis: Exatamente. Como na história de Prometeu, devemos ser cautelosos com o uso dessa capacidade, onde ela será aplicada, e com o risco de uso indevido da mesma ferramenta por outros.
Gary Tan: Muitos aqui tentam fundar empresas que aplicam IA à ciência. Na sua opinião, qual a diferença entre startups de ponta e aquelas que só colocam uma camada de API sobre modelos básicos, se autodenominando “IA para Ciência”?
Demis Hassabis: Estou pensando no que faria se estivesse na sua posição, assistindo a um programa do Y Combinator. Uma coisa é prever a direção da IA, o que já é difícil. Mas acredito que há uma grande oportunidade em cruzar IA com outro campo de deep tech. Essa interseção, seja de materiais, medicina ou outras ciências difíceis, especialmente envolvendo o mundo atômico, não terá atalhos nos próximos anos. Esses campos não serão dominados por uma atualização de modelo básico. Se você quer uma direção defensiva, essa é a minha recomendação.
Sempre gostei de deep tech. Coisas duradouras e valiosas não são fáceis. Desde 2010, quando começamos, a IA era deep tech — investidores diziam “isso não vai dar certo”, e a academia também via como uma tentativa fracassada dos anos 90.
Mas, se você acredita na sua ideia — por que ela será diferente desta vez? Qual sua combinação única de background? Idealmente, você é especialista em aprendizado de máquina e aplicações, ou consegue montar uma equipe fundadora assim. Nesse caso, há um potencial enorme de impacto e valor a ser criado.
Gary Tan: Essa informação é valiosa. Uma coisa é o que parece óbvio depois de feito, mas antes ninguém acreditava.
Demis Hassabis: Claro, por isso você precisa fazer o que realmente te apaixona. Para mim, é IA, e desde pequeno decidi que essa seria minha contribuição mais impactante. Isso se confirmou, mas talvez seja cedo demais — talvez tenhamos chegado 50 anos antes do tempo.
E é também o que acho mais divertido. Mesmo que hoje estejamos em um pequeno escritório, com IA ainda por ser criada, continuarei tentando. Talvez volte para a academia, mas encontrarei uma forma de seguir em frente.
Gary Tan: AlphaFold é um exemplo de uma aposta certa, de uma direção que deu certo. O que faz um campo científico ser propício a uma inovação como a do AlphaFold? Existem padrões, como uma função objetivo específica?
Demis Hassabis: Preciso escrever isso algum dia. Uma lição que aprendi com AlphaGo, AlphaFold e outros projetos é que nossos métodos funcionam melhor quando:
Primeiro, o problema tem um espaço de busca combinatória enorme, quanto maior, melhor — a ponto de nenhuma busca exaustiva ou algoritmo especial resolver. Tanto o espaço de movimentos do xadrez quanto a conformação de proteínas ultrapassam o número de átomos do universo. Segundo, é importante definir claramente a função objetivo, como minimizar energia livre de proteínas ou ganhar uma partida de Go, para que o sistema possa fazer otimização por gradiente. Ter um simulador ou dados suficientes também ajuda, seja gerando amostras sintéticas ou coletando informações reais.
Se esses três fatores estiverem presentes, as técnicas atuais podem avançar bastante, encontrando a “agulha no palheiro”. Na descoberta de medicamentos, é a mesma lógica: há uma molécula que pode tratar uma doença sem efeitos colaterais, e o que falta é uma busca eficiente para encontrá-la, dentro das leis físicas. AlphaFold mostrou que esses sistemas podem explorar vastos espaços de busca para encontrar essa agulha.
Gary Tan: Quero elevar o nível da conversa. Usamos esses métodos para que a humanidade crie o AlphaFold, mas há também um meta nível: usamos IA para explorar hipóteses possíveis. Quanto falta para que sistemas de IA possam fazer ciência de verdade, raciocinar além de padrões de dados?
Demis Hassabis: Acho que estamos bem próximos. Estamos desenvolvendo sistemas generalistas. Temos um chamado AI co-scientist, e algoritmos como o AlphaEvolve, que vão além do Gemini. Todos os laboratórios de ponta estão explorando essa direção.
Porém, até agora, não vi uma descoberta científica realmente importante feita por esses sistemas. Acho que está chegando a hora. Pode estar relacionada à criatividade que discutimos, uma verdadeira quebra de limites conhecidos. Nesse nível, não será mais só reconhecimento de padrões, porque não há padrões a serem reconhecidos. Será uma espécie de raciocínio por analogia, que ainda não possuímos, ou que não usamos corretamente.
Uma métrica que uso na ciência é: o sistema consegue propor uma hipótese realmente interessante, e não só testar uma hipótese existente? Porque testar uma hipótese já é uma grande conquista — como provar a hipótese de Riemann ou resolver um problema do Millennium. Mas talvez estejamos a poucos anos de fazer isso.
Mais difícil ainda é propor um novo conjunto de problemas do Millennium, considerados profundos por matemáticos, que valham uma vida de pesquisa. Acho que isso é um nível acima, e ainda não sabemos como fazer. Mas não vejo isso como magia. Acredito que esses sistemas podem fazer, talvez só precisem de um ou dois ajustes finais.
Um método de avaliação que proponho é o “Teste Einstein”: treinar um sistema com conhecimentos de 1901 e ver se ele consegue deduzir, de forma independente, as descobertas de Einstein de 1905, incluindo a relatividade restrita. Acho que devemos realmente fazer esse teste, repetir várias vezes, até conseguir. Quando isso acontecer, esses sistemas estarão próximos de criar algo totalmente novo.
Gary Tan: Última questão. Muitos aqui têm background técnico profundo e querem criar algo do tamanho de vocês. Vocês são uma das maiores organizações de pesquisa em IA. Como alguém que esteve na linha de frente da pesquisa de AGI, há algo que vocês sabem agora e que gostariam de ter sabido aos 25 anos?
Demis Hassabis: Já discutimos parte disso. Você percebe que perseguir problemas difíceis e problemas simples é, na prática, bastante semelhante, só com dificuldades diferentes. A vida é curta, então é melhor focar naquelas coisas que, se você não fizer, ninguém fará. Use esse critério para escolher.
Outro ponto é que, nos próximos anos, a combinação de diferentes áreas será mais comum. IA facilitará a integração entre elas.
Por fim, tudo depende da sua linha do tempo para a AGI. A minha é por volta de 2030. Se você começar um projeto de deep tech hoje, é uma jornada de cerca de dez anos. Então, deve planejar a chegada da AGI no meio do caminho. O que isso significa? Não necessariamente algo ruim, mas você precisa pensar nisso. Seu projeto pode usar a AGI? Como ela interagirá com seu projeto?
Voltando ao exemplo do AlphaFold e de sistemas gerais de IA, uma possibilidade é que sistemas como Gemini, Claude ou similares usem sistemas especializados como o AlphaFold como ferramentas. Não acho que faremos tudo em um único sistema gigante.