Google lança o algoritmo TurboQuant, que comprime o uso de memória de grandes modelos de linguagem pelo menos 6 vezes, ao mesmo tempo em que aumenta a velocidade de inferência até 8 vezes sem comprometer a precisão do modelo. O mercado interpretou rapidamente essa tecnologia como uma “ruptura na procura”, com uma lógica bastante direta: se a necessidade de memória durante a inferência de IA for comprimida por várias vezes, a curva de crescimento da procura por DRAM, HBM e NAND nos data centers pode sofrer uma redução estrutural no futuro.
Após o anúncio, as ações relacionadas a memória e armazenamento caíram em sincronia, incluindo SanDisk (SNDK) com queda de 3,5%, Micron Technology (MU) com queda de 3,4%, Western Digital (WDC) com queda de 1,63%; na cadeia de fornecimento asiática, Samsung Electronics caiu 4,71%, e SK Hynix caiu 6,23%. Algumas opiniões sugerem que o TurboQuant provavelmente mudará mais a “eficiência no uso de recursos” do que simplesmente reduzir a procura.
Algoritmo mais recente do Google: uso de memória seis vezes menor, velocidade de inferência até oito vezes maior
Segundo a equipe de pesquisa do Google, o TurboQuant é um algoritmo de quantização (quantization) projetado para grandes modelos de linguagem e sistemas de busca vetorial, cujo núcleo é a compressão significativa do “cache de chaves-valores” e estruturas de vetores de alta dimensão, que consomem mais recursos nos modelos de IA. Nos testes, essa tecnologia consegue reduzir o uso de memória pelo menos 6 vezes, ao mesmo tempo em que aumenta a velocidade de inferência até 8 vezes sem perder a precisão do modelo.
(Como a Vera Rubin da NVIDIA mudou? Análise da era de guerra pela memória: SK Hynix, Samsung, Micron, SanDisk)
Essa inovação atinge diretamente o gargalo crítico na infraestrutura atual de IA. A expansão de IA generativa na camada de computação depende fortemente de memórias de alta banda, como HBM, para suportar pesos do modelo e grandes caches KV, evitando travamentos de memória durante a inferência. No entanto, o TurboQuant combina métodos como PolarQuant e Quantized Johnson-Lindenstrauss (QJL), realizando compressão quase sem “custo adicional de memória”, permitindo realizar operações mais eficientes com menos recursos de hardware.
O algoritmo do Google impacta a memória! Fabricantes de memória dos EUA e Coreia do Sul caem juntos
O mercado rapidamente interpretou essa tecnologia como uma “ruptura na procura”. Após o anúncio, as ações relacionadas a memória e armazenamento caíram em sincronia, incluindo SanDisk (SNDK) com queda de 3,5%, Micron Technology (MU) com queda de 3,4%, Western Digital (WDC) com queda de 1,63%; na cadeia de fornecimento asiática, Samsung Electronics caiu 4,71%, e SK Hynix caiu 6,23%.
A lógica por trás é bastante direta: se a necessidade de memória durante a inferência de IA for comprimida por várias vezes, a curva de crescimento da procura por DRAM, HBM e NAND nos data centers pode sofrer uma redução estrutural. Especialmente no contexto em que a indústria de IA está gradualmente mudando de “foco no treinamento” para “foco na inferência”, o impacto marginal de tecnologias de eficiência será ampliado.
Por outro lado, há opiniões de que o TurboQuant provavelmente mudará mais a “eficiência no uso de recursos” do que simplesmente reduzir a procura. Com a redução de custos e diminuição de latência, os cenários de aplicação de IA podem se expandir ainda mais, impulsionando a demanda total de computação, formando uma estrutura de “queda na demanda por unidade, aumento na demanda total”. As grandes fabricantes de memória já estão com toda a capacidade vendida neste ano, e talvez o mercado esteja se perguntando: qual é o limite de crescimento da IA?
Este artigo sobre a nova tecnologia do Google assustou o mercado: a demanda por memória de IA é 6 vezes menor! SK Hynix, Micron caem juntos. Publicado originalmente na Chain News ABMedia.