Google lança algoritmo de compressão TurboQuant, alegando economizar aproximadamente 6 vezes na memória

MarsBitNews · 2026-03-26T04:11:54+00:00

A Google lançou um algoritmo de compressão chamado TurboQuant, que visa reduzir os requisitos de memória dos sistemas de inteligência artificial, particularmente dos grandes modelos de linguagem. O algoritmo aborda o problema do gargalo da cache de pares chave-valor e pode comprimir a cache para precisão de 3 bits sem retreinar o modelo, mantendo a precisão do modelo inalterada. Os testes mostram que a tecnologia pode alcançar um efeito de compressão de memória de aproximadamente 6 vezes.

MarsBitNews

2026-03-26 04:11:54

Geração de resumo em curso

O Google lançou um algoritmo de compressão chamado TurboQuant, que pode reduzir a necessidade de memória em sistemas de inteligência artificial. A tecnologia de compressão TurboQuant visa diminuir o uso de memória de grandes modelos de linguagem e motores de busca vetoriais. O algoritmo foca principalmente no gargalo do cache de chaves e valores (key-value cache), usado para armazenar informações acessadas com frequência em sistemas de IA. À medida que a janela de contexto aumenta, esses caches tornam-se a principal limitação de memória. O TurboQuant consegue comprimir o cache de chaves e valores para uma precisão de 3 bits, sem necessidade de re-treinamento ou ajuste fino do modelo, mantendo praticamente a precisão do sistema. Testes com modelos de código aberto como o Gemma mostraram que essa tecnologia pode alcançar uma compressão de aproximadamente 6 vezes na memória do cache de chaves e valores. (Financial Associated Press)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.