Google lança algoritmo de compressão TurboQuant, alegando economizar aproximadamente 6 vezes na memória

robot
Geração de resumo em curso

O Google lançou um algoritmo de compressão chamado TurboQuant, que pode reduzir a necessidade de memória em sistemas de inteligência artificial. A tecnologia de compressão TurboQuant visa diminuir o uso de memória de grandes modelos de linguagem e motores de busca vetoriais. O algoritmo foca principalmente no gargalo do cache de chaves e valores (key-value cache), usado para armazenar informações acessadas com frequência em sistemas de IA. À medida que a janela de contexto aumenta, esses caches tornam-se a principal limitação de memória. O TurboQuant consegue comprimir o cache de chaves e valores para uma precisão de 3 bits, sem necessidade de re-treinamento ou ajuste fino do modelo, mantendo praticamente a precisão do sistema. Testes com modelos de código aberto como o Gemma mostraram que essa tecnologia pode alcançar uma compressão de aproximadamente 6 vezes na memória do cache de chaves e valores. (Financial Associated Press)

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar