Google lanza el algoritmo de compresión TurboQuant, afirma lograr aproximadamente 6 veces el ahorro de memoria

robot
Generación de resúmenes en curso

Google ha lanzado un algoritmo de compresión llamado TurboQuant, que podría reducir las necesidades de memoria en los sistemas de inteligencia artificial. La tecnología de compresión TurboQuant está diseñada para disminuir el uso de memoria en modelos de lenguaje grande y motores de búsqueda vectoriales. Este algoritmo se enfoca principalmente en resolver el cuello de botella en la caché de valores clave (key-value cache), que se usa para almacenar información de acceso frecuente en los sistemas de IA. A medida que la ventana de contexto se amplía, estas cachés se convierten en el principal cuello de botella de memoria. TurboQuant puede comprimir la caché de valores clave a una precisión de 3 bits sin necesidad de reentrenar o ajustar finamente el modelo, manteniendo prácticamente la precisión del modelo. Las pruebas con modelos de código abierto como Gemma muestran que esta tecnología puede lograr una compresión de aproximadamente 6 veces en la memoria de la caché de valores clave. (Cailian Press)

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado