¡Deja de acumular poder de cómputo tontamente! La investigación muestra que los modelos grandes se vuelven más 'rígidos' cuanto más se entrenan, y aumentar los parámetros no ayuda.

robot
Generación de resúmenes en curso
ME AI Mensaje, según el monitoreo de Beating, a medida que el tiempo de entrenamiento de la IA se alarga, pierde gradualmente la capacidad de absorber nuevos conocimientos (pérdida de plasticidad), volviéndose cada vez más rígida con el entrenamiento. Si no se puede superar la pérdida de plasticidad, los grandes modelos nunca podrán aprender continuamente a bajo costo, y cada actualización de conocimientos requerirá volver a entrenar con todos los datos históricos y nuevos juntos, consumiendo enormes recursos computacionales. La última investigación de la startup de IA Zyphra demuestra por primera vez que, aunque aumentar el tamaño del modelo retrasa la degradación, los beneficios marginales disminuyen, y simplemente apilar parámetros no puede curar la pérdida de plasticidad. Las extrapolaciones muestran que un modelo de 1B de parámetros se vuelve «tonto» después de entrenar con 1.8 billones de tokens, mientras que un modelo de 7B muestra el problema después de 9 billones. Más revolucionario aún, incluso sin cambios de tareas, solo entrenando el modelo en un conjunto de datos mixto estable, la pérdida de plasticidad sigue ocurriendo. La investigación señala tres causas directas de que los grandes modelos se vuelvan «tontos»: el volumen de parámetros aumenta constantemente con el entrenamiento, lo que bajo el mecanismo de normalización de capas (LayerNorm) dificulta la transmisión de gradientes; las neuronas en la capa MLP entran en un estado masivo de «huelga» (algunos modelos incluso tienen el 95% de las neuronas en reposo); y las cabezas de atención se paralizan (solo fijándose en caracteres individuales y colapsando) o se vuelven perezosas (aplicando una atención uniforme a todo el contexto). Para estos síntomas patológicos, los posibles tratamientos incluyen limitar la expansión de parámetros, realizar periódicamente un «reinicio neuronal» para forzar la activación de las neuronas en huelga, e introducir ruido aleatorio en el mecanismo de atención para forzar la corrección. (Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios