OpenClaw hizo que la empresa de modelos probara por primera vez la dulzura de la economía de tokens.


El 17 de junio, GLM-5.2 fue de código abierto. Esta vez, diferente.
Licencia MIT: modificar, vender libremente, la única obligación es mantener la declaración de derechos de autor.
Riesgo de propiedad intelectual cero, las empresas pueden integrar modelos en sus productos comerciales con confianza, y no necesitan devolver las modificaciones.
En comparación con licencias como GPL, que "obligan a abrir el código si lo usas", la MIT elimina las barreras.
Lo más importante es que — todos los modelos, desde ahora, entran en la era de inferencia prolongada.
¿En qué cambia realmente GLM-5.2?
En la era de OpenClaw, los agentes trabajaban en "carreras cortas" — cada tarea tenía una ventana limitada, planificación-ejecución-terminación, tamaño de caché KV controlado, la presión de hardware principalmente en la potencia de cálculo.
La inferencia a largo plazo de GLM-5.2 es una "maratón" — contexto sin pérdida de 1M, el modelo puede mantener en una sola tarea todo el código, todo el historial de decisiones, todas las restricciones.
En pruebas reales, procesó 880,000 tokens en una sola vez, casi llenando la ventana.
¿Y qué significa este cambio?
Antes, la IA era "pregunta y respuesta", el consumo de tokens terminaba con cada consulta.
Después de GLM-5.2, los agentes comienzan a realizar tareas verdaderamente prolongadas: descomponer objetivos → planificación en múltiples rondas → verificación repetida → ajustar herramientas → escribir código y ejecutarlo → replanificar según retroalimentación.
Una tarea puede activar cientos de ciclos de inferencia.
Cada ciclo requiere cargar el contexto completo en memoria y recalcular.
Cálculo continuo, comunicación continua, lectura y escritura continuas.
Estos tres "continuos" cambian por completo la lógica de precios del hardware.
¿A quién beneficia la inferencia prolongada de los agentes?
🥇 HBM
El caché KV crece linealmente con las rondas de diálogo y la longitud del contexto, agotando rápidamente la capacidad de HBM de la GPU.
Una vez que el caché KV sale de la GPU, el ancho de banda baja de TB/s a cientos de GB/s — el problema pasa de "potencia de cálculo" a "ancho de banda de memoria".
Las tres principales fabricantes tienen capacidad agotada, con una brecha del 50%-60%, y para 2026, el mercado alcanzará los 54.6 mil millones de dólares.
🥈 Chips ópticos/InP
La inferencia prolongada corre en clústeres, cada ciclo requiere sincronización entre tarjetas.
Cuanto más larga la tarea y más ciclos, mayor la cantidad de comunicación.
El mercado de módulos ópticos en 2026 será de 26 mil millones de dólares, con un crecimiento anual del 60%.
La brecha en sustratos InP supera el 70%, y el precio del indio ha subido un 90% en comparación con el año pasado.
🥉 CPU
Las tareas prolongadas requieren descomposición continua, llamadas a herramientas, gestión de procesos y programación del caché KV.
Estas tareas no las puede hacer bien la GPU, dependen del CPU.
La proporción de CPU a GPU se acerca a 1:1, el CEO de Intel dijo públicamente que "varias empresas están llamando para urgir la entrega de CPUs".
❄️ Refrigeración líquida
La inferencia corta es una carga en ráfaga, la prolongada es una carga continua.
Con la misma tarjeta, el consumo real en tareas prolongadas es de 3 a 5 veces mayor que en inferencia corta.
El consumo en racks subió de 36 kW a 200 kW, el enfriamiento por aire no puede soportarlo, la refrigeración líquida pasa de ser una opción a una necesidad.
🔌 Switches
El ancho de banda requerido por los clústeres de inferencia pasa de 100G a 400G, decenas de miles de tarjetas necesitan ser coordinadas.
IB y Ethernet de alta velocidad se benefician en toda la línea.
📦 Placa base ABF
Los clústeres pasan de mil a diez mil tarjetas, cada chip necesita encapsulado.
Mitsubishi monopoliza más del 90% de las membranas ABF, y para 2028, la brecha será del 42%.
El aumento en el precio de la harina hará que el pan sea aún más caro.
🧪 CCL M9
Las placas base y backplanes de los clústeres de inferencia requieren sustratos de alta velocidad.
El precio del M9 es 10 veces el de un FR4 normal, para 2027, el mercado de CCL para IA alcanzará 18.7 mil millones de dólares, creciendo más rápido que los módulos ópticos.
OpenClaw encendió la chispa, GLM-5.2 proporciona la leña.
El primero permitió a las empresas de modelos ganar su primer token, el segundo lleva este mercado del laboratorio a la industria.
Operaciones simples todavía se basan en almacenamiento, en la luz, disfrutando de la burbuja de IA.
$MU $SKHYNIX $LITE
TOKEN2,03%
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado