Cuando la inferencia se convierte en un recurso escaso, ¿quién captura el valor?

Question

nuloAutor del texto original: Frank FuFuente del texto original: IOSG VenturesLa brecha propuesta por David Cahn en 2023 nunca fue llenada en el lado del entrenamiento. Se llenó en el lado de la inferencia, y el mercado solo comenzó a considerarla en la valoración en las últimas semanas. Cuando Nvidia reorganizó sus informes financieros en torno a los «tokens de servicio», y Cerebras salió a bolsa con una sobresuscripción de 20 veces, la disputa por el cuello de botella ya terminó, y la verdadera pregunta se convirtió en la siguiente: cuando la inferencia se vuelva un recurso escaso, ¿dónde se acumulará el valor en la pila de potencia de cálculo?Siguiendo a las GPU: del problema de 200 mil millones de dólares al de 600 mil millonesEn 2023, David Cahn de Sequoia planteó la cuestión que pende sobre toda la construcción de IA, es decir, el «problema de 200 mil millones de dólares». Por cada dólar gastado en GPU, se necesita gastar aproximadamente otro dólar en centros de datos para alimentarlas, por lo que cada año, el CapEx en GPU implica que estas chips deben generar alrededor de 200 mil millones de dólares en ingresos para recuperar esa inversión. Incluso asumiendo ingresos muy generosos en IA, encontró que hay un agujero de más de 125 mil millones de dólares entre la «inversión» y el «pago real del cliente final». La preocupación es clara: las GPU están siendo construidas en exceso, anticipándose a la demanda real.Un año después, la brecha no solo no se redujo, sino que se amplió. En la continuación de 2024, con la expansión del CapEx de los grandes fabricantes, Cahn redefinió el problema como el «problema de 600 mil millones de dólares». La lógica pesimista se condensa en una forma familiar: la sobreconstrucción conduce a un exceso de oferta, y ese exceso quema capital.Ambos artículos en realidad preguntan lo mismo: ¿quién llenará esa brecha? La respuesta nunca apareció en los libros de contabilidad del lado del «entrenamiento». Se encuentra en el lado de la inferencia, y solo en las últimas semanas el mercado ha comenzado a considerarla en la valoración.IPO de Cerebras y la presión en la inferenciaCerebras salió a bolsa el jueves. La IPO fue sobresuscrita 20 veces, con un precio cercano al doble del aumento final del miércoles. La demanda no proviene de una apuesta por «el próximo Nvidia asesino», sino de algo más simple: el mercado empieza a darse cuenta de que el verdadero cuello de botella en IA es la inferencia, no el entrenamiento.La especialidad de Cerebras es una arquitectura de chips que hace que la inferencia sea extremadamente rápida. No es entrenamiento, es inferencia. Y eso es lo que emociona a Wall Street. El mercado de inferencia es recurrente, se expande con el uso. Cada vez que Claude responde una pregunta, cada vez que un agente ejecuta una tarea, se consume potencia de cálculo. El entrenamiento solo ocurre una vez, la inferencia nunca se detiene.J.P. Morgan estima que el mercado de inferencia es de 10 a 50 veces mayor que el de entrenamiento. Cuando las máquinas comienzan a ejecutar tareas encomendadas por otras máquinas, es decir, en un modo agentic, la demanda de inferencia deja de crecer con el número de usuarios y pasa a crecer con la potencia de cálculo en sí misma.Nvidia redibuja el mapa: la inferencia se convierte en titularSi Cerebras representa el despertar del mercado, los últimos resultados financieros de Nvidia son una confirmación desde la cima de la cadena de suministro. En la llamada de resultados más reciente, Jensen Huang dejó claro lo que todos saben: la demanda de IA está creciendo en forma parabólica. La razón es simple: la IA agentic ya llegó. La IA mainstream ha pasado de la inferencia puntual a la lógica inferencial, y ahora entra en una fase en la que puede llamar a herramientas y orquestar tareas por sí misma. Huang dice: «Los tokens ahora son rentables». En la era de IA, la potencia de cálculo es ingreso y beneficio.Esto redefine toda la industria. El entrenamiento es un costo único para construir un modelo, la inferencia es un costo operativo recurrente, y ahora el cuello de botella está en la inferencia, no en el entrenamiento.Nvidia ha incorporado esta evaluación en su informe financiero. Ahora lo reporta en dos plataformas, en lugar de una: Data Center (centro de datos) y Edge Computing (computación en el borde). El centro de datos (aproximadamente 75 mil millones de dólares en ese trimestre, +92% interanual) se divide en Hyperscale (unos 38 mil millones, +12%) y ACIE, que incluye IA en la nube, industrial y empresarial (unos 37 mil millones, +31%). Una línea completamente nueva es Edge Computing: 6.4 mil millones de dólares, +29% interanual, cubriendo IA agentic y dispositivos físicos donde la IA opera en el mundo real, como PCs, estaciones de trabajo, estaciones base AI-RAN, robots y autos.Actualmente, el borde representa menos del 8% del ingreso total, pero Nvidia ya lo ha elevado a una «segunda plataforma» junto a los centros de datos. La señal es clara: la inferencia se está dividiendo en dos frentes, la inferencia en la nube en los centros de datos y la inferencia en el extremo en los dispositivos, para que la IA vea, se mueva y actúe en el mundo físico. La hoja de ruta sigue la misma lógica: desde el tercer trimestre, se comenzarán a distribuir productos como Vera Rubin, con un rendimiento de inferencia hasta 35 veces superior a Blackwell; Huang también presentó un nuevo TAM de 2000 millones de dólares para la CPU Vera, diseñada para cargas agentic. Se espera que todas las principales empresas de modelos adopten esta tecnología desde el primer día.Cuando las empresas más valiosas del mundo reorganizaron sus informes en torno a los «tokens de servicio», la disputa por el cuello de botella quedó resuelta. El resto del texto discute quién captura el valor cuando la inferencia (y no el entrenamiento) se vuelve un recurso escaso.Primero, una aclaración de alcance. En estas dos frentes, el artículo trata sobre la inferencia en la nube, es decir, los servicios API de GPU en centros de datos alquilados. La inferencia en el extremo se realiza en chips locales en los dispositivos (Nvidia Jetson, RTX, Drive, AI-RAN), sin pasar por la pila de alquiler y agregación de GPU. Aquí, considérelo como un amplificador de toda la economía de inferencia y una evidencia del cuello de botella, no como el mercado de Hyperbolic y Venice, que operan completamente en la línea de la nube.La presión ya empezóAnthropic es la canaria en la mina de carbón. La demanda supera con creces la capacidad preconfigurada, y las quejas por «corte de cerebro» de Claude están en todas partes, incluyendo respuestas limitadas, inferencia más lenta y ventanas de contexto comprimidas. La solución es pura potencia de cálculo: en mayo de 2026, Anthropic tomó el control del centro de datos Colossus 1 de SpaceX, con más de 220 mil GPU de Nvidia y 300+ MW, dedicado a la inferencia, no al entrenamiento.Esa capacidad desbloqueó una serie de cambios en los límites, cada uno de los cuales es una señal. El 6 de mayo, Anthropic duplicó el límite de cinco horas para Claude Code, eliminó las restricciones en horas punta y aumentó significativamente la tasa API de Opus. El 13 de mayo, aumentó en un 50% el límite semanal de Claude Code (hasta el 13 de julio). Luego, desde el 15 de junio, hizo lo contrario: sacó el uso agentic y programático (Agent SDK, modo headless claude -p, pipelines CI) de la suscripción plana y los colocó en un pool de créditos independiente (de 20 a 200 dólares mensuales, facturados por API). La última medida condensó toda la lógica en una sola acción: la velocidad de consumo de inferencia por parte del agente supera con creces la capacidad de la suscripción plana, por lo que debe ser valorada como un costo operativo recurrente.El entrenamiento es un gasto de capital único. La inferencia es un costo operativo recurrente que se acumula exponencialmente con cada nuevo usuario y cada nuevo agente.Esta pila: seis capas, un cuello de botellaCada aplicación de IA se encuentra en una cadena de suministro que comienza en la fábrica de chips de TSMC y termina en el extremo de la API:La mayoría de las empresas solo poseen una capa. Nvidia posee el silicio, CoreWeave tiene hardware bare-metal, Together AI tiene optimización de inferencia, OpenRouter tiene enrutamiento de modelos API.Solo hay una excepción.Hyperbolic: la única empresa que cruza las tres capasHyperbolic lanzó en junio de 2025 su mercado de GPU bajo demanda. En los primeros meses, superó los 200 mil desarrolladores, cubriendo laboratorios de IA de vanguardia, búsquedas y plataformas de consumo masivo.Lo interesante es su arquitectura.Hyperbolic no posee ni una sola GPU. Cada tarjeta proviene de neocloud y centros de datos, incluyendo CoreWeave, Lambda Labs, Nebius, y operadores más pequeños con capacidad ociosa. Esto puede parecer una debilidad, pero en realidad es una ventaja competitiva.Al situarse entre los proveedores y los consumidores de GPU, Hyperbolic puede ver datos en tiempo real que otros no ven. Sabe quién compra qué GPU, a qué precio y en qué momento. Lo detecta antes de que la oferta excesiva se vuelva pública y antes de que la demanda impulse el mercado.Hoy en día, esa ventaja es la misma que la agregación multi-nube. Hyperbolic combina la capacidad fragmentada de decenas de nubes y centros de datos en un pool estandarizado y unificado, permitiendo a los desarrolladores alquilar la GPU más barata en cualquier lugar, sin negociar con cada operador ni gestionar múltiples cuentas. Cuantas más nubes tenga, mayor liquidez y datos de precios tendrá. En el futuro, el equipo planea usar estos datos para modelar curvas de precios de GPU y, eventualmente, invertir en capital propio para suavizar la oferta y la demanda, actuando como un creador de mercado de potencia física; pero ese objetivo aún está en etapas tempranas, y lo que realmente está en marcha ahora es la capa de agregación.Eso es el ciclo virtuoso:Conectar más nubes → mayor oferta agregadaMás oferta → mercado más profundo y datos de precios en tiempo realMejor datos → rutas de distribución más inteligentes ahora, y modelos de precios a largo plazoMejor liquidez y precios → más desarrolladores → más nubes interesadas en integrarseNinguna otra empresa intenta esto. Hyperbolic es la única que cruza simultáneamente las capas de alquiler de GPU, despliegue y API de modelos.Venice, ese espejoVenice representa la manifestación más clara de la economía de inferencia en la capa de aplicación, y también un contraste útil con la posición de Hyperbolic. Es una aplicación de inferencia centrada en la privacidad: una API compatible con OpenAI, con suscripciones para consumidores (Free / Pro / Pro+ / Max), que enruta las solicitudes a unos 75 modelos, de los cuales aproximadamente dos tercios son modelos de código abierto o autohospedados (Llama, Mistral, Qwen, DeepSeek), y el resto son modelos de vanguardia cerrados transmitidos de forma anónima. La clave es que Venice no posee capacidad de cálculo significativa. Alquila GPU de socios no revelados y proveedores de computación confidencial (NEAR AI Cloud, Phala), y paga a laboratorios de vanguardia por la transmisión, por lo que su costo real de ingresos es la potencia de inferencia, no la gestión SaaS.Lo que Venice vende realmente es privacidad. La «privacidad» aquí no significa convertir potencia pública en privada, sino envolver la inferencia comercializada en una capa de garantías: no almacenar datos, no usarlos para entrenamiento, solicitudes anónimas, algunas cargas en TEE para que los operadores no puedan ver el texto en claro. La capacidad de cálculo subyacente es commodity, y lo que se cobra extra es esa capa de privacidad. Además, esa garantía es estratificada y heterogénea: para modelos de código abierto que corren en hardware controlado o en TEE, se puede lograr casi una computación confidencial de extremo a extremo; pero para modelos cerrados como Claude o GPT, la transmisión anónima solo elimina la identidad, y los laboratorios de vanguardia aún procesan la prompt original. La privacidad más fuerte cubre solo la parte de código abierto, mientras que la parte de modelos cerrados es «anónima» y no «confidencial real». La ganancia bruta de Venice = precio de suscripción − costo de inferencia pagado a los proveedores, y esa diferencia que puede cobrar por encima del precio API casi toda se sostiene en esa prima de privacidad, que también explica su bajo margen y su dependencia de los precios de transmisión de modelos de vanguardia.El diseño de tokens en Venice enmascara esa demanda de inferencia. Opera con dos tokens: VVV (garantía de staking y acceso a la plataforma) y DIEM, que es un crédito de inferencia, donde cada DIEM equivale a aproximadamente una potencia de cálculo de 1 dólar diario. La suscripción paga activa la recompra y quema programada de VVV (Pro / Pro+ / Max aproximadamente 2 / 5 / 10 dólares), y su emisión decrece en un calendario fijo: de 6 millones al mes a 5 millones, luego a 4 millones, y en julio 1, se reduce a 3 millones. La recompra es real, pero discrecional y modesta: en abril y mayo se quemaron unos 103 mil dólares, en junio lentamente se acerca a los 110 mil, muy por debajo de los 200 mil dólares mensuales.El aspecto fundamental es más saludable que el titular. La cifra de «7 millones de dólares en ARR» que circula públicamente casi seguramente es un error, y se confunde la renovación de suscripciones con la adquisición neta de clientes. La estimación más razonable de ARR está más cerca de 6 a 15 millones de dólares. Por debajo de eso, la tracción es real: unos 136 mil direcciones de billetera, aproximadamente 9.9 millones de visitas mensuales al sitio web (unos 330 mil diarios), y unas 1,4 mil nuevas suscripciones Pro diarias. Es un negocio real, pero de bajos márgenes, cuya economía depende del poder de cálculo que compra.Y esa es la razón por la que Hyperbolic está en una capa superior. Si Venice es una estación de servicio, Hyperbolic es una refinería. Venice compra potencia en una oferta limitada y compartida; Hyperbolic agrega esa oferta fragmentada, la estandariza y la vende a Venice y a todos los demás actores similares. A medida que crece la demanda de inferencia, el valor no solo se acumula en las aplicaciones que consumen potencia, sino también en la capa de agregación y enrutamiento, y en la captura del costo de ingresos que esas aplicaciones pagan.Por qué esto importa ahoraNvidia ha reorganizado sus finanzas en torno a los «tokens de servicio». La IPO de Cerebras demuestra que el mercado ha entendido que la inferencia es el cuello de botella. Anthropic está buscando capacidad en todas partes, confirmando que es un problema real. La demanda agentic y física de IA multiplicará esa demanda por varios órdenes de magnitud, cruzando las líneas de la nube y del extremo.Y también cierra el círculo del «problema de 600 mil millones de dólares». La lógica pesimista de Cahn, de sobreconstrucción y exceso, probablemente será confirmada. Pero el exceso es precisamente la mejor condición para los agregadores de activos ligeros: cuando los precios de GPU bajan, la oferta fragmentada se dispersa en decenas de nubes, y quien no posee hardware, sino que enruta cada carga de trabajo a la GPU más barata, obtiene la diferencia de precio, mientras que los operadores con GPU en depreciación asumen pérdidas. Hyperbolic apuesta a la sobreoferta, no a la escasez.La empresa que triunfe al final no será la que tenga más GPU, sino la que pueda decirte qué GPU hay, dónde y a qué precio, y enrutar cada carga de trabajo a donde pueda operar al menor costo.Hyperbolic está construyendo esa empresa. Sin poseer GPU, solo con software, en una capa profunda de tres, pero convirtiéndose en la capa definitiva de agregación de potencia para inferencia.

Cuando la inferencia se convierte en un recurso escaso, ¿quién captura el valor?

Temas de actualidad

GateIPOAccessSpaceX

StrategyAdds1550BTCatLowerPrices

IsraelStrikesIranBTCPlunges

StrongNonfarmPayrollsRekindleRateHikeFear

PredictNBAChampionWin20000U

Fijado