Mensaje de Gate News, 29 de abril — La investigadora de IA Aran Komatsuzaki realizó un análisis comparativo de la eficiencia de tokenización en seis modelos principales de IA traduciendo el influyente artículo de Rich Sutton “The Bitter Lesson” a nueve idiomas y procesándolos mediante los tokenizadores de OpenAI, Gemini, Qwen, DeepSeek, Kimi y Claude. Usando el recuento de tokens de la versión en inglés en OpenAI como línea de base (1x), el estudio reveló disparidades significativas: procesar el mismo contenido en chino requería 1.65x tokens en Claude, en comparación con solo 1.15x en OpenAI. El hindi mostró un resultado aún más extremo en Claude, superando la línea de base en más de 3x. Anthropic ocupó el puesto más bajo entre los seis modelos probados.
Críticamente, cuando el texto chino idéntico se procesó en diferentes modelos—todos medidos frente a la misma línea de base en inglés—los resultados divergieron de forma drástica: Kimi consumió solo 0.81x tokens (incluso menos que el inglés), Qwen 0.85x, mientras que Claude requirió 1.65x. Esta brecha revela un problema puro de eficiencia de tokenización, no un problema inherente del idioma. Los modelos de chino demostraron una eficiencia superior al procesar chino, lo que sugiere que la disparidad se debe a la optimización del tokenizador más que al propio idioma.
Las implicaciones prácticas para los usuarios son sustanciales: el aumento del consumo de tokens incrementa directamente los costos de la API, alarga la latencia de respuesta del modelo y agota más rápidamente las ventanas de contexto. La eficiencia de tokenización depende de la composición lingüística de los datos de entrenamiento de un modelo—los modelos entrenados predominantemente en inglés comprimen el texto en inglés con más eficiencia, mientras que los idiomas con menor representación en los datos se tokenizan en fragmentos más pequeños y menos eficientes.
La conclusión de Komatsuzaki recalca un principio fundamental: el tamaño del mercado determina la eficiencia de tokenización. Los mercados más grandes reciben una mejor optimización, mientras que los idiomas con menor representación enfrentan costos de token significativamente más altos.
Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el
Aviso legal.
Artículos relacionados
Claw Intelligence se asocia con Block Sec Arena para reforzar la seguridad de BNB Chain
Según el anuncio oficial de Block Sec Arena del 30 de abril, Claw Intelligence, una plataforma Web3 impulsada por IA construida sobre BNB Chain, ha anunciado una asociación estratégica con Block Sec Arena para integrar infraestructura avanzada de ciberseguridad en su ecosistema. La colaboración tiene como objetivo fortalecer p
GateNewsHace15m
NTT anuncia la iniciativa AI x OWN y planea triplicar la capacidad de energía en Japón a 1 GW para 2033
El 27 de abril, el presidente de NTT, Akira Shimada, anunció la iniciativa AI x OWN, el esfuerzo de la empresa por rediseñar la infraestructura de internet para el uso de IA en tiempo real. NTT planea triplicar su capacidad de energía nacional, de aproximadamente 300 MW hoy a alrededor de 1 gigavatio para el año fiscal 2033, ya que el gigante de la telecomunicación
GateNewshace1h
La plataforma de IA Certifyde completa una ronda semilla de 2 millones de dólares el 1 de mayo, respaldada por el CEO de Ripple, Brad Garlinghouse
Según TechfundingNews, la plataforma de aplicaciones de IA Certifyde completó una ronda de financiación semilla de 2 millones de dólares el 1 de mayo. Los inversores incluyen K5 Global, Flamingo Capital y inversores ángel, incluidos el cofundador de Honey, George Ruan, el CEO de Ripple, Brad Garlinghouse, y el cofundador de Nutra, Roland
GateNewshace2h
Subsecretario de tecnología del Pentágono: Anthropic sigue en la lista negra, excepciones para Mythos
El 1 de mayo, el máximo responsable de tecnología del Departamento de Defensa de Estados Unidos (Pentagon technology chief) declaró ante el Congreso: «Anthropic sigue en la lista negra, pero Mythos Preview es otro tema», reconociendo oficialmente que el Departamento de Defensa trata de manera diferente la marca principal Anthropic y su nuevo modelo, Mythos. Esta postura coincide con lo revelado por Axios el 19 de abril, que indicó que la NSA (Agencia de Seguridad Nacional) ya ha utilizado Mythos en la práctica, y también consolida formalmente la orientación de política hacia un «canal de excepción para Mythos». Al mismo tiempo, implica una contradicción interna a nivel de argumentación legal: el Departamento de Defensa había sostenido en los tribunales que usar herramientas de Anthropic amenazaría la seguridad nacional, en contraste con las prácticas actuales.
Anthropic vs Pentagon
ChainNewsAbmediahace3h
137 Ventures cierra $700M en nuevos fondos; AUM alcanza 15.000 millones de USD
Según ChainCatcher, 137 Ventures, un inversor inicial en SpaceX, recientemente completó la recaudación de fondos para dos nuevos fondos con un total de más de 700 millones de dólares, elevando sus activos bajo gestión a más de 15 mil millones de dólares. El nuevo capital se destinará a inversiones en agentes de IA, robótica y propulsión espacial
GateNewshace3h
Reddit se dispara un 16% con una sólida perspectiva para el 2T; Apple enfrenta un déficit de Mac mientras la demanda de IA supera el suministro
Las acciones de Reddit subieron un 16% antes de la apertura del mercado el viernes después de que la empresa emitiera una guía de ingresos para el próximo trimestre superior a la esperada. Los visitantes activos diarios crecieron un 17% hasta 126,8 millones, mientras que los ingresos medios por usuario a nivel mundial aumentaron un 44%, impulsados por la IA,
GateNewshace3h