Meituan lanza LongCat-Next de código abierto: comprensión visual, generación y reconocimiento de voz unificados con 3B de parámetros

BlockBeatNews

Según la monitorización de 1M AI News, el equipo de Meituan Longmao ha abierto el código de LongCat-Next, un modelo nativo multimodal basado en la arquitectura MoE, con 3B de parámetros activos. Este modelo unifica cinco capacidades: comprensión de texto y visión, generación de imágenes, comprensión de voz y síntesis de voz, todo en un marco autoregresivo único. El modelo y su tokenizador asociado se han lanzado bajo la licencia MIT, y los pesos ya están disponibles en HuggingFace.

El diseño central de LongCat-Next es el paradigma DiNA (Autoregresivo Discreto Nativo): mediante la creación de tokenizadores y decodificadores emparejados para cada modalidad, convierte señales visuales y de audio en tokens discretos, compartiendo el mismo espacio de incrustación con el texto, y realiza predicciones de siguiente token para completar todas las tareas. El componente clave en visión, dNaViT (Vision Transformer de resolución nativa discreta), extrae características de imágenes en “palabras visuales”, soportando tokenización y decodificación dinámica. Mantiene una alta calidad de generación de imágenes incluso con una compresión de 28 veces, destacándose especialmente en renderizado de texto.

En comparación con modelos de tamaño similar (A3B), los principales resultados de LongCat-Next son:

  1. Comprensión visual: MMMU-Pro 60.3 (Qwen3-Omni 57.0, GPT5-minimal 62.7), MathVista 83.1 (Qwen3-Omni 75.9, GPT5-minimal 50.9), MathVision 64.7 (superior a todos los modelos comparados), DocVQA 94.2
  2. Generación de imágenes: GenEval 84.44, LongText-EN 93.15 (FLUX.1-dev 60.70, Emu-3.5 97.60)
  3. Programación: SWE-Bench 43.0 (Kimi-Linear-48B 32.8, Qwen3-Next-80B 37.6)
  4. Llamadas a herramientas de agentes: Tau2-Retail 73.68 (Qwen3-Next 57.3), Tau2-Telecom 62.06 (Qwen3-Next 13.2)

En comparación transversal de modelos unificados para comprensión y generación, LongCat-Next obtiene una puntuación MMMU de 70.6, superando ampliamente a NEO-unify (68.9), y mucho más que BAGEL (55.3) y Ovis-U1 (51.1), que son soluciones anteriores de modelos unificados. El rendimiento en SWE-Bench 43.0 y en las pruebas de llamadas a herramientas de la serie Tau2 también demuestran que esta arquitectura multimodal unificada no sacrifica las capacidades de texto puro ni las de agentes.

Ver originales
Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios