Alibaba Qianwen lanza el modelo de lenguaje multimodal total Qwen3.5-Omni, con soporte para 113 tipos de reconocimiento de voz

Gate News, mensaje: el 30 de marzo, Alibaba Qianwen anunció el lanzamiento del modelo multimodal de gran escala Qwen3.5-Omni. Esta serie incluye versiones Instruct en tres tamaños: Plus, Flash y Light, que soportan un contexto de 256k, y permiten entradas de audio de más de 10 horas, así como entradas de video y audio en 720P (1FPS) de más de 400 segundos. El modelo se entrena de forma nativa en multimodalidad con preentrenamiento multimodal sobre grandes volúmenes de datos de texto, visión y más de 100 millones de horas de datos de audio y video, demostrando capacidades sobresalientes de percepción y generación multimodal. En comparación con la generación anterior Qwen3-Omni, Qwen3.5-Omni ha mejorado significativamente sus capacidades multilingües, pudiendo soportar reconocimiento de voz en 113 idiomas y dialectos, así como generación de voz en 36 idiomas y dialectos.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios