La noticia de CoinWorld, Starry Leap ha lanzado el nuevo modelo de reconocimiento de voz automático de próxima generación StepAudio 2.5 ASR, que ya está completamente disponible en su plataforma abierta.


Esta versión introduce por primera vez en el campo del reconocimiento de voz la tecnología de predicción de múltiples tokens de modelos de lenguaje grandes (MTP), aumentando significativamente la velocidad de inferencia, reutilizando la ventana de contexto de 32K del gran modelo, rompiendo las limitaciones de la transcripción de audio largo que tradicionalmente requiere dividir y juntar segmentos.
El nuevo modelo reutiliza directamente la ventana de contexto de 32K, soportando la entrada de audio completo de hasta 30 minutos en una sola lectura de extremo a extremo.
En pruebas de entrada completa de 30 minutos, el modelo no mostró deterioro en la precisión con el paso del tiempo, y su tasa de error global en diez conjuntos de pruebas de código abierto en chino e inglés, como Librispeech, fue inferior a la de los productos competidores.
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado