El responsable de relaciones con desarrolladores de IA de Google, Logan Kilpatrick, anunció el 15 de abril el lanzamiento de Gemini 3.1 Flash TTS, el modelo más reciente de Google de texto a voz. Este modelo admite 70 idiomas, control detallado a nivel de director de escenas (scene direction), por hablante y con etiquetas de audio; actualmente ya está disponible para su uso en el playground de audio de Google AI Studio y en la API de Gemini.
Cuatro funciones principales
En comparación con su predecesor, Gemini 3.1 Flash TTS presenta cuatro mejoras notables:
Director de escenas (Scene Direction): permite configurar un contexto para la voz, por ejemplo, «susurrar en una cafetería ruidosa» o «anunciar con entusiasmo una buena noticia»; el modelo ajusta el tono, la velocidad del habla y la emoción en función de la escena
Control a nivel de hablante (Speaker-Level Specificity): en diálogos con múltiples personajes, se pueden definir características de voz diferentes para cada uno
Etiquetas de audio (Audio Tags): admite insertar instrucciones de efectos de sonido en el texto, para controlar detalles como pausas y cambios de entonación
Compatibilidad con 70 idiomas: amplía significativamente la cobertura multilingüe, incluido el chino
Voces más naturales y con más expresividad
Google subraya los avances de este modelo en naturalidad de voz. Los modelos TTS tradicionales suelen ser criticados por generar una salida que «suena como a IA». Gemini 3.1 Flash TTS intenta reducir la brecha con la voz humana mediante variaciones de prosodia y expresión emocional más ricas. Kilpatrick señaló que el progreso de Gemini 2.5 a 3.1 «es muy notable».
Cómo pueden usarlo los desarrolladores
Los desarrolladores pueden usarlo de dos maneras:
Google AI Studio Audio Playground: probar y previsualizar directamente los efectos de voz en la interfaz web
API de Gemini: integrarla en aplicaciones para casos como asistentes de voz, audiolibros, generación automática de Podcast, atención al cliente multilingüe, etc.
La línea de productos de Gemini sigue expandiéndose
Flash TTS es parte de la intensa serie de lanzamientos recientes de la familia Gemini 3.1. Anteriormente, Google ya había presentado Gemini Robotics ER 1.6 (razonamiento visual para robots), Tab Tab Tab (completado de prompt de Vibe Coding) y funciones como vistas previas de diseño. Google está llevando a Gemini de un «modelo de chat» a una plataforma de IA multimodal que abarca texto, voz, visión y robots.
Este artículo sobre el lanzamiento de Gemini 3.1 Flash TTS de Google: admite 70 idiomas y director de escenas; la voz de IA es más natural apareció por primera vez en Cadena de noticias ABMedia.
Artículos relacionados
PayPal revela una reorganización en tres unidades y apunta a $900M ahorros anuales para finales de 2027
Kaisar Network completa $4 millón en financiación para la capa 1 de computación de IA descentralizada
El CFO de OpenAI descarta los rumores sobre objetivos de ingresos y afirma que la empresa está ejecutando a su nivel más alto el 1 de mayo
El asesor de Musk revela la oferta de $974B de xAI para activos de la organización sin fines de lucro OpenAI en un tribunal, lo que eleva un nuevo nivel de escrutinio
Musk admite que xAI utilizó destilación en modelos de OpenAI durante el Día 4 del juicio
El 66,3% de los empleados estadounidenses con altos ingresos utiliza herramientas de IA en el trabajo, según muestra una encuesta de la Reserva Federal