Google lanza Gemini 3.1 Flash TTS: admite 70 idiomas y escenarios para directores, la voz de la IA es más natural

El responsable de relaciones con desarrolladores de IA de Google, Logan Kilpatrick, anunció el 15 de abril el lanzamiento de Gemini 3.1 Flash TTS, el modelo más reciente de Google de texto a voz. Este modelo admite 70 idiomas, control detallado a nivel de director de escenas (scene direction), por hablante y con etiquetas de audio; actualmente ya está disponible para su uso en el playground de audio de Google AI Studio y en la API de Gemini.

Cuatro funciones principales

En comparación con su predecesor, Gemini 3.1 Flash TTS presenta cuatro mejoras notables:

Director de escenas (Scene Direction): permite configurar un contexto para la voz, por ejemplo, «susurrar en una cafetería ruidosa» o «anunciar con entusiasmo una buena noticia»; el modelo ajusta el tono, la velocidad del habla y la emoción en función de la escena

Control a nivel de hablante (Speaker-Level Specificity): en diálogos con múltiples personajes, se pueden definir características de voz diferentes para cada uno

Etiquetas de audio (Audio Tags): admite insertar instrucciones de efectos de sonido en el texto, para controlar detalles como pausas y cambios de entonación

Compatibilidad con 70 idiomas: amplía significativamente la cobertura multilingüe, incluido el chino

Voces más naturales y con más expresividad

Google subraya los avances de este modelo en naturalidad de voz. Los modelos TTS tradicionales suelen ser criticados por generar una salida que «suena como a IA». Gemini 3.1 Flash TTS intenta reducir la brecha con la voz humana mediante variaciones de prosodia y expresión emocional más ricas. Kilpatrick señaló que el progreso de Gemini 2.5 a 3.1 «es muy notable».

Cómo pueden usarlo los desarrolladores

Los desarrolladores pueden usarlo de dos maneras:

Google AI Studio Audio Playground: probar y previsualizar directamente los efectos de voz en la interfaz web

API de Gemini: integrarla en aplicaciones para casos como asistentes de voz, audiolibros, generación automática de Podcast, atención al cliente multilingüe, etc.

La línea de productos de Gemini sigue expandiéndose

Flash TTS es parte de la intensa serie de lanzamientos recientes de la familia Gemini 3.1. Anteriormente, Google ya había presentado Gemini Robotics ER 1.6 (razonamiento visual para robots), Tab Tab Tab (completado de prompt de Vibe Coding) y funciones como vistas previas de diseño. Google está llevando a Gemini de un «modelo de chat» a una plataforma de IA multimodal que abarca texto, voz, visión y robots.

Este artículo sobre el lanzamiento de Gemini 3.1 Flash TTS de Google: admite 70 idiomas y director de escenas; la voz de IA es más natural apareció por primera vez en Cadena de noticias ABMedia.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

PayPal revela una reorganización en tres unidades y apunta a $900M ahorros anuales para finales de 2027

El 30 de abril, PayPal anunció una reorganización estructural integral en tres unidades de negocio distintas —Consumo, Pequeñas Empresas y Empresas— destinada a simplificar las operaciones y acelerar la integración de inteligencia artificial. La empresa estima que la reestructuración aportará

GateNewsHace28m

Kaisar Network completa $4 millón en financiación para la capa 1 de computación de IA descentralizada

Según ChainCatcher, Kaisar Network, una red descentralizada de cómputo de IA de capa 1, ha completado $4 million en financiación hasta la fecha, incluido $1 millón en una ronda estratégica de Pre-Seed. Los inversores incluyen Merov Capital, StoneBlock, WM Capital, Arche Fund, Q42 y Unicorn Ventures. La red

GateNewshace2h

El CFO de OpenAI descarta los rumores sobre objetivos de ingresos y afirma que la empresa está ejecutando a su nivel más alto el 1 de mayo

Según Bloomberg, la directora financiera (CFO) de OpenAI, Sarah Friar, desestimó los rumores del 1 de mayo de que la empresa había incumplido sus objetivos internos de ventas y de usuarios. Friar afirmó que la firma está ejecutando sus planes al más alto nivel, describiendo la demanda de productos como un “muro vertical”. Señaló que la ejecución

GateNewshace2h

El asesor de Musk revela la oferta de $974B de xAI para activos de la organización sin fines de lucro OpenAI en un tribunal, lo que eleva un nuevo nivel de escrutinio

De acuerdo con el testimonio de Jared Birchall en el día 4 de la demanda de Musk contra OpenAI, la oferta de xAI por 974 mil millones de dólares por los activos sin fines de lucro de OpenAI tenía como objetivo evitar que Sam Altman infravalorara los activos durante la reestructuración de OpenAI. Sin embargo, la jueza Yvonne Gonzalez Rogers se preguntó cómo Birchall podría presentar una cifra de 974 mil millones de dólares

GateNewshace3h

Musk admite que xAI utilizó destilación en modelos de OpenAI durante el Día 4 del juicio

Según Beating y The Verge, en el día 4 del juicio entre Musk y OpenAI, los abogados de OpenAI cuestionaron si xAI había utilizado la destilación para mejorar sus modelos usando la tecnología de OpenAI. Musk inicialmente afirmó que “casi todas las empresas de IA hacen esto”, pero cuando se le pidió una respuesta directa, admitió

GateNewshace4h

El 66,3% de los empleados estadounidenses con altos ingresos utiliza herramientas de IA en el trabajo, según muestra una encuesta de la Reserva Federal

Según una encuesta de la Reserva Federal, el 66,3% de los empleados de EE. UU. que ganan más de 200.000 USD al año han usado herramientas de IA en el trabajo en los últimos 12 meses a 1 de mayo. Entre los grupos de menor ingreso, las tasas de uso disminuyen significativamente: 51,6% para quienes ganan entre 100.000 y 200.000 USD, 40,2% para quienes ganan entre 50.000 y 100.000 USD,

GateNewshace4h
Comentar
0/400
Sin comentarios