El responsable de relaciones con desarrolladores de IA de Google, Logan Kilpatrick, anunció el 15 de abril el lanzamiento de Gemini 3.1 Flash TTS, el modelo más reciente de Google de texto a voz. Este modelo admite 70 idiomas, control detallado a nivel de director de escenas (scene direction), por hablante y con etiquetas de audio; actualmente ya está disponible para su uso en el playground de audio de Google AI Studio y en la API de Gemini.

Cuatro funciones principales

En comparación con su predecesor, Gemini 3.1 Flash TTS presenta cuatro mejoras notables:

Director de escenas (Scene Direction): permite configurar un contexto para la voz, por ejemplo, «susurrar en una cafetería ruidosa» o «anunciar con entusiasmo una buena noticia»; el modelo ajusta el tono, la velocidad del habla y la emoción en función de la escena

Control a nivel de hablante (Speaker-Level Specificity): en diálogos con múltiples personajes, se pueden definir características de voz diferentes para cada uno

Etiquetas de audio (Audio Tags): admite insertar instrucciones de efectos de sonido en el texto, para controlar detalles como pausas y cambios de entonación

Compatibilidad con 70 idiomas: amplía significativamente la cobertura multilingüe, incluido el chino

Voces más naturales y con más expresividad

Google subraya los avances de este modelo en naturalidad de voz. Los modelos TTS tradicionales suelen ser criticados por generar una salida que «suena como a IA». Gemini 3.1 Flash TTS intenta reducir la brecha con la voz humana mediante variaciones de prosodia y expresión emocional más ricas. Kilpatrick señaló que el progreso de Gemini 2.5 a 3.1 «es muy notable».

Cómo pueden usarlo los desarrolladores

Los desarrolladores pueden usarlo de dos maneras:

Google AI Studio Audio Playground: probar y previsualizar directamente los efectos de voz en la interfaz web

API de Gemini: integrarla en aplicaciones para casos como asistentes de voz, audiolibros, generación automática de Podcast, atención al cliente multilingüe, etc.

La línea de productos de Gemini sigue expandiéndose

Flash TTS es parte de la intensa serie de lanzamientos recientes de la familia Gemini 3.1. Anteriormente, Google ya había presentado Gemini Robotics ER 1.6 (razonamiento visual para robots), Tab Tab Tab (completado de prompt de Vibe Coding) y funciones como vistas previas de diseño. Google está llevando a Gemini de un «modelo de chat» a una plataforma de IA multimodal que abarca texto, voz, visión y robots.

Este artículo sobre el lanzamiento de Gemini 3.1 Flash TTS de Google: admite 70 idiomas y director de escenas; la voz de IA es más natural apareció por primera vez en Cadena de noticias ABMedia.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

Google 推 Deep Research Max：支援 MCP、可接企業私有資料

Agente de IA Noticias de la industria de la IA

Según el anuncio del blog oficial de Google DeepMind, Google lanzó el nuevo agente de investigación autónoma de próxima generación Deep Research y Deep Research Max el 21 de abril de 2026, construido sobre Gemini 3.1 Pro, como versión oficial después de la versión preview que se ofreció en diciembre de 2025 mediante la Interactions API. Ambas variantes de los agentes ahora están disponibles, en forma de public preview, dentro de los planes de pago de la Gemini API, y los usuarios de startups y empresas de Google Cloud irán incorporándolos gradualmente. Ambas variantes se posicionan de manera distinta: interactivo vs profundidad asíncrona Google separa ambos agentes según el contexto de uso: Deep Research

ChainNewsAbmediaHace28m

Los usuarios activos mensuales de OpenAI Codex alcanzan 4 millones en menos de dos semanas

Noticias de la industria de la IA

OpenAI Codex alcanza 4 millones de MAUs, anunciado por Sottiaux y Altman; el salto se produjo en menos de dos semanas desde 3 millones, y los límites de velocidad se restablecieron en todos los niveles para celebrarlo. OpenAI Codex llegó a 4 millones de usuarios activos mensuales en menos de dos semanas desde que alcanzó los 3 millones, según declaraciones de ejecutivos de OpenAI. Para conmemorar el hito, los límites de velocidad en todos los niveles se restablecieron.

GateNewshace2h

Dos startups de IA sudafricanas seleccionadas para la clase 10 de Google for Startups Accelerator Africa

Noticias de la industria de la IA

Dos startups sudafricanas, Loop y Vambo AI, se unen a la 10.ª cohorte de Google Accelerator Africa desde 2.600 aplicaciones; Loop mejora la movilidad/pagos, Vambo AI habilita IA multilingüe; el programa se ejecuta de abril a junio de 2026 con mentores y talleres de IA. Resumen: Dos startups sudafricanas, Loop y Vambo AI, han sido seleccionadas para la 10.ª cohorte del Google for Startups Accelerator Africa, elegidas de unas 2.600 solicitudes y una de las 15 participantes africanas. Loop digitaliza la movilidad y los pagos, mientras que Vambo AI ofrece una infraestructura de IA multilingüe para traducción, voz y IA generativa en lenguas africanas. El programa de 2026 se ejecuta del 13 de abril al 19 de junio y ofrece mentoría y talleres prácticos centrados en IA/ML. Desde 2018, el acelerador ha apoyado a 106 startups de 17 países africanos, ayudándolas a recaudar más de $263 millones y a crear más de 2.800 empleos.

GateNewshace3h

La lista de Forbes AI 50 incluye 20 empresas nuevas; OpenAI y Anthropic capturan el 80% de la financiación total

Noticias de la industria de la IA

Mensaje de Gate News, 21 de abril — Forbes publicó su lista de IA 50, edición vigésima octava de 2026, que incluye 20 empresas recién incorporadas. OpenAI y Anthropic continúan liderando el ranking, atrayendo capital sustancial de destacados capitalistas de riesgo de Silicon Valley y grandes empresas tecnológicas. La financiación combinada para todas las empresas de la lista

GateNewshace3h

Zi变量 presenta el modelo de IA encarnada WALL-B; los robots llegarán a hogares reales en 35 días

Noticias de la industria de la IA

Mensaje de Gate News, 21 de abril — Zibianliang (自变量), una empresa china de robótica, celebró una conferencia de prensa el 21 de abril para presentar su próximo modelo base de IA encarnada de nueva generación, WALL-B. La compañía anunció que los robots impulsados por WALL-B entrarán en hogares reales en 35 días. Según el cofundador de Zibianliang

GateNewshace4h

OpenAI Prepara la Función de Agentes para ChatGPT, Con Nombre en Clave Hermes

Agente de IA Noticias de la industria de la IA

Mensaje de Gate News, 21 de abril — OpenAI está preparando una nueva función de Agentes para ChatGPT, con nombre en clave "Hermes," según Tibor Blaho, que supervisa las actualizaciones de productos de IA. La función incluye un nuevo generador de agentes llamado "studio" que permite a los usuarios crear agentes a partir de plantillas, programar ejecuciones, y

GateNewshace5h

Comentar

0/400

Sin comentarios