La Alexa de Amazon continúa aprendiendo nuevos trucos para fiestas, siendo la última una voz de habla “estilo de presentador de noticias” que se lanzará en dispositivos habilitados dentro de unas pocas semanas.

Puede escuchar muestras del estilo de habla a continuación, y los resultados, bueno, hablan por sí mismos. La voz no se puede confundir con un humano, pero incorpora el estrés en las oraciones de la misma manera que se esperaría de un noticiero de televisión o radio. De acuerdo con las propias encuestas de Amazon, los usuarios prefieren el estilo de conversación regular de Alexa cuando escuchan artículos (aunque recibir noticias de oradores inteligentes todavía tiene muchos otros problemas).

Amazon dice que el nuevo estilo de habla se habilita mediante el desarrollo de la tecnología “neural de texto a voz” de la compañía o NTTS. Esta es la próxima generación de síntesis de voz, que utiliza el aprendizaje automático para generar voces expresivas más rápidamente. Actualmente, Alexa utiliza la síntesis de voz concatenativa, un método que ha existido durante décadas. Esto implica dividir las muestras del habla en sonidos distintos (conocidos como fonemas) y luego volver a unirlas para formar nuevas palabras y oraciones.

Así es como se comparan las voces:

concatenación :

Texto a voz neural (NTTS):

Noticiero NTTS :

La síntesis del habla concatenativa puede producir resultados sorprendentemente buenos, pero los nuevos métodos infundidos con IA están adelantando rápidamente. En octubre pasado, Google lanzó una nueva forma de síntesis de voz para el Asistente de Google que utiliza técnicas de aprendizaje automático desarrolladas por su laboratorio de inteligencia artificial con sede en Londres DeepMind. Amazon le dice a The Verge que Alexa debería cambiar a la síntesis neuronal de texto a voz (completa con la voz del presentador de noticias) “en las próximas semanas”.

La voz del presentador de noticias se creó al grabar clips de audio de canales de noticias de la vida real y luego se utilizó el aprendizaje automático para detectar patrones en cómo los noticieros leen el texto. En declaraciones a The Verge , Trevor Wood de Amazon, quien supervisa la aplicación de AI en el texto a voz en Amazon, dijo que este enfoque capta más fácilmente los detalles en los estilos de habla humana. “Es difícil describir estos matices precisamente con palabras, y un enfoque basado en datos puede descubrirlos y generalizarlos de manera más eficiente que un humano”, dijo Wood.

En particular, Amazon dice que solo tomó unas pocas horas de datos para enseñar a Alexa la voz del presentador de noticias, lo que sugiere que una amplia gama de estilos podrían incorporarse fácilmente en el futuro. Hasta ahora, Amazon ya ha agregado un modo de susurro para Alexa, y después de la actualización a NTTS en las próximas semanas, probablemente podamos esperar una gran cantidad de voces en 2019.

 

Fuente: theverge.com