La tecnología de texto a voz basada en inteligencia artificial ha recorrido un largo camino en los últimos años, y VALL-E el modelo de Microsoft es un excelente ejemplo de este progreso. Con su capacidad para generar un habla humana muy realista en una variedad de idiomas y acentos, VALL-E está estableciendo un nuevo estándar para los modelos de texto a voz.
Este modelo se basa en la arquitectura Transformer (al igual que ChatGPT o Bard), que ha demostrado ser muy eficaz para una variedad de tareas de procesamiento de lenguaje natural de una forma más sencilla y rápida.
Una vez entrenado, este puede replicar la voz de una persona casi a la perfección. El gran punto a resaltar es que el equipo requiere solo una muestra de audio de tres segundos para entrenar este nuevo bot de IA de Microsoft.
Esta novedad en tecnología no es algo especialmente reciente ya que fue presentada en enero de 2023, sin embargo, ahora Microsoft ha añadido una nueva función a VALL-E: la capacidad de traducir tu voz a idiomas extranjeros expresando emociones y tonos sin apenas notar la diferencia. En el siguiente ejemplo de Twitter puedes ver cómo funciona.
VALL-E X: ahora capaz de traducir tu voz a otros idiomas
“Proponemos un modelo de lenguaje de códec neuronal multilingüe, VALL-E X, para la síntesis de voz multilingüe. Específicamente, ampliamos VALL-E y esta novedad alivia eficazmente los problemas de acento extranjero, que pueden controlarse mediante una identificación de idioma”, explica Microsoft.
La arquitectura Transformer, antes mencionada y por contextualizar, es un tipo de red neuronal que ha demostrado ser muy eficaz para una variedad de tareas de procesamiento de lenguaje natural, incluida la traducción de lenguaje, el modelado de lenguaje y el resumen de texto.
Fue introducido en el artículo “La atención es todo lo que necesitas” por Vaswani en 2017 y desde entonces se ha utilizado ampliamente en muchos modelos de última generación para el procesamiento del lenguaje natural como ChatGPT o Bard.
Además de su eficacia y eficiencia, la arquitectura Transformer también se puede adaptar fácilmente a una amplia gama de tareas. Esto lo convierte en una opción perfecta para los modelos de procesamiento de lenguaje natural como VALL-E de Microsoft, que utiliza la arquitectura Transformer para generar un habla muy realista y similar a la de un humano.
A principios de este año, el cofundador de Microsoft, Bill Gates, dijo que la inteligencia artificial es el próximo gran avance en la industria tecnológica y traerá los cambios más importantes en los próximos años y efectivamente con VALL-E y ahora esta nueva funcionalidad así está siendo. “VALL-E X puede sintetizar el habla de destino personalizada mientras mantiene la emoción en el habla de origen”, explican.
Desde luego, los modelos de texto a voz como este de Microsoft son realmente valiosos por muchas razones, ya que se pueden usar para generar un discurso o conversación que suene natural a partir del texto y, si ahora le sumas la posibilidad de que esto se traduzca a otros idiomas, su capacidades se vuelven aún más útiles.