Escuche la nueva IA de voz de Microsoft que imita su voz a partir de 3 segundos de audio

Microsoft ha revelado una herramienta que puede simular la voz y el habla de una persona cuando se le dan solo tres segundos de una muestra de voz para basarse.

Los investigadores dicen que la herramienta VALL-E es un paradigma de lenguaje de marcado natural y puede usarse para sintetizar el habla. La idea es mejorar las capacidades de texto a voz y hacer que suene más natural.

Acuerdo de banda ancha de Virgin Media

Como parte de la oferta de invierno, puede obtener una increíble velocidad de descarga de 516 Mbps por £ 33 al mes de Virgin Media. El contrato tiene una duración de 18 meses y hay una tarifa de instalación de £ 9.99, pero para velocidades tan altas, esta es una compra ideal para familias numerosas.

medios vírgenes
Velocidades promedio de 516 Mbps
£ 33 / mes

ver el trato

en Publicado en githubMicrosoft dice que incluso con una muestra de voz muy limitada, la herramienta puede mantener la autenticidad y la emoción de una voz en ella.

Ya sea que el orador esté enojado, divertido, disgustado o somnoliento, VALL-E puede mantener la emoción al simular una voz. Todavía no es perfecto, ni mucho menos, y parece tener problemas con algunos de los acentos más fuertes, pero en general, es una prueba de concepto bastante impresionante.

La empresa entrenó la herramienta utilizando tecnología creada por Meta. LibriLight tiene 60.000 horas de habla en inglés de 7.000 hablantes. Meta creó la tecnología para tratar de cerrar las brechas en las llamadas de voz cuando la señal es débil, pero Microsoft tiene otros objetivos en mente.

READ Marvel's Spider-Man Remastered se lanzará para PC en agosto, Miles Morales este otoño

DESCRIPCIÓN GENERAL DEL VALLE-E — Crédito de la imagen: Microsoft

Al igual que con cualquier cosa relacionada con la inteligencia artificial, existirá la preocupación de que la tecnología se utilice indebidamente para que parezca que alguien dijo algo que no dijo. Esto es algo que ya hemos probado con video deepfakes.

Sin embargo, si la tecnología se usa por las razones correctas, puede ayudar a las personas que han perdido la voz a conectarse nuevamente con otros en su habla.

Todavía no puedes probarlo por ti mismo, pero Microsoft lo tiene Lancé muchas muestras. (a través de Ars Technica) tecnología de visualización.

En una publicación que explica los experimentos, Microsoft dice: «VALL-E destaca las capacidades de aprendizaje contextual y se puede usar para sintetizar un discurso personal de alta calidad con solo una grabación de 3 segundos de un hablante invisible como un mensaje de voz». VALL-E supera significativamente al último sistema TTS en términos de sonido natural y similitud de los altavoces.

Eutropio Vivar

«Fanático del café. Amable aficionado a los zombis. Devoto practicante de la cultura pop. Malvado defensor de los viajes. Organizador típico».

Escuche la nueva IA de voz de Microsoft que imita su voz a partir de 3 segundos de audio

Deja una respuesta Cancelar la respuesta

El Liverpool sale de la Europa League al no poder atacar de nuevo ante el Atalanta

Adobe lanza una aplicación móvil impulsada por IA para la creación de contenidos

Ben Vogel dice que casi muere en una «llamada muy cercana» en la carretera rural

La reina Letizia de España brilla con una tiara de diamantes en Holanda