Escuche la nueva IA de voz de Microsoft que imita su voz a partir de 3 segundos de audio

Microsoft ha revelado una herramienta que puede simular la voz y el habla de una persona cuando se le dan solo tres segundos de una muestra de voz para basarse.

Los investigadores dicen que la herramienta VALL-E es un paradigma de lenguaje de marcado natural y puede usarse para sintetizar el habla. La idea es mejorar las capacidades de texto a voz y hacer que suene más natural.

Acuerdo de banda ancha de Virgin Media

Como parte de la oferta de invierno, puede obtener una increíble velocidad de descarga de 516 Mbps por £ 33 al mes de Virgin Media. El contrato tiene una duración de 18 meses y hay una tarifa de instalación de £ 9.99, pero para velocidades tan altas, esta es una compra ideal para familias numerosas.

  • medios vírgenes
  • Velocidades promedio de 516 Mbps
  • £ 33 / mes

ver el trato

en Publicado en githubMicrosoft dice que incluso con una muestra de voz muy limitada, la herramienta puede mantener la autenticidad y la emoción de una voz en ella.

Ya sea que el orador esté enojado, divertido, disgustado o somnoliento, VALL-E puede mantener la emoción al simular una voz. Todavía no es perfecto, ni mucho menos, y parece tener problemas con algunos de los acentos más fuertes, pero en general, es una prueba de concepto bastante impresionante.

La empresa entrenó la herramienta utilizando tecnología creada por Meta. LibriLight tiene 60.000 horas de habla en inglés de 7.000 hablantes. Meta creó la tecnología para tratar de cerrar las brechas en las llamadas de voz cuando la señal es débil, pero Microsoft tiene otros objetivos en mente.

READ  Marvel's Spider-Man Remastered se lanzará para PC en agosto, Miles Morales este otoño
DESCRIPCIÓN GENERAL DEL VALLE-E
Crédito de la imagen: Microsoft

Al igual que con cualquier cosa relacionada con la inteligencia artificial, existirá la preocupación de que la tecnología se utilice indebidamente para que parezca que alguien dijo algo que no dijo. Esto es algo que ya hemos probado con video deepfakes.

Sin embargo, si la tecnología se usa por las razones correctas, puede ayudar a las personas que han perdido la voz a conectarse nuevamente con otros en su habla.

Todavía no puedes probarlo por ti mismo, pero Microsoft lo tiene Lancé muchas muestras. (a través de Ars Technica) tecnología de visualización.

En una publicación que explica los experimentos, Microsoft dice: «VALL-E destaca las capacidades de aprendizaje contextual y se puede usar para sintetizar un discurso personal de alta calidad con solo una grabación de 3 segundos de un hablante invisible como un mensaje de voz». VALL-E supera significativamente al último sistema TTS en términos de sonido natural y similitud de los altavoces.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *