Presentamos Voicebox: AI versátil para la generación de voz

Hoy anunciamos un gran avance en la inteligencia artificial del habla generativa. Desarrollamos Voicebox, un modelo de inteligencia artificial de última generación que puede realizar tareas de generación de voz, como edición, muestreo y estilización, para las que no ha sido entrenado específicamente a través del aprendizaje contextual.

Voicebox puede producir clips de audio de alta calidad y editar audio grabado previamente, como eliminar bocinas de automóviles o ladridos de perros, todo mientras conserva el contenido y el estilo de la voz. El modelo también es multilingüe y puede producir voz en seis idiomas.

En el futuro, los modelos de IA multipropósito como Voicebox podrían brindar voces naturales a los asistentes virtuales y personajes que no son jugadores en el metaverso. Pueden permitir que las personas con discapacidad visual escuchen mensajes escritos de amigos leídos por IA en su voz, brindan a los creadores nuevas herramientas para crear y editar fácilmente clips de audio para videos, y mucho más.

La versatilidad de Voicebox permite una amplia variedad de tareas, que incluyen:

Sintaxis de texto a voz en contexto: Con una muestra de voz de tan solo 2 segundos de duración, Voicebox puede hacer coincidir el patrón de voz y usarlo para generar texto a voz.

Edición de voz y reducción de ruido: Voicebox puede recrear una parte del discurso que fue interrumpida por el ruido o reemplazar palabras mal pronunciadas sin tener que volver a grabar todo el discurso. Por ejemplo, puede seleccionar un fragmento de voz interrumpido por el ladrido de un perro, recortarlo e indicarle a Voicebox que recree ese fragmento, como un borrador para la edición de audio.

READ  Google se ha aplicado para conocer mejor el SEO

Transferencia de patrones entre idiomas: cuando se da Una muestra del discurso de alguien y un fragmento de texto en inglés, francés, alemán, español, polaco o portugués, Voicebox puede producir una lectura de texto en cualquiera de estos idiomas, incluso cuando el discurso y el texto de muestra están en diferentes idiomas. Esta capacidad podría usarse en el futuro para ayudar a las personas a comunicarse de una manera más natural y auténtica, incluso si no hablan los mismos idiomas.

Tomar diversas muestras de voz: Habiendo aprendido de los diversos datos, Voicebox puede generar un discurso que es más representativo de cómo hablan las personas en el mundo real y en los seis idiomas anteriores.

Voicebox es un importante paso adelante en nuestra investigación generativa de IA, y esperamos continuar nuestra exploración en el espacio de la voz y ver cómo otros investigadores se basan en nuestro trabajo.

Aprender más acerca de caja de voz.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *