Hoy anunciamos un gran avance en la inteligencia artificial del habla generativa. Desarrollamos Voicebox, un modelo de inteligencia artificial de última generación que puede realizar tareas de generación de voz, como edición, muestreo y estilización, para las que no ha sido entrenado específicamente a través del aprendizaje contextual.
Voicebox puede producir clips de audio de alta calidad y editar audio grabado previamente, como eliminar bocinas de automóviles o ladridos de perros, todo mientras conserva el contenido y el estilo de la voz. El modelo también es multilingüe y puede producir voz en seis idiomas.
En el futuro, los modelos de IA multipropósito como Voicebox podrían brindar voces naturales a los asistentes virtuales y personajes que no son jugadores en el metaverso. Pueden permitir que las personas con discapacidad visual escuchen mensajes escritos de amigos leídos por IA en su voz, brindan a los creadores nuevas herramientas para crear y editar fácilmente clips de audio para videos, y mucho más.
La versatilidad de Voicebox permite una amplia variedad de tareas, que incluyen:
Sintaxis de texto a voz en contexto: Con una muestra de voz de tan solo 2 segundos de duración, Voicebox puede hacer coincidir el patrón de voz y usarlo para generar texto a voz.
Edición de voz y reducción de ruido: Voicebox puede recrear una parte del discurso que fue interrumpida por el ruido o reemplazar palabras mal pronunciadas sin tener que volver a grabar todo el discurso. Por ejemplo, puede seleccionar un fragmento de voz interrumpido por el ladrido de un perro, recortarlo e indicarle a Voicebox que recree ese fragmento, como un borrador para la edición de audio.
Transferencia de patrones entre idiomas: cuando se da Una muestra del discurso de alguien y un fragmento de texto en inglés, francés, alemán, español, polaco o portugués, Voicebox puede producir una lectura de texto en cualquiera de estos idiomas, incluso cuando el discurso y el texto de muestra están en diferentes idiomas. Esta capacidad podría usarse en el futuro para ayudar a las personas a comunicarse de una manera más natural y auténtica, incluso si no hablan los mismos idiomas.
Tomar diversas muestras de voz: Habiendo aprendido de los diversos datos, Voicebox puede generar un discurso que es más representativo de cómo hablan las personas en el mundo real y en los seis idiomas anteriores.
Voicebox es un importante paso adelante en nuestra investigación generativa de IA, y esperamos continuar nuestra exploración en el espacio de la voz y ver cómo otros investigadores se basan en nuestro trabajo.
Aprender más acerca de caja de voz.
«Fanático del café. Amable aficionado a los zombis. Devoto practicante de la cultura pop. Malvado defensor de los viajes. Organizador típico».