Memoji con esteroides: este modelo de IA puede reconstruir avatares 3D a partir de videos

Memoji con esteroides: este modelo de IA puede reconstruir avatares 3D a partir de videos
Fuente: https://ait.ethz.ch/projects/2023/vid2avatar/downloads/main.pdf

Vemos avatares digitales en todas partes, desde nuestras aplicaciones de chat favoritas hasta asistentes de marketing virtual en nuestros sitios web de comercio electrónico favoritos. Se están volviendo cada vez más populares y se están integrando rápidamente en nuestra vida diaria. Entras en tu editor de avatares, eliges tono de piel, forma de ojos, complementos, etc., y ya tienes uno listo para imitarte en el mundo digital.

Crear una cara de avatar digital a mano y usarla como un emoji en vivo puede ser divertido, pero solo rasca la superficie de lo que es posible. El verdadero potencial de los avatares digitales radica en la capacidad de convertirse en un clon de todo nuestro cuerpo. Este tipo de avatar se está convirtiendo en una tecnología cada vez más popular en videojuegos y aplicaciones de realidad virtual (VR).

La creación de avatares 3D de alta resolución requiere un equipo costoso y especializado. Por lo tanto, solo los vemos utilizados en un número limitado de aplicaciones, como los actores profesionales que vemos en los videojuegos.

¿Y si pudiéramos simplificar este proceso? Imagina que pudieras crear un avatar HD 3D de cuerpo completo usando un video capturado en la naturaleza. Sin equipo profesional, sin configuración complicada de sensores para capturar cada pequeño detalle, solo una cámara y una grabación simple con un teléfono inteligente. Este avance en la tecnología de avatar podría revolucionar muchas aplicaciones en realidad virtual, robótica, videojuegos, películas, deportes, etc.

es la hora. Tenemos una herramienta que puede generar avatares 3D de alta resolución a partir de videos capturados en la naturaleza. buen momento para conocer vid2avatar.

READ  Los 5 juegos nuevos más importantes que se lanzarán en abril de 2024 para PS5, Nintendo Switch, Xbox y PC

Vid2Avatar aprende avatares humanos en 3D de videos en la naturaleza. No necesita supervisión de hechos, introducciones extraídas de grandes conjuntos de datos o unidades de segmentación externas. Solo dale un video a alguien y creará un poderoso avatar 3D para ti.

Vid2Avatar tiene algunos trucos ingeniosos bajo la manga para que esto suceda. Lo primero que hay que hacer es separar al ser humano del fondo de una escena y modelarlo como un neurocampo. Resuelven directamente las tareas de separación de escenas y reconstrucción de superficies en 3D. Modelan dos campos neuronales separados para aprender implícitamente tanto el cuerpo humano como el fondo. Esta suele ser una tarea difícil porque necesita conectar el cuerpo humano a puntos 3D sin depender de la segmentación 2D.

El cuerpo humano se modela usando una única representación temporal consistente de la forma y textura humana en el espacio canónico. Esta representación se aprende a partir de observaciones distorsionadas utilizando un mapeo inverso de un modelo de cuerpo paramétrico. Además, Vid2Avatar utiliza un algoritmo de optimización para ajustar y restar varios parámetros relacionados con el fondo y el sujeto humano para ajustar mejor los datos disponibles de una serie de imágenes o cuadros de video.

Para mejorar aún más la separación, Vid2Avatar utiliza una tecnología propia para la representación de escenas en 3D, en la que el cuerpo humano se separa del fondo de forma que facilita el análisis del movimiento y la apariencia de cada uno por separado. Además, utiliza nuevos objetivos, como centrarse en tener límites claros entre el cuerpo humano y el fondo, y dirigir el proceso de optimización para producir reconstrucciones más precisas y detalladas de una escena.

READ  El estudio evalúa la capacidad de GPT-4 para perpetuar los sesgos raciales y de género en la toma de decisiones clínicas

En general, se ha propuesto un enfoque de optimización global para la reconstrucción robusta y de alta fidelidad del cuerpo humano. Este método usa videos capturados en la naturaleza sin requerir ninguna información adicional. Los componentes cuidadosamente diseñados logran un modelado robusto y, al final, obtenemos glifos 3D que se pueden usar en muchas aplicaciones.

escanear el papel Y proyecto. Todo el crédito por esta investigación es para los investigadores de este proyecto. Además, no olvides unirte Subreddit de 15k+MLY canal de discordiaY Boletín electrónicodonde compartimos las últimas noticias de investigación de IA, interesantes proyectos de IA y más.

Ekrem Cetinkaya tiene una licenciatura. en 2018 y MA. en 2019 de la Universidad de Ozyegin, Estambul, Turquía. Escribió su maestría. Tesis sobre reducción de ruido de imagen utilizando redes convolucionales profundas. Actualmente está cursando su Ph.D. Licenciada en la Universidad de Klagenfurt, Austria, y trabaja como investigadora en el proyecto ATHENA. Sus intereses de investigación incluyen el aprendizaje profundo, la visión artificial y las redes multimedia.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *