Recientemente ha habido un creciente interés en la tarea de obtener un modelo 3D a partir de imágenes 2D. Con la llegada de Neural Radiation Fields (NeRF), la calidad de las imágenes producidas a partir de un modelo 3D ha experimentado un avance significativo, rivalizando con el realismo logrado por los modelos 2D. Si bien los enfoques específicos se enfocan solo en representaciones tridimensionales para garantizar la coherencia en la tercera dimensión, esto a menudo tiene el costo de reducir el realismo de la imagen. Sin embargo, estudios recientes han demostrado que el enfoque híbrido puede superar esta limitación, lo que da como resultado una intensificación fotorrealista. Sin embargo, un inconveniente notable de estos modelos es el entrelazamiento de los elementos de la escena, incluida la geometría, la apariencia y la iluminación, lo que dificulta el control especificado por el usuario.
Se han propuesto varios enfoques para descifrar esta complejidad. Sin embargo, requieren conjuntos de imágenes de vista múltiple de la escena del sujeto para una ejecución efectiva. Desafortunadamente, este requisito presenta dificultades cuando se trata de imágenes capturadas en condiciones del mundo real. Si bien algunos esfuerzos han relajado este requisito para incluir imágenes de diferentes escenas, sigue existiendo la necesidad de tener múltiples vistas del mismo objeto. Además, estos métodos carecen de capacidades generativas y requieren entrenamiento individual para cada objeto distinto, haciéndolos incapaces de generar nuevos objetos. Al considerar metodologías generativas, la naturaleza superpuesta de la geometría y la iluminación sigue siendo un desafío.
El marco propuesto, conocido como FaceLit, introduce un método para obtener una representación 3D ininterrumpida de un rostro exclusivamente a partir de imágenes.
En la siguiente figura se muestra una descripción general de la arquitectura.
En esencia, el enfoque se trata de crear una canalización de renderizado que imponga la adhesión a los modelos de iluminación físicos establecidos, similar al trabajo anterior, diseñado para adaptarse a los principios de modelado generativo 3D. Además, el marco aprovecha la iluminación fácilmente disponible y las herramientas de estimación de poses.
El modelo de iluminación basado en la física está integrado en una canalización de representación de volumen neuronal desarrollada recientemente, EG3D, que utiliza componentes de tres niveles para generar características de profundidad a partir de imágenes 2D para la representación de volumen. Para esta integración se utilizan armónicos esféricos. El entrenamiento posterior se enfoca en el realismo, haciendo uso de la adherencia inherente del marco a la física para generar imágenes fotorrealistas. Esta alineación con los principios físicos facilita naturalmente la obtención de un modelo 3D generativo inconexo.
Crucialmente, un elemento fundamental que permite la metodología es la incorporación de principios de renderizado basados en la física en el renderizado de volumen neuronal. Como se describió anteriormente, la estrategia está diseñada para una integración perfecta con estimadores de luminancia preexistentes y fácilmente disponibles aprovechando los armónicos esféricos. Dentro de este marco, los aspectos difusos y especulares de la escena se caracterizan por coeficientes simétricos esféricos atribuibles a las crestas superficiales y vectores de reflexión. Estos parámetros incluyen reflexión difusa, reflexión especular física y vectores normales, que se generan a través de una red neuronal. Sin embargo, esta configuración aparentemente obvia desacopla efectivamente la iluminación del proceso de renderizado.
El enfoque propuesto se implementa y prueba en tres conjuntos de datos: FFHQ, CelebA-HQ y MetFaces. Según los autores, esto da como resultado puntajes FID de última generación, lo que coloca al método a la vanguardia de los modelos generativos compatibles con 3D. Algunos de los resultados generados por el método discutido se enumeran a continuación.
Ese fue el resumen de FaceLit, un nuevo marco de IA para obtener una representación 3D ininterrumpida de una cara exclusivamente a partir de imágenes. Si está interesado y desea obtener más información al respecto, no dude en consultar los enlaces que se mencionan a continuación.
escanear el papel Y github. Todo el crédito por esta investigación es para los investigadores de este proyecto. Además, no olvides unirte Sub Reddit de 28k+MLY 40k+ comunidad de Facebook, canal de discordiaY Y Boletín electrónicodonde compartimos las últimas noticias de investigación de IA, interesantes proyectos de IA y más.
Daniel Lorenzi tiene una maestría. Recibió su doctorado en Tecnologías de la Información y la Comunicación para Internet e Ingeniería Multimedia en 2021 de la Universidad de Padua, Italia. Tiene un doctorado. Candidato en el Instituto de Tecnología de la Información (ITEC) en Alpen-Adria-Universität (AAU) Klagenfurt. Actualmente trabaja en el Laboratorio Christian Doppler en ATHENA y sus intereses de investigación incluyen transmisión de video adaptable, medios inmersivos, aprendizaje automático y evaluación de QoS/QoS.