Baby face generation and edition through text-guided diffusion models
Baby face generation and edition through text-guided diffusion models
Enllaç permanent
Descripció
Resum
The synthesis of photo-realistic human faces has been a trending area of research since the release of deep generative models. During the last years, synthesized images have become almost indistinguishable from real ones to the human eye. Face image synthesis has a wide array of applications, such as advertising, data augmentation or medical imaging. However, generative models are computationally expensive and require large training datasets to produce high quality outputs. Even though multiple datasets containing adult faces are available, baby face datasets are much more difficult to gather due to privacy concerns. Furthermore, generating photo-realistic baby faces is not a well explored topic. This thesis explores transfer-learning techniques to generate photo-realistic baby faces and presents two novel pipelines to edit them. To achieve this, we propose using a pre-trained diffusion model (DM) and performing transfer learning to adapt it to the specific task of generating high-quality baby faces. The DM is conditioned to facial features, ethnicity and expression by a textual prompt. Moreover, we extend the DM with editing capabilities, allowing for the synthesis of multiple instances of a randomly generated identity while varying non-identity attributes. We address two non-identity modifications based on DM, firstly expressions and then pose orientations. To evaluate the performance of the model, real and synthesized baby faces were presented to 149 observers who judged their realism. Results indicate that faces synthesized by our model are almost indistinguishable from real ones. When distinguishing real from AI images synthesized by our model, 61.1% of the participants failed. In conclusion, this thesis demonstrates the efficacy of diffusion models in generating and editing baby faces.
Des de la publicació dels models generatius, la síntesi de cares humanes fotorealistes ha estat una àrea de recerca en constant creixement. Durant els últims anys, les imatges sintetitzades són gairebé indistingibles de les reals per l’ull humà. La síntesi de cares té diverses aplicacions, com ara publicitat, ampliació de dades o per a usos mèdics, entre d’altres. Els models generatius són computacionalment costosos i requereixen una gran quantitat de dades d’entrenament (datasets) per produir resultats d’alta qualitat. Tot i que hi ha disponibles diversos datasets de rostres d’adults, trobar-ne de nadons ´es molt m´es complicat, principalment per motius relacionats amb la privadesa. A m´es, no s’ha explorat la generació de rostres de nadó fotorealistes. Aquesta tesi analitza les t`ecniques de fine-tuning per generar cares de nadó fotorealistes i presenta dos nous mètodes per editar-les. Per aconseguir-ho, proposem utilitzar un model de difusió (DM) preentrenat i realitzar fine-tuning per adaptar-lo a la tasca específica de generar cares de nadó d’alta qualitat. El DM es condiciona a característiques facials, ètniques i d’expressió mitjançant text. A més, ampliem el DM amb capacitats d’edició, permetent la síntesi de múltiples instàncies d’una identitat generada aleatòriament, mentre varien les expressions i l’orientació del subjecte. Per avaluar el rendiment del model, es van presentar rostres de nad´o reals i sintetitzats a 149 observadors que van jutjar el realisme d’aquests. Els resultats indiquen que els rostres sintetitzats pel nostre model s´on gaireb´e indistingibles dels reals. El 61,1% dels participants no van ser capac¸os de distingir entre els rostres sintetitzats pel nostre model i els rostres reals. En conclusi´o, aquesta tesi demostra l’efic`acia i la capacitat dels models de difusi´o en la generaci´o i edici´o de rostres de nadó.Descripció
Tutors: Federico Mateo Sukno, Gemma Piella Fenoy, Antonia Alomar Adroer
Treball de fi de grau en Enginyeria Matemàtica en Ciència de Dades