Détection universelle des images synthétiques générées par les modèles de diffusion
Thèse ou mémoire / Thesis or Dissertation
Date de publication
Autrices et auteurs
Identifiant ORCID de l’auteur
Contributrices et contributeurs
Direction de recherche
Publié dans
Date de la Conférence
Lieu de la Conférence
Éditeur
Cycle d'études
Maîtrise / Master's
Programme
Affiliation
Mots-clés
- Intelligence artificielle générative
- Images synthétiques
- Robustness
- Explainability
- Modèles de diffusion
- Modèles de détection
- Robustesse
- Explicabilité
- Generative artificial intelligence
- Synthetic images
- Diffusion models
- Detection models
Organisme subventionnaire
Résumé
Résumé
L’émergence des modèles d'intelligence artificielle générative, en particulier les modèles de diffusion appliqués à la génération d'images synthétiques, a redéfini notre conception de l'authenticité visuelle. Cette révolution technologique, accessible au grand public, soulève des questions cruciales quant à la fiabilité de l'information visuelle et à la confiance du public envers les contenus numériques. En effet, ces technologies, si elles permettent d'élargir les horizons créatifs, favorisent également la désinformation, notamment via les réseaux sociaux, où des images synthétiques peuvent influencer les opinions publiques. Les modèles actuels de détection d'images synthétiques se révèlent insuffisants pour faire face à la croissance rapide des nouveaux modèles de diffusion. Leur incapacité à généraliser aux modèles de diffusion non rencontrés lors de l'entraînement représente un défi majeur, car de nouveaux modèles de diffusion sont continuellement publiés. Il est crucial de développer des modèles de détection capables de s'adapter efficacement aux modèles de diffusion jamais vus. C'est dans ce contexte que notre recherche se concentre sur la généralisation et l'amélioration de la détection des images synthétiques générées par ces modèles de diffusion en constante évolution. Nos contributions sont multiples. En premier lieu, nous avons conçu une base de données unique, IMA-SYN, qui rassemble 11 modèles de diffusion de pointe, tels que GLIDE, DALL-E 2 et Stable Diffusion 3, pour un total de plus d'un million d'images synthétiques. Il s'agit de la base de données la plus vaste à ce jour, intégrant les modèles de génération d'images les plus récents. Une autre contribution majeure de cette recherche réside dans la détection des images synthétiques générées par ces modèles de diffusion. En recourant à une fusion de plusieurs modèles de détection telles que ResNet, DenseNet, DeiT et BEiT, nous avons pu combiner leurs forces, ce qui a conduit à une amélioration significative des performances en termes de taux de bonne classification (TBC). Les résultats obtenus démontrent l'efficacité de cette approche, non seulement pour la détection d'images synthétiques, mais également pour la généralisation à des modèles de diffusion non vus, en entraînant ces modèles de détection sur seulement des images générées par 2 modèles de diffusion, nous avons réussi à généraliser à tous les autres modèles de diffusion. Cette recherche aborde également la tâche de l'attribution des images synthétiques à leur modèle de diffusion d'origine. Ce point est essentiel pour identifier le modèle responsable de la création d'une image synthétique, et permet de responsabiliser les développeurs en cas d'abus, afin qu'ils puissent renforcer la sécurité de leurs modèles génératifs. Les techniques d'explicabilité jouent également un rôle central dans cette recherche. Elles permettent de mieux comprendre le processus décisionnel des modèles de détection. Les explications visuelles fournies par LIME (Local Interpretable Model-Agnostic Explanations) mettent en lumière les régions spécifiques de l'image qui influencent la prédiction, qu'elle soit positive ou négative. En parallèle, les explications textuelles générées par GPT-4 Vision améliorent l'interprétabilité des résultats, facilitant ainsi la compréhension des décisions prises par les modèles de détection. Enfin, une analyse de la robustesse des modèles de détection a été effectuée afin d'évaluer leur comportement face à des attaques adverses et des perturbations. Les résultats montrent l'impact de ces perturbations sur la précision des modèles et fournissent des perspectives pour améliorer leur résilience.
The rise of generative artificial intelligence models, particularly diffusion models for synthetic image generation, has redefined our perception of visual authenticity. This technological revolution, accessible to the general public, raises critical questions about the reliability of visual information and the public’s trust in digital content. While these technologies offer vast creative possibilities, they also contribute to misinformation, especially on social media, where synthetic images can shape public opinion. Current detection models for synthetic images have proven inadequate in addressing the rapid proliferation of new diffusion models. Their inability to generalize to unseen diffusion models during training poses a significant challenge, especially since new diffusion models are continuously being released. It is crucial to develop detection models capable of effectively adapting to these previously unseen models. In this context, our research focuses on improving generalization and detection of synthetic images generated by these constantly evolving diffusion models. Our contributions are multifaceted. First, we have developed a unique dataset, IMA-SYN, comprising 11 state-of-the-art diffusion models such as GLIDE, DALL-E 2, and Stable Diffusion 3, encompassing over one million synthetic images. This dataset is the largest of its kind, integrating the most recent diffusion models for image generation. Another key contribution of this research lies in the detection of synthetic images generated by these diffusion models. By leveraging a fusion of several detection models, including ResNet, DenseNet, DeiT, and BEiT, we were able to combine their strengths, resulting in a significant improvement in classification accuracy. The results demonstrate the effectiveness of this approach, not only for synthetic image detection but also for generalization to unseen diffusion models. By training the detection models on images generated by only two diffusion models, we achieved generalization across all other diffusion models. This research also tackles the task of attributing synthetic images to their original diffusion model. This is crucial for identifying the model responsible for creating a synthetic image and holds developers accountable in cases of misuse, allowing them to enhance the security of their generative models. Explainability techniques also play a central role in this research, providing a clearer understanding of the decision-making process of detection models. The visual explanations provided by LIME (Local Interpretable Model-Agnostic Explanations) highlight specific regions of the image that influence the prediction, whether positive or negative. Additionally, the textual explanations generated by GPT-4 Vision enhance the interpretability of the results, facilitating a deeper understanding of the decisions made by the detection models. Finally, a robustness analysis of the detection models was conducted to evaluate their behavior against adversarial attacks and perturbations. The results reveal the impact of these disturbances on model accuracy and offer insights for improving their resilience.
The rise of generative artificial intelligence models, particularly diffusion models for synthetic image generation, has redefined our perception of visual authenticity. This technological revolution, accessible to the general public, raises critical questions about the reliability of visual information and the public’s trust in digital content. While these technologies offer vast creative possibilities, they also contribute to misinformation, especially on social media, where synthetic images can shape public opinion. Current detection models for synthetic images have proven inadequate in addressing the rapid proliferation of new diffusion models. Their inability to generalize to unseen diffusion models during training poses a significant challenge, especially since new diffusion models are continuously being released. It is crucial to develop detection models capable of effectively adapting to these previously unseen models. In this context, our research focuses on improving generalization and detection of synthetic images generated by these constantly evolving diffusion models. Our contributions are multifaceted. First, we have developed a unique dataset, IMA-SYN, comprising 11 state-of-the-art diffusion models such as GLIDE, DALL-E 2, and Stable Diffusion 3, encompassing over one million synthetic images. This dataset is the largest of its kind, integrating the most recent diffusion models for image generation. Another key contribution of this research lies in the detection of synthetic images generated by these diffusion models. By leveraging a fusion of several detection models, including ResNet, DenseNet, DeiT, and BEiT, we were able to combine their strengths, resulting in a significant improvement in classification accuracy. The results demonstrate the effectiveness of this approach, not only for synthetic image detection but also for generalization to unseen diffusion models. By training the detection models on images generated by only two diffusion models, we achieved generalization across all other diffusion models. This research also tackles the task of attributing synthetic images to their original diffusion model. This is crucial for identifying the model responsible for creating a synthetic image and holds developers accountable in cases of misuse, allowing them to enhance the security of their generative models. Explainability techniques also play a central role in this research, providing a clearer understanding of the decision-making process of detection models. The visual explanations provided by LIME (Local Interpretable Model-Agnostic Explanations) highlight specific regions of the image that influence the prediction, whether positive or negative. Additionally, the textual explanations generated by GPT-4 Vision enhance the interpretability of the results, facilitating a deeper understanding of the decisions made by the detection models. Finally, a robustness analysis of the detection models was conducted to evaluate their behavior against adversarial attacks and perturbations. The results reveal the impact of these disturbances on model accuracy and offer insights for improving their resilience.
Table des matières
Notes
Notes
Autre version linguistique
Ensemble de données lié
Licence
Approbation
Évaluation
Complété par
Référencé par
Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Sauf si le document est diffusé sous une licence Creative Commons, il ne peut être utilisé que dans le cadre d'une utilisation équitable et non commerciale comme le prévoit la Loi (i.e. à des fins d'étude privée ou de recherche, de critique ou de compte-rendu). Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.