An investigation of weight perturbation for mitigating Spurious Correlations
Date de publication
Autrices et auteurs
Identifiant ORCID de l’auteur
Contributrices et contributeurs
Direction de recherche
Publié dans
Date de la Conférence
Lieu de la Conférence
Éditeur
Cycle d'études
Programme
Affiliation
Mots-clés
- Spurious Correlation
- Neural Networks
- Apprentissage Automatique
- Réseaux de Neurones
- Mémorisation
- Perturbation des Poids
- Machine Learning
- Memorization
- Weight Perturbation
- Spurious Features
- Deep Learning
- Caractéristiques Spuriées
- Corrélation Spuriée
- Apprentissage Profond
Organisme subventionnaire
Résumé
Les corrélations spurielles—des motifs non causaux présents dans les données—posent un défi significatif pour la généralisation et l'équité des systèmes d'apprentissage profond. Ces caractéristiques, bien qu'elles ne soient pas les caractéristiques principales d'intérêt, conduisent souvent à des prédictions biaisées. Ce biais défavorise particulièrement les groupes minoritaires ou des sous-ensembles des données où ces caractéristiques ne sont pas alignées avec les caractéristiques principales (exemples conflictuels). Atténuer ce problème est crucial pour assurer un déploiement robuste des modèles d'apprentissage automatique dans des environnements réels. Dans ce travail, nous confirmons d'abord la dépendance des modèles d'apprentissage profond aux corrélations spurielles. En outre, nous étudions l'effet de la perturbation des paramètres du modèle sur les exemples conflictuels. Grâce à des expériences sur deux ensembles de données de référence, nous démontrons l'impact prononcé des perturbations de poids sur les exemples conflictuels. Enfin, nous utilisons cette perspicacité pour concevoir une procédure d'entraînement qui guide le modèle vers l'apprentissage de caractéristiques plus robustes. Nous introduisons une nouvelle approche d'atténuation qui combine l'inférence basée sur la perturbation suivie d'un processus d'affinage. Notre méthode améliore notablement la précision du pire groupe avec une charge de calcul minimale, ce qui en fait une solution pratique pour améliorer la robustesse du modèle, en particulier dans les cas où l'attribut spécieux n'est pas disponible pendant l'entraînement ou la validation. Ces résultats soulignent le potentiel des perturbations de poids comme outil pour améliorer l'équité et la robustesse des modèles.
Spurious features—non-causal patterns present in the data—pose a significant challenge to the generalization and fairness of deep learning systems. These features, although not the core features of interest, often lead to biased predictions. This bias particularly disadvantages minority groups or subsets of the data where these features are not aligned with the core features (conflicting samples). Mitigating this issue is crucial for ensuring robust deployment of machine learning models in real-world environments. In this work, we first confirm the reliance of deep learning models on spurious features. Furthermore, we investigate the effect of perturbing the model's parameters on conflicting samples. Through experiments on two benchmark datasets, we demonstrate the pronounced impact of weight perturbations on conflicting samples. Finally, we use this insight to design a training procedure that guides the model towards learning more robust features. We introduce a novel mitigation approach that combines perturbation-based inference followed by a fine-tuning process. Our method notably enhances worst-group accuracy with minimal computational overhead, making it a practical solution for improving model robustness, especially in cases where the spurious attribute is not available during training or validation. These results underscore the potential of weight perturbations as a tool to boost model fairness and robustness.