Re-weighted softmax cross-entropy to control forgetting in federated learning
Thèse ou mémoire / Thesis or Dissertation
Date de publication
Autrices et auteurs
Identifiant ORCID de l’auteur
Contributrices et contributeurs
Direction de recherche
Publié dans
Date de la Conférence
Lieu de la Conférence
Éditeur
Cycle d'études
Maîtrise / Master's
Programme
Affiliation
Mots-clés
- Federated Learning
- Client Drift
- Out of Distribution Generalization
- Catastrophic Forgetting
- Apprentissage fédéré
- Dérive du client
- Généralisation hors distribution
- Oubli catastrophique
Organisme subventionnaire
Résumé
Résumé
Dans l’apprentissage fédéré, un modèle global est appris en agrégeant les mises à jour du
modèle calculées à partir d’un ensemble de nœuds clients, un défi clé dans ce domaine est
l’hétérogénéité des données entre les clients qui dégrade les performances du modèle. Les
algorithmes d’apprentissage fédéré standard effectuent plusieurs étapes de gradient avant
de synchroniser le modèle, ce qui peut amener les clients à minimiser exagérément leur
propre objectif local et à s’écarter de la solution globale. Nous démontrons que dans un tel
contexte, les modèles de clients individuels subissent un oubli catastrophique par rapport
aux données d’autres clients et nous proposons une approche simple mais efficace qui
modifie l’objectif d’entropie croisée sur une base par client en repondérant le softmax de les
logits avant de calculer la perte. Cette approche protège les classes en dehors de l’ensemble
d’étiquettes d’un client d’un changement de représentation brutal. Grâce à une évaluation
empirique approfondie, nous démontrons que notre approche peut atténuer ce problème,
en apportant une amélioration continue aux algorithmes d’apprentissage fédéré standard.
Cette approche est particulièrement avantageux dans les contextes d’apprentissage fédéré
difficiles les plus étroitement alignés sur les scénarios du monde réel où l’hétérogénéité des
données est élevée et la participation des clients à chaque cycle est faible. Nous étudions
également les effets de l’utilisation de la normalisation par lots et de la normalisation de
groupe avec notre méthode et constatons que la normalisation par lots, qui était auparavant
considérée comme préjudiciable à l’apprentissage fédéré, fonctionne exceptionnellement bien
avec notre softmax repondéré, remettant en question certaines hypothèses antérieures sur la
normalisation dans un système fédéré
In Federated Learning, a global model is learned by aggregating model updates computed from a set of client nodes, a key challenge in this domain is data heterogeneity across clients which degrades model performance. Standard federated learning algorithms perform multiple gradient steps before synchronizing the model which can lead to clients overly minimizing their own local objective and diverging from the global solution. We demonstrate that in such a setting, individual client models experience a catastrophic forgetting with respect to data from other clients and we propose a simple yet efficient approach that modifies the cross-entropy objective on a per-client basis by re-weighting the softmax of the logits prior to computing the loss. This approach shields classes outside a client’s label set from abrupt representation change. Through extensive empirical evaluation, we demonstrate our approach can alleviate this problem, providing consistent improvement to standard federated learning algorithms. It is particularly beneficial under the challenging federated learning settings most closely aligned with real world scenarios where data heterogeneity is high and client participation in each round is low. We also investigate the effects of using batch normalization and group normalization with our method and find that batch normalization which has previously been considered detrimental to federated learning performs particularly well with our re-weighted softmax, calling into question some prior assumptions about normalization in a federated setting
In Federated Learning, a global model is learned by aggregating model updates computed from a set of client nodes, a key challenge in this domain is data heterogeneity across clients which degrades model performance. Standard federated learning algorithms perform multiple gradient steps before synchronizing the model which can lead to clients overly minimizing their own local objective and diverging from the global solution. We demonstrate that in such a setting, individual client models experience a catastrophic forgetting with respect to data from other clients and we propose a simple yet efficient approach that modifies the cross-entropy objective on a per-client basis by re-weighting the softmax of the logits prior to computing the loss. This approach shields classes outside a client’s label set from abrupt representation change. Through extensive empirical evaluation, we demonstrate our approach can alleviate this problem, providing consistent improvement to standard federated learning algorithms. It is particularly beneficial under the challenging federated learning settings most closely aligned with real world scenarios where data heterogeneity is high and client participation in each round is low. We also investigate the effects of using batch normalization and group normalization with our method and find that batch normalization which has previously been considered detrimental to federated learning performs particularly well with our re-weighted softmax, calling into question some prior assumptions about normalization in a federated setting
Table des matières
Notes
Notes
Autre version linguistique
Ensemble de données lié
Licence
Approbation
Évaluation
Complété par
Référencé par
Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Sauf si le document est diffusé sous une licence Creative Commons, il ne peut être utilisé que dans le cadre d'une utilisation équitable et non commerciale comme le prévoit la Loi (i.e. à des fins d'étude privée ou de recherche, de critique ou de compte-rendu). Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.