Enhancing risk-based authentication with federated learning : introducing the F-RBA framework
Thèse ou mémoire / Thesis or Dissertation
Date de publication
Autrices et auteurs
Identifiant ORCID de l’auteur
Contributrices et contributeurs
Direction de recherche
Publié dans
Date de la Conférence
Lieu de la Conférence
Éditeur
Cycle d'études
Maîtrise / Master's
Programme
Affiliation
Mots-clés
- Risk-based authentication
- Federated learning
- Cybersecurity
- Privacy
- Authentification basée sur le risque
- Apprentissage fédéré
- Cybersécurité
- Vie privée
Organisme subventionnaire
Résumé
Résumé
Digital ecosystems increasingly require adaptive and privacy-preserving authentication to defend against advanced cyber threats. While conventional static mechanisms and modern passwordless solutions can be bypassed by malware, session hijacking, or credential compromise, Risk-Based Authentication (RBA) addresses these gaps by dynamically adjusting verification levels based on real-time contextual and behavioral cues, such as device type, user location, IP reputation, keystroke dynamics, and touch patterns.
This thesis introduces a Federated Risk-based Authentication (F-RBA) framework that decentralizes RBA's risk evaluation engine and data processing. Conventional centralized RBA systems require raw user data to be transmitted and stored in authentication servers, creating significant privacy risks and potential single points of failure. Rather than sending raw user data to a centralized server, each device locally trains an autoencoder-based risk evaluation model and contributes only aggregated weight updates to a global model. To handle heterogeneous and non-Independent and Identically Distributed (non-IID) data, we adopt two strategies: first, a similarity-based feature engineering method converts diverse user data (e.g., IP addresses, timestamps, and device attributes) into uniform, normalized scores according to the user's history; second, we employ FedProx at the algorithmic level to achieve faster convergence and stability in the federated setting. These measures not only strengthen overall model performance, but also keep user data under local control, significantly reducing privacy risks.
Key contributions include a federated learning pipeline for on-device risk evaluation, a comprehensive feature engineering approach to handle heterogeneous login contexts, and a cold-start solution that leverages a shared global model to protect new users who have limited history. Empirical results from a multi-user dataset confirm that F-RBA outperforms typical unsupervised anomaly detection models in detecting suspicious logins while maintaining a relatively lightweight user experience. The decentralized design enables seamless cross-device synchronization of comprehensive user profiles without sacrificing data privacy.
Les écosystèmes numériques nécessitent de plus en plus une authentification adaptative et respectueuse de la vie privée pour se défendre contre des cybermenaces avancées. Alors que les mécanismes statiques conventionnels et les solutions modernes sans mot de passe peuvent être contournés par des logiciels malveillants, des détournements de session ou des compromissions d’identifiants, l’authentification basée sur le risque (Risk-Based Authentication, RBA) comble ces lacunes en ajustant de manière dynamique les niveaux de vérification en fonction d’indices contextuels et comportementaux en temps réel, tels que le type d’appareil, la localisation de l’utilisateur, la réputation IP, la dynamique de frappe et les schémas tactiles. Cette thèse présente un cadre d’authentification basé sur le risque fédéré (Federated Risk-based Authentication, F-RBA) qui décentralise le moteur d’évaluation des risques et le traitement des données de la RBA. Les systèmes RBA centralisés conventionnels exigent que les données brutes des utilisateurs soient transmises et stockées sur des serveurs d’authentification, créant ainsi d’importants risques pour la vie privée et des points de défaillance potentiels. Plutôt que d’envoyer les données brutes des utilisateurs vers un serveur centralisé, chaque appareil entraîne localement un modèle d’évaluation des risques basé sur un autoencodeur et ne contribue qu’avec des mises à jour agrégées des poids à un modèle global. Pour gérer des données hétérogènes et non-indépendantes et identiquement distribuées (non-IID), nous adoptons deux stratégies : premièrement, une méthode d’ingénierie de caractéristiques basée sur la similarité qui convertit diverses données utilisateur (par exemple, adresses IP, horodatages et attributs des appareils) en scores uniformes et normalisés en fonction de l’historique de l’utilisateur ; deuxièmement, nous utilisons FedProx au niveau algorithmique afin d’atteindre une convergence plus rapide et une stabilité dans le cadre fédéré. Ces mesures renforcent non seulement les performances globales du modèle, mais permettent également de maintenir les données des utilisateurs sous contrôle local, réduisant ainsi significativement les risques pour la vie privée. Les contributions clés comprennent un pipeline d’apprentissage fédéré pour l’évaluation des risques directement sur l’appareil, une approche complète d’ingénierie de caractéristiques pour gérer des contextes de connexion hétérogènes, ainsi qu’une solution de démarrage à froid qui exploite un modèle global partagé pour protéger les nouveaux utilisateurs disposant d’un historique limité. Des résultats empiriques issus d’un ensemble de données multi-utilisateurs confirment que le F-RBA surpasse les modèles typiques de détection d’anomalies non supervisée dans la détection de connexions suspectes, tout en maintenant une expérience utilisateur relativement légère. La conception décentralisée permet une synchronisation fluide des profils d’utilisateurs complets entre différents appareils sans compromettre la confidentialité des données.
Les écosystèmes numériques nécessitent de plus en plus une authentification adaptative et respectueuse de la vie privée pour se défendre contre des cybermenaces avancées. Alors que les mécanismes statiques conventionnels et les solutions modernes sans mot de passe peuvent être contournés par des logiciels malveillants, des détournements de session ou des compromissions d’identifiants, l’authentification basée sur le risque (Risk-Based Authentication, RBA) comble ces lacunes en ajustant de manière dynamique les niveaux de vérification en fonction d’indices contextuels et comportementaux en temps réel, tels que le type d’appareil, la localisation de l’utilisateur, la réputation IP, la dynamique de frappe et les schémas tactiles. Cette thèse présente un cadre d’authentification basé sur le risque fédéré (Federated Risk-based Authentication, F-RBA) qui décentralise le moteur d’évaluation des risques et le traitement des données de la RBA. Les systèmes RBA centralisés conventionnels exigent que les données brutes des utilisateurs soient transmises et stockées sur des serveurs d’authentification, créant ainsi d’importants risques pour la vie privée et des points de défaillance potentiels. Plutôt que d’envoyer les données brutes des utilisateurs vers un serveur centralisé, chaque appareil entraîne localement un modèle d’évaluation des risques basé sur un autoencodeur et ne contribue qu’avec des mises à jour agrégées des poids à un modèle global. Pour gérer des données hétérogènes et non-indépendantes et identiquement distribuées (non-IID), nous adoptons deux stratégies : premièrement, une méthode d’ingénierie de caractéristiques basée sur la similarité qui convertit diverses données utilisateur (par exemple, adresses IP, horodatages et attributs des appareils) en scores uniformes et normalisés en fonction de l’historique de l’utilisateur ; deuxièmement, nous utilisons FedProx au niveau algorithmique afin d’atteindre une convergence plus rapide et une stabilité dans le cadre fédéré. Ces mesures renforcent non seulement les performances globales du modèle, mais permettent également de maintenir les données des utilisateurs sous contrôle local, réduisant ainsi significativement les risques pour la vie privée. Les contributions clés comprennent un pipeline d’apprentissage fédéré pour l’évaluation des risques directement sur l’appareil, une approche complète d’ingénierie de caractéristiques pour gérer des contextes de connexion hétérogènes, ainsi qu’une solution de démarrage à froid qui exploite un modèle global partagé pour protéger les nouveaux utilisateurs disposant d’un historique limité. Des résultats empiriques issus d’un ensemble de données multi-utilisateurs confirment que le F-RBA surpasse les modèles typiques de détection d’anomalies non supervisée dans la détection de connexions suspectes, tout en maintenant une expérience utilisateur relativement légère. La conception décentralisée permet une synchronisation fluide des profils d’utilisateurs complets entre différents appareils sans compromettre la confidentialité des données.
Table des matières
Notes
Notes
Autre version linguistique
Ensemble de données lié
Licence
Approbation
Évaluation
Complété par
Référencé par
Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Sauf si le document est diffusé sous une licence Creative Commons, il ne peut être utilisé que dans le cadre d'une utilisation équitable et non commerciale comme le prévoit la Loi (i.e. à des fins d'étude privée ou de recherche, de critique ou de compte-rendu). Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.