Human action recognition based on skeleton graph neural networks using self-distillation
Date de publication
Autrices et auteurs
Contributrices et contributeurs
Direction de recherche
Publié dans
Date de la Conférence
Lieu de la Conférence
Éditeur
Cycle d'études
Programme
Affiliation
Mots-clés
- Reconnaissance des Actions Humaines
- Réseaux de Neurones Graphiques
- Self-distillation
- Anomaly Detection
- Réseaux de Neurones Graphiques basés sur les Squelettes
- Détection de Chutes
- Auto-distillation
- Détection des Anomalies
- Human Action Recognition
- Graph Neural Networks
- Skeleton Graph Neural Networks
- Fall Detection
Organisme subventionnaire
Résumé
La reconnaissance des actions humaines (Human Action Recognition, HAR) trouve de nombreuses applications dans divers domaines, notamment la vidéosurveillance pour détecter les actions anormales et les soins de santé pour surveiller les activités physiques des patients en vue d’un diagnostic et d’un aitement précoces. Malgré son importance, la HAR fait face à d’importants défis. Les inquiétudes liées à la confidentialité sont particulièrement préoccupantes dans la surveillance vidéo, où les données personnelles risquent d’être exposées. De plus, la nécessité de reconnaissance en temps réel est cruciale, compte tenu de la brièveté de certaines actions individuelles et de la continuité des mouvements quotidiens. Cependant, atteindre une reconnaissance en temps réel reste difficile en raison de la lourdeur computationnelle des modèles populaires mais complexes. Par ailleurs, le coût élevé de l’acquisition de données annotées constitue un autre obstacle majeur. Cette thèse aborde ces défis en se concentrant sur la HAR à l’aide de réseaux de neurones de graphes (Graph Neural Networks, GNN) basés sur une représentation simplifiée de squelette humain. Ces réseaux fonctionnent sur des squelettes humains extraits de vidéos RGB, offrant une approche respectueuse de la confidentialité en supprimant les caractéristiques faciales identifiables et le contexte environnemental. Afin de fournir une synthèse complète de l’état actuel des GNN basés sur les squelettes pour la HAR, ce travail présente dans un prémier temps une revue approfondie des recherches existantes, en analysant les topologies des squelettes, les cadres méthodologiques, les ensembles de données et en proposant une nouvelle taxonomie des méthodes HAR. Deux problèmes clés sont ensuite abordés dans cette thèse. Le premier concerne l’extraction efficace et précise des représentations (caractéristiques) pour la reconnaissance en temps réel. Un GNN léger supervisé est proposé, formé par auto-distillation pour apprendre et compresser le modèle neuronal simultanément. Les résultats expérimentaux montrent que le GNN peut être compressé jusqu’à 80% tout en maintenant des performances compétitives. Le deuxième problème porte sur l’extraction des représentations sans données annotées. Cette thèse introduit des stratégies innovantes d’échantillonnage négatif dans le cadre de l’auto-distillation pour l’apprentissage auto-supervisé, particulièrement efficaces pour la détection des chutes et quasi-chutes. Pour évaluer l’efficacité de l’extracteur de représentations léger dans des contextes de reconnaissance en temps réel, le GNN supervisé est réutilisé pour des tâches de détection d’anomalies en combinaison avec des méthodes traditionnelles d’apprentissage automatique. Les résultats montrent que les représentations entraînées sur des tâches de reconnaissance multi-actions surpassent largement les exigences de base pour la détection d’anomalies. Dans l’ensemble, ce travail propose deux méthodologies novatrices pour obtenir des extracteurs de représentations efficaces pour la HAR, sous supervision et par auto-supervision. Des évaluations approfondies démontrent l’efficacité des méthodes, notamment dans les scénarios de détection d’anomalies. Cependant, certaines améliorations restent possibles. Les approches actuelles se concentrent principalement sur les actions d’un seul sujet, accordant peu d’attention aux interactions humain-objet ou multi-sujets. Pour relever les défis liés aux scénarios d’actions complexes, tels que les interactions humain-objet ou multi-sujets, les travaux futurs pourront explorer deux axes principaux: l’amélioration de la topologie des squelettes et l’élargissement des modalités de caractéristiques. La topologie des squelettes peut être améliorée en résolvant les problèmes d’occultations et en augmentant la résolution des squelettes ; tandis que l’élargissement des modalités peut inclure l’ajout de modalités d’actions telles que l’audio et les textes, l’intégration des objets, ainsi que la prise en compte de l’environnement.
Human Action Recognition (HAR) has numerous applications across diverse domains, including video surveillance to detect abnormal actions and healthcare to monitor patients' physical activities for early diagnosis and treatment. Despite its importance, HAR faces significant challenges. Privacy concerns are prominent, especially in video-based surveillance, where personal data is at risk of exposure. Furthermore, the need for real-time recognition is critical, given the brief duration of individual actions and the continuity of daily movements. However, achieving real-time recognition is challenging due to the computational overhead of popular but heavyweight models. Additionally, the high cost of obtaining labeled action data poses another obstacle. This thesis addresses these challenges by focusing on HAR using skeleton-based Graph Neural Networks (GNNs). These networks operate on human skeletons extracted from RGB videos, offering a privacy-preserving approach by removing identifiable facial features and environmental context. To comprehensively summarize the current state of skeleton-based GNNs in HAR, this work presents an extensive review of existing research, analyzing skeleton topologies, methodological frameworks, datasets, and proposing a novel taxonomy for HAR methods. Two key problems are tackled in this thesis. The first is the efficient and accurate representation extraction for real-time recognition, where a supervised lightweight GNN is proposed, trained using self-distillation to simultaneously learn and compress the model. Experimental results demonstrate that the GNN can be compressed by up to 80% while maintaining competitive performance. The second problem is representation extraction without labeled action data. This thesis introduces innovative falling negative sampling strategies within the self-distillation framework for self-supervised learning. These strategies are particularly effective for fall and near-fall detection tasks. To evaluate the lightweight representation extractor's efficiency for real-time recognition, the supervised lightweight GNN is repurposed for anomaly detection tasks in combination with traditional machine learning methods. The results show that the representations trained by multi-action recognition task significantly outperforms the baseline requirements for anomaly detection. Overall, this work contributes two novel methodologies for obtaining effective representation extractors for HAR under both supervised and self-supervised settings. Comprehensive evaluations demonstrate the method’s efficency, particularly in anomaly detection scenarios. However, there remain areas for improvements. Current approaches in this work predominantly focus on single-subject actions, with limited attention given to human-object interactions or multi-subject interactions. To tackle more complex action scenarios such as human-object interacted actions, multiple-subject interacted actions, the future work can focus on two directions, which are the enhancement of skeleton topology and the expanding of skekeleton feature modalities.The skeleton topology can be improved by solving occlusions, and increasing skeleton resolution; while the expanding of skeleton feature modalities can be addressed by adding action modalities such as audio and texts, providing object modality, and corporating with environment modality.