Unsupervised STDP-based Feature Learning for Video Analysis with Spiking Neural Networks
Apprentissage non supervisé basé sur le STDP pour l'analyse vidéo avec des réseaux neuronaux impulsionnels
Résumé
A substantial amount of visual data is publicly released on a daily basis, with a significant portion of this data comprising videos. This has rendered video analysis an important endeavor in the computer vision field. Among the various video analysis tasks, Human Action Recognition (HAR) holds significant importance due to its applications across numerous domains, such as surveillance, human-machine interaction, autonomous vehicles, healthcare, security, and military sectors. Deep convolutional neural networks currently stand as the state-of-the-art for HAR. However, these networks come with high computational costs, which limit their usage on energy-constrained devices. They also rely generally on supervised learning, which necessitates vast amounts of labeled data for training. Spiking neural networks (SNNs) are models that process the information in the form of low-energy spikes, instead of regular values. These third generation neural network can overcome the bottlenecks of traditional Artificial Neural Networks (ANNs), when implemented on neuromorphic hardware, such as the widespread energy efficiency problem. However, supervised SNN training methods, like ANN-to-SNN conversion and spiking backpropagation, have their own limitations, such as the requirement of a large amount of labeled data for training. On the other hand, SNNs can leverage unsupervised learning rules, such as the Spike Timing-Dependent Plasticity (STDP) rule, reducing their dependency on labeled data. Despite these advantages, unsupervised SNNs still face challenges in reaching the performance levels of ANNs on complex data. Thus, understanding how an STDP-based SNN can efficiently learn spatio-temporal features becomes crucial in the pursuit of enhancing their performance for human action recognition tasks. This thesis covers knowledge in computer vision and motion modeling, as well as SNN topics.
In this manuscript, our main objective is to learn spatio-temporal features and perform video analysis with SNNs in an unsupervised manner using the STDP learning rule. We investigate ways to close the performance gap between SNNs and their non-spiking counterparts when processing spatio-temporal data. Therefore, the first contribution in this manuscript is to study the feature extraction capabilities of an STDP-based Convolutional Spiking Neural Network (CSNN) with different static representations of motion. Motion modeling methods are introduced, categorized into frame-based and shot-based representations, and processed using a 2D CSNN. This produces a clear baseline of the capability of these models to extract spatio-temporal features from different types of motion representations. Our second contribution is to present the first STDP-based 3D CSNN model that can extract spatio-temporal features naturally from videos, without requiring extra motion modeling steps. This model outperforms 2D CSNNs for video analysis, especially with longer videos. Then, in our third contribution, we explore the possibility of reducing the number of parameters of these networks by attempting spiking separated spatial and temporal convolutions (S3TCs). This not only reduces the computational cost of these networks even further, but also potentially reduces the complexity for implementing these networks on neuromorphic hardware. S3TCs outperform 3D CSNNs, and produce a higher spiking activity at the output, which potentially reduces the severity of the spike vanishing problem. Our fourth contribution introduces spiking STDP-based two-stream CSNNs. Two-stream methods are effective spatio-temporal feature extraction methods, with state-of-the-art performance on HAR tasks in the non-spiking domain. Therefore, we use spiking spatial and temporal streams based on CSNNs to obtain spatio-temporal features. This produces an assessment of the capability of these unsupervised STDP-based models to extract effective spatio-temporal features in the spiking domain.
Chaque jour, une quantité importante de données visuelles est rendue publique, dont une grande partie est constituée de vidéos. L'analyse vidéo est donc devenue une tâche importante dans le domaine de la vision par ordinateur. Parmi les différentes tâches d'analyse vidéo, la reconnaissance des action humaines (HAR) revêt une importance significative en raison de ses applications dans de nombreux domaines, tels que la surveillance, les interactions homme-machine, les véhicules autonomes, la santé, la sécurité et le secteur militaire. Les réseaux neuronaux convolutionnels profonds constituent actuellement l'état de l'art en matière de reconnaissance des actions humaines, mais leur coût de calcul élevé limite leur utilisation sur les appareils à faible consommation d'énergie. En outre, ils reposent exclusivement sur l'apprentissage supervisé, qui nécessite de grandes quantités de données étiquetées pour leurs formation. Les réseaux neuronaux à impulsions (SNN) sont des modèles qui traitent les informations sous forme d’impulsions à faible énergie, au lieu de valeurs numériques. Ces derniers peuvent surmonter les goulots d'étranglement des réseaux neuronaux artificiels (RNA) traditionnels tels que le problème de l'efficacité énergétique, lorsqu'ils sont mis en œuvre sur du matériel neuromorphique. Toutefois, les méthodes d'apprentissage supervisé des SNN, telles que la conversion ANN-SNN et la rétropropagation à impulsions, ont leurs propres limites, notamment la nécessité d'une grande quantité de données étiquetées pour l'apprentissage. D'autre part, les SNN peuvent tirer parti de règles d'apprentissage non supervisées, telles que la règle de plasticité fonction du temps d'occurrence des impulsions (STDP), ce qui réduit leur dépendance aux données étiquetées. Malgré ces avantages, les SNN non supervisés doivent encore relever des défis pour atteindre les niveaux de performance des ANN sur des données complexes. Ainsi, comprendre comment un SNN basé sur la STDP peut apprendre efficacement les caractéristiques spatio-temporelles devient crucial dans la poursuite de l'amélioration de leur performance pour les tâches d’HAR. Cette thèse couvre les connaissances en vision par ordinateur et en modélisation du mouvement, ainsi que les sujets relatifs aux SNN.
Dans cette thèse, notre objectif principal est d'apprendre des caractéristiques spatio-temporelles et effectuer une analyse vidéo avec des SNN de manière non supervisée en utilisant la règle d'apprentissage STDP. Nous étudions les moyens de combler l'écart de performance entre les SNN et leurs homologues non impulsionnels lors du traitement des données spatio-temporelles. Par conséquent, la première contribution de cette thèse est d'étudier les capacités d'extraction de caractéristiques d'un réseau neuronal convolutif à impulsion (CSNN) basé sur la STDP avec différentes représentations statiques du mouvement. Les méthodes de modélisation du mouvement sont introduites, catégorisées en représentations basées sur les trames ou basées sur les séquences, et traitées à l'aide d'un CSNN 2D. On obtient ainsi un référentiel clair de la capacité de ces modèles à extraire des caractéristiques spatio-temporelles à partir de différents types de représentations du mouvement. Notre deuxième contribution est de présenter le premier modèle CSNN 3D basé sur la STDP qui peut extraire des caractéristiques spatio-temporelles naturellement à partir de vidéos, sans nécessiter d'étapes supplémentaires de modélisation du mouvement. Ce modèle est plus performant que les CSNN 2D pour l'analyse vidéo, en particulier pour les vidéos plus longues. Ensuite, dans notre troisième contribution, nous explorons la possibilité de réduire le nombre de paramètres de ces réseaux en essayant des convolutions spatiales et temporelles séparées (S3TC). Cela permet non seulement de réduire davantage le nombre de paramètres entraînables de ces réseaux, mais aussi de réduire potentiellement la complexité matérielle pour leur mise en œuvre sur du matériel neuromorphique. Les S3TC sont plus performants que les CSNN 3D et produisent une activité plus élevée à la sortie, ce qui réduit potentiellement l’ampleur du problème de disparition des impulsions. Notre quatrième contribution présente des CSNN à deux flux basés sur la STDP. Les méthodes à deux flux sont des méthodes efficaces d'extraction de caractéristiques spatio-temporelles, avec des performances de pointe sur les tâches HAR dans le domaine traditionnel. Par conséquent, nous utilisons des flux spatiaux et temporels à impulsions basés sur des CSNN pour obtenir des caractéristiques spatio-temporelles. Cela permet d'évaluer la capacité de ces modèles non supervisés basés sur les STDP à extraire des caractéristiques spatio-temporelles efficaces dans le domaine des impulsions.
Domaines
Informatique [cs]Origine | Fichiers produits par l'(les) auteur(s) |
---|