Fouille de séquences de mobilité sémantique : sur l'élaboration de mesures pour la comparaison, l'analyse et la découverte de comportements - Laboratoire LI, équipe BDTLN
Thèse Année : 2021

Mining Semantic Mobility Sequences: On the development of measures for comparison, analysis and discovery of discovery of behaviors

Fouille de séquences de mobilité sémantique : sur l'élaboration de mesures pour la comparaison, l'analyse et la découverte de comportements

Résumé

"Tell me what you have done, and I will tell you who you are". This aphorism, inspired from Foundation by by Isaac Asimov, questions the predictability and current understanding of humans based on their past actions. Are we what we do? This question has become a major issue in many fields such as individual profiling or recommendation systems that look for a revealing indicator of future behaviour or psychology in the past actions of users. In this thesis, we anchor the previous reflection in the framework of human mobility and propose the implementation of a complete methodology (i.e., data pipeline) for the analysis and discovery of behaviors from a set of semantic mobility sequences. This methodology is based on an extensive review of the literature on the properties of human mobility; however, it provides a generic framework for the study of any semantic sequence. An unsupervised learning process (i.e., clustering) is in charge of extracting behaviours and a post-process explicability phase is ensured in order to translate the clusters into intelligible behaviours. As a consequence, we have retained a set of complementary visual and statistical indicators to inform the different aspects of the sequences while taking care to remain sufficiently concise in order to avoid a cognitive overload. This explanation is essential for practical and ethical reasons, but also to include the user in the discovery process. Also, as the sequences involved are complex due to their temporal character and their possible semantic multi-dimensionality (locations, activities, mode of travel, etc.), we propose two new measures for the comparison of such sequences named Contextual Edit Distance and Fuzzy Temporal Hamming distance. These are respectively inspired by the edit distance and the Hamming distance, and feed the previous clustering process. These new measures are based on ontologies and fuzzy logic in order to overcome the semantic, temporal and structural shortcomings of the original distances. These contributions have been applied on different real datasets from the mobility domain -- physical (urban mobility) and virtual (database mining) and have allowed to significantly improve the process of interpretation and behaviour discovery. Finally, with the aim of reusability and sharing, a web application, SIMBA, completes our achievements in order to allow different experts to appropriate our contributions through an interactive tool for data mining and exploratory analysis. The work of this thesis is in collaboration with two ANR and regional projects: Mobi'kids, which aims to understand and characterise the forms of autonomy and conditions of evolution of the daily mobility of young children. And Smartloire, which aims to offer a set of digital tools for tourism professionals and policy makers for recommending itineraries and analysing tourist tracks in the Centre-Val de Loire region.
"Dites-moi ce que vous avez fait, je vous dirai qui vous êtes''. Cet aphorisme, inspiré du livre Fondation de Isaac Asimov, interroge sur la prédictibilité et la compréhension actuelle de l'humain basée sur ses actions passées. Sommes-nous ce que nous faisons ? Cette question est devenue aujourd'hui un enjeu majeur pour de nombreux domaines comme le profilage d'individus ou les systèmes de recommandation qui cherchent, dans les actions passées des utilisateurs, un révélateur de leurs comportements futurs ou de leur psychologie. Dans cette thèse, nous ancrons la précédente réflexion dans le cadre de la mobilité humaine et proposons la mise en place d'une méthodologie complète (i.e., data pipeline) pour l'analyse et la découverte de comportements depuis un ensemble de séquences de mobilité sémantique. Cette méthodologie se base sur un examen approfondi de la littérature concernant les propriétés de la mobilité humaine ; nonobstant, elle fournit un cadre générique pour l'étude de toute séquence à caractère sémantique. Un processus d'apprentissage non supervisé (i.e., clustering) est en charge de l'extraction des comportements et une phase d'explicabilité post-process est assurée afin de traduire les clusters en comportements intelligibles. En conséquence, nous avons retenu un ensemble d'indicateurs visuels et statistiques complémentaires venant renseigner les différents aspects des séquences tout en veillant à rester suffisamment concis afin d'éviter une surcharge cognitive. Cette explication est indispensable pour des raisons pratiques et éthiques, mais aussi pour inclure l'utilisateur dans le processus de découverte. Également, les séquences en jeu étant complexes de par leur caractère temporel et leur possible multi-dimensionnalité sémantique (lieux, activités, mode de déplacement, etc), nous proposons deux nouvelles mesures pour la comparaison de telles séquences nommées Contextual Edit Distance et Fuzzy Temporal Hamming distance. Celles-ci sont respectivement inspirées de la distance d'édition et de la distance de Hamming, et viennent alimenter le précédant processus de clustering. Ces nouvelles mesures s'appuient sur les ontologies et la logique floue afin de pallier les lacunes à la fois sémantiques, temporelles et structurelles des distances originelles. Ces apports ont été appliqués sur différents jeux de données réelles issus du domaine de la mobilité -- physique (mobilité urbaine) et virtuelle (exploration de base de données) et ont permis d'améliorer significativement le processus d'interprétation et de découverte de comportements. Enfin, dans un but de ré-utilisabilité et de partage, une application web, SIMBA, vient parachever nos réalisations afin de permettre aux différents experts de s'approprier nos contributions au travers d'un outil interactif de fouille de données et analyse exploratoire. Les travaux de cette thèse s'inscrivent en collaboration de deux projets ANR et régional: Mobi'kids qui vise à comprendre et caractériser les formes d'autonomie et conditions d’évolution des mobilités quotidiennes des jeunes enfants. Et Smartloire, dont l'objectif est d'offrir un ensemble d'outils numériques à destination des professionnels du tourisme et décideurs politiques pour la recommandation d'itinéraires et l'analyse de traces touristiques en région Centre-Val de Loire.
Fichier principal
Vignette du fichier
Phd_thesis_Clement (1).pdf (28.76 Mo) Télécharger le fichier
Origine Fichiers produits par l'(les) auteur(s)

Dates et versions

tel-03607421 , version 1 (13-03-2022)

Identifiants

  • HAL Id : tel-03607421 , version 1

Citer

Clément Moreau. Fouille de séquences de mobilité sémantique : sur l'élaboration de mesures pour la comparaison, l'analyse et la découverte de comportements. Intelligence artificielle [cs.AI]. Université de Tours, 2021. Français. ⟨NNT : ⟩. ⟨tel-03607421⟩
301 Consultations
61 Téléchargements

Partager

More