La parole : du traitement automatique à la mesure de l’intelligibilité - IRIT - Université Toulouse III Paul Sabatier
Habilitation À Diriger Des Recherches Year : 2023

La parole : du traitement automatique à la mesure de l’intelligibilité

Abstract

This document presents an overview of my work for the Habilitation à Diriger les Recherches. The first part summarizes the work, starting with the fact that speech is a temporal signal whose modeling has evolved considerably over the last twenty years. The shift from stochastic modeling, which separated acoustic and language modeling, to modeling that optimizes both parts in a single model, using deep neural representations, has been a profound paradigm shift in the community, making audio processing accessible to the general public. But this signal is highly variable, highly perturbed, but still predictable! I'll review the performance of various transcription systems and our work on anticipating the performance of recognition systems. Then I'll look at the problem of intelligibility measurement from various angles: from data collection to modelling, and from the point of view of speech perception. Initially, I approached this field by seeking to measure perceived intelligibility, with a view to improving the fitting of hearing aids for people suffering from presbycusis. I then turned my attention to measuring the intelligibility of people suffering from head and neck cancer, in order to produce an objective measure to guide treatment and medical follow-up. The second part details the two lines of research on which I wish to focus my work: the automatic modeling of prosody, in order to continue the work on rhythm representation, and secondly the automatic modeling of swallowing. This modeling will make it possible to measure pharyngo-laryngeal efficiency, and to predict the risk of complications in patients with dysphagia. The similarity of the signals captured with speech opens up the possibility of complementary, translational approaches.
Ce document présente un panorama de mes travaux en vue de passer l'Habilitation à Diriger les Recherches. La première partie synthétise les travaux en commençant par le fait que la parole, est un signal temporel, mais dont les modélisations ont beaucoup évolué au cours de ces vingt dernières années. Le passage des modélisations stochastiques, qui séparaient la modélisation acoustique et la modélisation du langage à des modélisations qui optimisent en une seule modélisation ces deux parties, en utilisant des représentations neurales profondes a constitué un changement de paradigme profond dans la communauté, qui a permis de rendre accessible les traitements audio au grand public. Mais ce signal est très variable, très perturbé, mais il reste prévisible ! Je ferai le point sur les performances des différents systèmes de transcription et de nos travaux qui cherchent à anticiper les performances des systèmes de reconnaissance. Puis je détaillerai la problématique de la mesure de l'intelligibilité, et cela sous différents aspects : de la collecte de données à la modélisation, et du point de vue de la perception de la parole. J’ai, en effet, abordé ce domaine au départ en cherchant à mesurer l’intelligibilité perçue, dans le but de pouvoir améliorer le réglage de prothèses auditives de personnes atteintes de presbyacousie. Puis je me suis plus particulièrement intéressé à la mesure d’intelligibilité de personnes atteintes de cancers de la tête et du cou, afin de pouvoir produire une mesure objective pour guider les traitements et le suivi médical. La seconde partie détaille les deux axes de recherche sur lesquels je souhaite orienter mes travaux : la modélisation automatique de la prosodie, afin de continuer les travaux sur la représentation du rythme, et d'autre part la modélisation automatique de la déglutition. Cette modélisation permettra une mesure de l'efficacité pharyngo-laryngée, et permettra de prédire les risques de complications chez des patients atteints de dysphagie. La similitude des signaux capturés avec la parole permet d'envisager des approches translationnelles et complémentaires.
Fichier principal
Vignette du fichier
HDR-JeromeFarinas-final-08.01.2024.pdf (44.94 Mo) Télécharger le fichier
Origin Files produced by the author(s)

Dates and versions

tel-04381096 , version 1 (09-01-2024)

Licence

Identifiers

  • HAL Id : tel-04381096 , version 1

Cite

Jérôme Farinas. La parole : du traitement automatique à la mesure de l’intelligibilité. Intelligence artificielle [cs.AI]. Université Paul Sabatier (Toulouse 3), 2023. ⟨tel-04381096⟩
176 View
4 Download

Share

More