190
pages
Français
Documents
Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres
190
pages
Français
Ebook
Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres
Université
duMaine
Universite du Maine
TRANSCRIPTION AUTOMATIQUE DE LA
PAROLE SPONTANÉE
THESE
presentee et soutenue publiquement le 1 decembre 2010
pour l’obtention du
Doctorat de l’Universite du Maine
(specialite informatique)
par
RICHARD DUFOUR
Composition du jury
Presidente : Mme Martine Adda-Decker Directrice de Recherche LPP, CNRS, Paris 3
Rapporteurs : M. Guillaume Gravier Charge de Recherche IRISA, CNRS, Rennes 1
M. Denis Jouvet Directeur de Recherche LORIA, INRIA, Nancy
Examinateurs : M. Paul Deleglise Professeur LIUM, Universite du Maine
M. Yannick Esteve Universite du
Laboratoire d’Informatique de l’Universite du MaineRemerciements
Cette page met un point final à la rédaction de ce manuscrit. Conscient de l’attente qu’elle
suscite, et afin d’éviter tout oubli, je vais tout d’abord commencer par remercier toute personne
ayant participé de près ou de loin à ce travail de thèse. Sachez que sans ces interactions, ce ma-
nuscrit n’aurait pu voir le jour. Ceci étant fait, je vais maintenant pouvoir sereinement détailler
ces remerciements.
Je voudrais remercier en premier lieu Yannick Estève et Paul Deléglise pour m’avoir en-
cadré pendant ces trois années. Sans votre participation active, votre patience, vos nombreux
conseils ainsi que vos remarques éclairées, ce travail n’aurait pu voir le jour. Vous avez toujours
su trouver les mots pour me remotiver après (quelques) “échecs”, ponctués quand même de
“succès” qui m’ont amenés à présenter mes travaux de recherche aux quatre coins du globe. Un
encadrement de cette qualité est une chance, et je souhaite à tout doctorant de pouvoir travailler
dans ces conditions.
Je tiens également à exprimer mes remerciements aux membres du jury pour le temps passé
à relire et annoter ce manuscrit. Je remercie Guillaume Gravier, Chargé de Recherche à l’Irisa,
Université de Rennes 1, ainsi que Denis Jouvet, Directeur de Recherche au Loria, Université de
Nancy, pour avoir accepté d’être les rapporteurs de cette thèse. Je remercie également Martine
Adda-Decker, Directrice de Recherche au LPP, Université de Paris 3, pour m’avoir fait l’hon-
neur de présider ce jury de thèse. Vos différentes remarques ainsi que vos conseils judicieux
m’ont permis d’améliorer ce manuscrit. Les discussions que nous avons eues au cours de la
soutenance de thèse me permettront d’approfondir mes travaux de recherche.
Je remercie tout particulièrement Monika Woszczyna pour m’avoir permis de travailler
quelques mois au sein de l’entreprise M*Modal à Pittsburgh. Ce séjour de recherche restera
pour moi une des expériences les plus enrichissantes, tant au niveau professionnel qu’au niveau
humain. Je souhaite également remercier mes collègues de bureau Elisa Vettier, Rebeca Dosal,
Melody Hauber, Ehsan Variani et Dominic Telaar, pour cette agréable ambiance de travail et
ce plaisir à travailler au quotidien. Je tiens à remercier Thomas Schaaf, Werakul Laoworakiat,
Shahid Durrani, Matthew Flint et Mark Fuhs pour leur accueil dans l’équipe, ainsi que pour
l’aide apportée. Enfin, je souhaite terminer cette parenthèse “made in USA” en remerciant la
famille Vettier, dont la générosité dépasse largement le cadre de l’entraide americano-française.
Merci de m’avoir consacré autant de votre temps lors des diverses sorties que nous avons eues,
de m’avoir aidé à maintes et maintes reprises, et de m’avoir accueilli comme un membre de
votre famille.
Je tiens à exprimer mes remerciements envers l’ensemble du personnel du LIUM. Pour
leur sympathie et leur aide précieuse, je remercie Sylvain Meignier, Teva Merlin, Bruno Jacob
ainsi qu’Étienne Micoulaut. Je n’oublie pas non plus Martine Turmeau, secrétaire du labora-
toire, qui m’a toujours aiguillé dans les méandres de l’administration. Je remercie également
Benoît Favre, Mickaël Rouvier, Frédéric Béchet et Georges Linarès pour avoir eu le privilège
de travailler avec eux et pour avoir passé d’excellents moments pendant les diverses conférences
auxquelles nous avons assistées.
iParmi les nombreux points positifs apportés par cette thèse, je ne pourrais pas ne pas citer
mes collègues de bureau qui m’ont accompagné depuis le début de cette aventure : Thierry
Bazillon, Vincent Jousse et Antoine Laurent. Merci de m’avoir supporté au quotidien, ce qui,
je le conçois, n’est pas une mince affaire. J’ai, pour ma part, vécu de très grands moments avec
vous, et ai pris plaisir à venir travailler tous les jours. Merci d’avoir constitué le meilleur remède
anti-déprime. Même si nos chemins se séparent, cette amitié perdurera au delà de cette thèse.
Je remercie également Fethi Bougares pour avoir complété l’équipe après le départ “Plein Sud”
de Thierry. Je terminerai cette partie en remerciant Gaël Salaün, ancien Ingénieur d’Étude du
laboratoire, pour tous les excellents moments partagés ensemble (et qui, d’ailleurs, devraient
continuer).
Je remercie ma famille de m’avoir toujours apporté son soutien et ses encouragements.
Merci d’avoir fait le déplacement pour assister à ma soutenance de thèse, qui, je l’espère, vous
aura donné un aperçu du travail réalisé. Je mesure donc la chance que j’ai, et vous remercie
pour tout ce que vous m’avez apporté, m’apportez, et m’apporterez au quotidien.
Enfin, je conclurai en remerciant Élodie pour avoir été présente ces dernières années et avoir
participé très activement à la relecture de ce manuscrit. Ce travail a parfois demandé quelques
sacrifices, que tu as tout le temps accepté.
Merci à tous et bonne lecture.
iiTable des matières
Table des figures ix
Liste des tableaux xi
Acronymes 1
Introduction 3
1 Le projet ANR EPAC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2 Problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3 Structure du document . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
Partie I Contexte de travail et état de l’art 9
Chapitre 1
Reconnaissance de la parole 11
1.1 Principe de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2 Extraction de paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3 Modèles acoustiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3.1 Modèles de Markov Cachés . . . . . . . . . . . . . . . . . . . . . 15
1.3.2 Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.3.2.1 Techniques . . . . . . . . . . . . . . . . . . . . . . . . 17
iiiTable des matières
1.3.2.2 Dictionnaire de phonétisation . . . . . . . . . . . . . . . 17
1.3.2.3 Alignement phonème/signal . . . . . . . . . . . . . . . 18
1.3.3 Adaptation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.3.3.1 Méthode MLLR . . . . . . . . . . . . . . . . . . . . . . 19
1.3.3.2 Adaptation SAT-CMLLR . . . . . . . . . . . . . . . . . 20
1.3.3.3 Méthode MAP . . . . . . . . . . . . . . . . . . . . . . . 20
1.4 Modèle de langage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.4.1 Modèle n-gramme . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.4.2 Estimation des probabilités . . . . . . . . . . . . . . . . . . . . . 22
1.4.3 Lissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.4.4 Évaluation du modèle de langage . . . . . . . . . . . . . . . . . . 23
1.4.5 Mesures de confiance . . . . . . . . . . . . . . . . . . . . . . . . 24
1.4.5.1 Théorie . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.4.5.2 Évaluation des mesures de confiance . . . . . . . . . . . 24
1.4.6 Évaluation des systèmes de RAP . . . . . . . . . . . . . . . . . . 25
1.5 Système du LIUM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.5.1 Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.5.1.1 Données d’apprentissage . . . . . . . . . . . . . . . . . 26
1.5.1.2 Vocabulaire . . . . . . . . . . . . . . . . . . . . . . . . 28
1.5.1.3 Modèles acoustiques . . . . . . . . . . . . . . . . . . . 29
1.5.1.4 de langage . . . . . . . . . . . . . . . . . . . . 30
1.5.2 Transcription . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.5.2.1 Système de segmentation et de regroupement en locuteurs 31
1.5.2.2 de transcription multi-passes . . . . . . . . . . 31
1.6 Campagnes d’évaluation ESTER 1 et 2 . . . . . . . . . . . . . . . . . . . 32
Chapitre 2
Traitement de la parole spontanée 35
2.1 Spécificités de la parole spontanée . . . . . . . . . . . . . . . . . . . . . . 36
2.1.1 Les disfluences . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.1.1.1 Les pauses . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.1.1.2 Les troncations, répétit