TITRE : ACQUISITION AUTOMATIQUE DE TRADUCTIONS D’UNITES LEXICALES COMPLEXES A PARTIR DU WEB Tome I
Directeur de thèse : Jean VERONIS
JURY Mme Béatrice DAILLE (Université de Nantes, examinateur) Mme Violaine PRINCE (Université de Montpellier 2, rapporteur) Mme Pascale SEBILLOT (INSA, Rennes, rapporteur) M. Jean VERONIS (Université de Provence, directeur)
Remerciements
Cette thèse est le fruit d’un travail interdisciplinaire, mêlant à la fois une culture linguistique et informatique, qui m’ont été transmises au contact de personnes dont le panel varié des domaines de recherche ont constitué un éventail d’échanges enrichissants.
Je pense à mon directeur de thèse, Jean Véronis, dont l’implication et le soutien ont été sans limite, depuis mon arrivée à l’Université de Provence. C’est grâce à sa passion et à son enthousiasme pendant mes premiers cours de licence que je me suis orientée vers des études en traitement automatique de la sémantique lexicale. Tout au long de mon parcours universitaire, il a su m’apporter de précieux conseils et m’a transmis son expérience et ...
AIX MARSEILLE U IVERSITE
********
Université de Provence
N° attribué par la bibliothèque
|__|__|__|__|__|__|__|__|__|__|
THESE
pour obtenir le grade de
DOCTEUR D’AIX MARSEILLE U IVERSITE
Formation doctorale :
Cognition, Langage, Education (mention Traitement Automatique)
Présentée et soutenue publiquement
Par
Stéphanie LEON
le lundi 8 décembre 2008
TITRE :
ACQUISITION AUTOMATIQUE DE TRADUCTIONS D’UNITES LEXICALES
COMPLEXES A PARTIR DU WEB
Tome I
Directeur de thèse :
Jean VERONIS
JURY
Mme Béatrice DAILLE (Université de Nantes, examinateur)
Mme Violaine PRINCE (Université de Montpellier 2, rapporteur)
Mme Pascale SEBILLOT (INSA, Rennes, rapporteur)
M. Jean VERONIS (Université de Provence, directeur)
Remerciements
Cette thèse est le fruit d’un travail interdisciplinaire, mêlant à la fois une culture linguistique
et informatique, qui m’ont été transmises au contact de personnes dont le panel varié des
domaines de recherche ont constitué un éventail d’échanges enrichissants.
Je pense à mon directeur de thèse, Jean Véronis, dont l’implication et le soutien ont été sans
limite, depuis mon arrivée à l’Université de Provence. C’est grâce à sa passion et à son
enthousiasme pendant mes premiers cours de licence que je me suis orientée vers des études
en traitement automatique de la sémantique lexicale. Tout au long de mon parcours
universitaire, il a su m’apporter de précieux conseils et m’a transmis son expérience et sa
rigueur du travail. Je le remercie également pour son soutien psychologique tout au long de
mes années de thèse et ses échanges qui m’ont toujours stimulée et remotivée dans les
moments de doute.
En ce qui concerne mon cadre de recherche, je remercie tous les membres de l’ancienne
équipe DELIC (Description Linguistique Informatisée sur Corpus), nouvellement TALEP
(Traitement Automatique du Langage Ecrit et Parlé), qui m’a accueillie durant mes années de
thèse, à l’Université de Provence. Je remercie Estelle Véronis, pour son amitié, son soutien et
le partage de son expérience. Elle a toujours su être à l’écoute et m’apporter des conseils
avisés lorsque j’en ai eu besoin. Je pense à Laure Brieussel pour son enthousiasme et ses
conseils. Je remercie les autres doctorants avec qui j’ai eu le plaisir de travailler au
quotidien, et de partager doutes, expérience et bonne humeur, Chrystel Millon pour sa
complicité, Alice Carne, Rémi Bove, Emilie Chételat et Loïc Kervajean. Je pense enfin à tous
les autres membres de l’équipe.
Je remercie également l’équipe du LIRMM (Laboratoire d'Informatique, de Robotique et de
Microélectronique de Montpellier), qui est mon équipe de recherche d’accueil pour cette
année en cours, durant ma dernière année d’ATER. Je remercie tout particulièrement
Violaine Prince pour son accueil très chaleureux, pour son enthousiasme stimulant et pour sa
participation active en tant que rapporteur au sein de mon jury de thèse. Je pense également
à Mathieu Lafourcade dont l’accueil et la passion pour la recherche m’a apporté un cadre de
travail convivial. Je pense également à tous les autres membres de l’équipe, qui m’ont réservé
un accueil enthousiaste.
En ce qui concerne mon cadre d’enseignement, je remercie l’équipe du CILSH (Centre
Informatique pour les Lettres et Sciences Humaines) de l’Université de Provence, qui a su
m’apporter une atmosphère de travail absolument remarquable, par sa bonne humeur et son
soutien sans faille, durant mes trois années de monitorat et ma première année d’ATER :
Christophe Mathieu, pour son amitié et ses conseils toujours avisés et stimulants, Gérard
Della Ragione pour son précieux soutien et son encadrement durant mes premières années
d’enseignement, Marie Thérèse Ponsonnet pour sa bonne humeur communicative, Jean Luc
Péris pour sa présence chaleureuse, sans oublier tous les autres membres de l’équipe. J’ai
également une pensée émue à la mémoire d’Henri Tournier.
Je remercie également l’équipe MIAp (Mathématiques Informatique Appliquées) de
l’université Montpellier III, où j’ai actuellement le plaisir d’enseigner, pour ma dernière
année d’ATER et dans laquelle j’ai été agréablement accueillie. Je remercie Christian
Lavergne et Patrice Séébold qui m’ont permis de m’intégrer dans le département MIAp, pour
leur accueil amical et chaleureux. Je pense naturellement à mes collègues enseignants
d’informatique, Sandra Bringay, Alexandre Pinlou, Sylvain Durand, Joël Quinqueton et
Fabrice Philippe, dont la complicité et les nombreux conseils m’ont aidé à m’intégrer
rapidement, dans une chaleureuse ambiance, ainsi que tous les autres membres de l’équipe,
pour leur sympathique accueil.
Je remercie également Christophe Rey, de l’Université d’Amiens, pour son amitié, ses
discussions toujours avisées et le partage de son expérience. Je pense aussi à Louis Jean
Calvet, de l’Université de Provence, avec qui j’ai le plaisir de travailler sur un autre domaine
qui me passionne, celui de l’analyse linguistique des textes de chanson. Son expérience, sa
passion, ainsi que son extraordinaire culture m’ont beaucoup enrichie et stimulé, au cours de
nos entrevues.
Je remercie naturellement Pascale Sébillot et Béatrice Daille, d’avoir accepté, avec Violaine
Prince, de faire partie de mon jury de thèse. Leur enthousiasme à toutes les trois, ainsi que
leur expérience et leurs remarques toujours rigoureuses et pertinentes, m’ont offert un cadre
particulièrement stimulant pour terminer ma thèse.
Je remercie également Amanda Grey, qui a eu la grande amabilité de s’impliquer dans
l’évaluation des traductions obtenues dans mon travail de thèse. Sa rigueur et ses
compétences m’ont permis de cibler avec précision les caractéristiques de traduction qui
posent des difficultés au traitement automatique et de porter un regard à la fois quantitatif et
qualitatif sur mes résultats.
Enfin, je remercie ma famille et mes amis pour leur patience et leur soutien inconditionnel,
tout particulièrement mes parents, mon frère Sébastien et Lynda. Je remercie Alizée pour tout
ce qu’elle m’a apporté. Un clin d’œil à L Town et à la planète Mars. Je remercie Bruno pour
sa présence et son soutien quotidien et sans limite.
A la mémoire de mon « grand père » Salvador et de ma tante Jeanine.
5
Table des matières
Chapitre1. Introduction ....................................................................................................................................... 10
1.1 Motivation ......................................................................................................................................... 10
1.2 Objectifs et méthodologie ................................................................................................................ 12
1.3 Domaines d’application ................................................................................................................... 17
1.3.1 Lexicographie et terminologie....................................................................................................... 17
1.3.2 Traduction automatique ................................................................................................................. 17
1.3.3 Recherche d’information multilingue............................................................................................ 18
1.3.4 Désambiguïsation lexicale ............................................................................................................. 19
1.3.5 Didactique des langues .................................................................................................................. 19
1.3.6 Linguistique comparative .............................................................................................................. 20
1.3.7 Autres applications ........................................................................................................................ 20
1.4 Domaines et plan de la thèse ........................................................................................................... 22
Chapitre 2. Vers des unités lexicales complexes pour la traduction ......................................................... 26
2.1 Introduction ...................................................................................................................................... 26
2.2 Prémisses de la Traduction Automatique ...................................................................................... 29
2.3 Renouveau terminologique .............................................................................................................. 33
2.4 Locutions et termes complexes ........................................................................................................ 38
2.4.1 Locutions ....................................................................................................................................... 38
2.4.2 Termes complexes ......................................................................................................................... 41
2.4.3 Critères définitoires ....................................................................................................................... 42
2.5 Collocations ...................................................................................................................................... 45
2.5.1 Approche statistique ...................................................................................................................... 46
2.5.2 Approche linguistique ................................................................................................................... 48
2.5.3 Critères définitoires ....................................................................................................................... 49
2.5.4 Recensement et formalisation .................................