Analyse des données textuelles , livre ebook

305

pages

Français

Ebooks

2019

Écrit par
Bénédicte Pincemin , Ludovic Lebart , Céline Poudat

Publié par
Presses de l'Université du Québec

Vous pourrez modifier la taille du texte de cet ouvrage

Lire un extrait

Obtenez un accès à la bibliothèque pour le consulter en ligne En savoir plus

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

305

pages

Français

Ebook

2019

Vous pourrez modifier la taille du texte de cet ouvrage

Lire un extrait

Obtenez un accès à la bibliothèque pour le consulter en ligne En savoir plus

Publié par

Presses de l'Université du Québec

Date de parution

07 août 2019

Nombre de lectures

EAN13

9782760550544

Langue

Français

L’analyse des données textuelles (ADT) permet d’explorer et de visualiser les recueils de textes les plus divers : œuvres littéraires, transcriptions d’entretien, discours politiques, dossiers de presse, documents d’archives, enquêtes en ligne avec questions ouvertes, fichiers de réclamations, sondages de satisfaction. Le présent ouvrage procède à une présentation rigoureuse des méthodes de l’ADT, qui combinent statistique exploratoire, visualisations, procédures de validation quantitative et approche qualitative (retour au texte). Plaçant le texte au centre de l’analyse, l’ADT répond pleinement aux attentes des humanités numériques. Plusieurs niveaux de lecture sont possibles : les développements plus techniques paraissent dans des encadrés, tandis que des programmes illustratifs simples (en Python et R) sont donnés en annexe. Le propos est systématiquement illustré par des applications concrètes issues de corpus variés (données d’enquête, romans, discours politiques) et réalisées avec des logiciels en libre accès.
Ludovic Lebart, ex-directeur de recherche au Centre national de la recherche scientifique (CNRS), est statisticien et enseignant- chercheur à Télécom ParisTech. Ses sujets de recherche sont la statistique multidimensionnelle, la qualité des enquêtes socio- économiques, l’inférence statistique en analyse des données et les logiciels d’analyse des données qualitatives et textuelles. Il est l’auteur de nombreux livres sur ces thèmes traduits en plusieurs langues.
Bénédicte Pincemin est chargée de recherche en linguistique au CNRS, au sein de l’Institut d’histoire des représentations et des idées dans les modernités de l’École normale supérieure de Lyon. Elle est membre du projet Textométrie, qui développe le logiciel TXM. Ses travaux portent sur la modélisation de la textualité et de l’activité interprétative pour l’analyse sémantique de corpus.
Céline Poudat est linguiste et maître de conférences en analyse du discours à l’Université Côte d’Azur à Nice. Elle étudie les typologies textuelles et les genres de la communication médiée par les réseaux, qu’elle explore avec les méthodes de l’analyse de données textuelles et de la linguistique de corpus. Elle codirige le consortium national français Corpus, Langues et Interactions.

Voir

Publié par

Presses de l'Université du Québec

Date de parution

07 août 2019

Nombre de lectures

EAN13

9782760550544

Langue

Français

La collection Mesure et évaluation soutient la diffusion de recherches et de travaux fondamentaux, ainsi que de matériel didactique pour les niveaux collégial et universitaire, dans le domaine de la mesure et de l’évaluation en éducation et, plus largement, en sciences humaines.
Les nouveaux enjeux sociétaux et les besoins émergents des milieux de pratique demandent aux intervenants d’être informés des avancées récentes afin de les soutenir dans leur travail. Mesure et évaluation offre aussi aux chercheurs un moyen de partager les résultats de leurs travaux avec ces intervenants tout en faisant progresser la recherche, que ce soit en matière de mesure et d’évaluation des apprentissages, de programmes ou encore de méthodologie de recherche.
Les textes publiés sont soumis à un processus d’arbitrage avec le soutien d’évaluateurs externes. La collection Mesure et évaluation souscrit à l’adaptation canadienne-française, par la Revue des sciences de l’éducation , des règles de publication de l’American Psychological Association.

Presses de l’Université du Québec Le Delta I, 2875, boulevard Laurier, bureau 450, Québec (Québec) G1V 2M2 Téléphone : 418 657-4399 Télécopieur : 418 657-2096 Courriel : puq@puq.ca Internet : www.puq.ca Diffusion/ Distribution : C ANADA Prologue inc., 1650, boulevard Lionel-Bertrand, Boisbriand (Québec) J7H 1N7 Tél. : 450 434-0306 / 1 800 363-2864 F RANCE et Sofédis, 11, rue Souffl 75005 Paris, France – Tél. : 01 53 10 25 25 B ELGIQUE Sodis, 128, avenue du Maréchal de Lattre de Tassigny, 77403 Lagny, France – Tél. : 01 60 07 82 99 S UISSE Servidis SA, Chemin des Chalets 7, 1279 Chavannes-de-Bogis, Suisse – Tél. : 022 960.95.25 Diffusion / Distribution (ouvrages anglophones) : Independent Publishers Group, 814 N. Franklin Street Chicago, IL 60610 – Tel. : (800) 888-4741 La Loi sur le droit d’auteur interdit la reproduction des œuvres sans autorisation des titulaires de droits. Or, la photocopie non autorisée – le « photocopillage » – s’est généralisée, provoquant une baisse des ventes de livres et compromettant la rédaction et la production de nouveaux ouvrages par des professionnels. L’objet du logo apparaissant ci-contre est d’alerter le lecteur sur la menace que représente pour l’avenir de l’écrit le développement massif du « photocopillage ».

Catalogage avant publication de Bibliothèque et Archives nationales du Québec et Bibliothèque et Archives Canada
Titre : Analyse des données textuelles / Ludovic Lebart, Bénédicte Pincemin et Céline Poudat.
Noms : Lebart, Ludovic, auteur. | Pincemin, Bénédicte, auteur. | Poudat, Céline, auteur.
Collections : Collection Mesure et évaluation ; 11.
Description : Mention de collection : Mesure et évaluation ; 11 | Comprend des références bibliographiques.
Identifiants : Canadiana (livre imprimé) 20190022272 | Canadiana (livre numérique) 20190022280 | ISBN 9782760550520 | ISBN 9782760550537 (PDF) | ISBN 9782760550544 (EPUB)
Vedettes-matière : RVM : Analyse de données textuelles.
Classification : LCC P98.5.T49 L42 2019 | CDD 410.285—dc23

Cet ouvrage est publié avec le soutien des laboratoires IHRIM (Institut d’histoire des représentations et des idées dans les modernités), UMR 5317 CNRS et Université de Lyon, et BCL (Bases, Corpus, Langage), UMR 7320 CNRS et Université Côte d’Azur.
Révision
Caroline Giguère
Correction d’épreuves
Anne-Marie Bilodeau
Conception graphique
Richard Hodgson
Image de couverture
iStock
Mise en page
Info 1000 Mots
Dépôt légal : 3 e trimestre 2019
› Bibliothèque et Archives nationales du Québec
› Bibliothèque et Archives Canada
© 2019 – Presses de l’Université du Québec
Tous droits de reproduction, de traduction et d’adaptation réservés
D5052-1 [01]
LISTE DES FIGURES
FIGURE 1.1
Démarche ADT
FIGURE 1.2
Statistique exploratoire pour les textes : une vue synoptique
FIGURE 2.1
Unités et niveaux de l’analyse linguistique selon les champs disciplinaires actuels
FIGURE 2.2
Analyse des correspondances de textes médiévaux (zones de confiance de différents démonstratifs dans le premier plan factoriel)
FIGURE 2.3
Neuf pièces de Molière : esquisse de la répartition de formes graphiques (ici : démonstratifs et deux formes du lemme ami) et des neuf pièces dans le plan (1, 2) issu de l’analyse des correspondances du tableau lexical (557 × 9)
FIGURE 2.4
Neuf pièces de Molière : zones de confiance pour les formes graphiques « Démonstratifs » dans le plan (1, 2) précédent (changement d’échelle)
FIGURE 2.5
Neuf pièces de Molière : zones de confiance pour les deux formes correspondant au lemme ami dans le même plan (1, 2)
FIGURE 2.6
Un exemple de représentation en constituants immédiats
FIGURE 2.7
Un exemple de représentation en dépendances
FIGURE 2.8
Interface de Tigersearch
FIGURE 2.9
Lignes de commandes préparatoires pour désigner le répertoire
de travail, le fichier de données, le fichier-programme
FIGURE 2.10
Construction d’une table lexicale à partir d’un texte brut
et d’un seuil de fréquence
FIGURE 2.11
Sélection et substitution des séparateurs dans une chaîne,
identification et séparation des textes
FIGURE 2.12
Fonction « blanc » : sélection et substitution des séparateurs
dans une chaîne
FIGURE 2.13
D’une liste de mots à la gamme de fréquence
FIGURE 2.14
Sauvegarde et impression dans deux fichiers nommés : tablexfile.txt et tablexfile.csv de la table lexicale
FIGURE 3.1
Diversité des formes de concordance au sens large
FIGURE 3.2
Concordance sur l’expression causer (de) quelque chose
FIGURE 3.3
Concordance triée à gauche (en bas), avec retour au texte intégral (en haut)
FIGURE 3.4
Concordance triée à droite
FIGURE 3.5
Concordance triée à partir du deuxième mot à droite
FIGURE 3.6
Concordance avec indications de localisation correspondant aux parties
FIGURE 3.7
Affichage du texte intégral (en haut) comme élargissement d’un contexte de concordance (en bas)
FIGURE 3.8
Inventaire distributionnel
FIGURE 3.9
Trois exemples de relevés de termes
FIGURE 3.10
Exemple de relevé d’extraits (mot grisé mère )
FIGURE 3.11
Exemple de relevé de fragments caractéristiques
FIGURE 3.12
Exemple de retour au texte intégral (à droite) hypertextuellement associé à une concordance (à gauche)
FIGURE 3.13
Retour au texte intégral avec édition synoptique du document source
FIGURE 3.14
Cooccurrences de frite(s) , chocolat et vin dans le corpus E ATING – P ARIS
FIGURE 3.15
Polycooccurrences de dream dans S TATE OF THE U NION
FIGURE 3.16
Polycooccurrences de lumière dans le texte L’éducation sentimentale du corpus F LAUBERT ( Hyperbase Web Edition , fonction Thème, Vanni et Mittmann, 2016)
FIGURE 3.17
Esquisse des diagrammes en bâtons de spécificités, pour visualiser la répartition d’un mot donné entre les parties (représentation de lignes du tableau complet des spécificités)
FIGURE 3.18
Diagramme de spécificités et sémiotisation des seuils ( Hyperbase Web Édition )
FIGURE 3.19
Lignes de commandes préparatoires pour désigner le répertoire de travail, le fichier de données, le fichier-programme, la cible
FIGURE 3.20
Programme élémentaire de concordances
FIGURE 3.21
Fonction auxiliaire : formatage d’une ligne autour de la cible pour l’impression
FIGURE 4.1
Principe de représentation géométrique
FIGURE 4.2
Deux grandes familles de méthodes exploratoires
FIGURE 4.3
Image « Enfant et chat » (tableau numérique de 279 × 330 pixels) et portion du tableau X (12 premières lignes et 15 premières colonnes)
FIGURE 4.4
Meilleur ajustement du nuage de points
FIGURE 4.5
Formule de reconstitution des données, ou décomposition aux valeurs singulières
FIGURE 4.6
Reconstitution du tableau de données avec 8, 30, 80 axes
FIGURE 4.7
Éléments supplémentaires (lignes et colonnes)
FIGURE 4.8
Image obtenue sur l’écran après avoir saisi les lignes de commandes sous R
FIGURE 5.1
Nuage des 7 mots dans l’espace des deux individus « R04 » et « R08 »
FIGURE 5.2
Représentation du nuage des 12 réponda