LEBART, Ludovic, PINCEMIN, Bénédicte et POUDAT, Céline, 2019. Analyse des données textuelles
LEBART, Ludovic, PINCEMIN, Bénédicte et POUDAT, Céline, 2019. Analyse des données textuelles. Québec : Presses de l’Université du Québec. ISBN 978-2-7605-5052-0, 41 €.
Texte intégral
1Cet ouvrage collectif a été rédigé par Ludovic Lebart, ex-directeur de recherche au CNRS, statisticien et enseignant-chercheur à Télécom ParisTech, Bénédicte Pincemin, chargée de recherche en linguistique au CNRS et Céline Poudat, Maître de conférences en analyse du discours à l’Université Nice Côte d’Azur. Il se compose de 9 chapitres ainsi que de nombreuses annexes qui sont autant de repères sur lesquels le lecteur peut s’appuyer pour comprendre l’analyse des données textuelles (ADT). Si le premier chapitre consiste en un panorama des disciplines à l’origine de l’ADT, les chapitres suivants abordent tour à tour les unités d’analyse et les unités en contexte.
2Les auteurs expliquent dans la partie introductive que « l’analyse des données textuelles (ADT) exposée dans ce livre se situe à l’intersection de plusieurs disciplines : la linguistique, l’analyse du discours, la statistique, l’informatique, le traitement des enquêtes socio-économiques, la psychosociologie et le marketing, pour ne citer que les principales. » (p. 1). Convaincus que les humanités numériques occupent actuellement une place de choix dans la recherche scientifique, ces chercheurs se sont inspirés des méthodes alliant statistiques et études de textes pour proposer de nouveaux outils d’ADT. Force est de reconnaître que la particularité de cette contribution réside dans la place accordée au texte.
3Dans le premier chapitre, le lecteur peut saisir la portée de l’analyse statistique des données textuelles, son champ d’action ainsi que ses objets d’étude. Cette partie est centrée sur ce qu’il convient d’appeler la matière première de l’ADT, le texte. Les auteurs retracent l’histoire de l’ADT tout en précisant que « la nature du matériau de base (…) peut être composée de textes rassemblés en corpus, de réponses à une question ouverte, d’entrevues, de courriels, de messages brefs. » (p. 3). Le deuxième chapitre va au-delà du cadrage théorique et permet d’explorer les unités d’analyse et les observations. Cette partie propose d’ailleurs une étude des différentes unités statistiques. Le troisième chapitre fait la part belle aux unités en contexte. D’après les auteurs : « La chaîne textuelle ne peut en effet être réduite à une succession d’unités n’ayant aucun lien les unes avec les autres, car beaucoup des effets de sens du texte résultent justement de la disposition relative des mots, de leurs juxtapositions ou de leurs cooccurrences éventuelles » (p. 4).
4Le quatrième chapitre intitulé « exploration, visualisation, validation et inférence : les principes de base » propose un retour aux fondamentaux de l’ADT. Le cinquième chapitre présente l’analyse en composantes principales (ACP). Le sixième chapitre porte sur les analyses des correspondances (AC), et explicite les techniques qui permettent notamment de décrire les tableaux de contingence. Dans le septième chapitre, les auteurs évoquent la classification des mots et des textes qui consiste à « regrouper des objets similaires ». Ils précisent également qu’il s’agit d’une « activité cognitive structurante qui s’exerce depuis les classes de maternelle jusqu’aux laboratoires les plus spécialisés. » (p. 4).
5Le huitième chapitre se focalise sur les stratégies d’analyse et la complémentarité entre analyse en axes principaux et classification. Le dernier chapitre vise à articuler les analyses exploratoires et confirmatoires. Il s’agit notamment de montrer les forces et les faiblesses de la méthode exploratoire en s’appuyant sur des exemples qui mettent en valeur l’interdisciplinarité de cette démarche méthodologique. L’ouvrage propose en outre des explications qui peuvent guider le lecteur « dans sa recherche d’un logiciel bien adapté à ses données et aux types de traitements attendus pour répondre à sa problématique. » (p. 426). Les sept logiciels ayant fait l’objet d’une synthèse sont entièrement gratuits, développés à partir de langages de programmation assez connus (R et Python) et correspondent aux exigences de l’ADT.
6Malgré son volume impressionnant et ses formules statistiques parfois complexes, cet ouvrage se lit très facilement. Les auteurs font preuve d’une pédagogie notable pour expliquer, démystifier et même initier les novices à l’analyse des données textuelles. Le lecteur peut d’ailleurs vite s’apercevoir que l’ADT ne s’écarte guère des principes de la démarche scientifique, c’est-à-dire partir d’un problème, interroger les données textuelles, mettre en place des méthodes de traitement et enfin interpréter les résultats. L’intérêt de cet ouvrage didactique est qu’il développe non seulement les différentes techniques qui existent de nos jours dans le domaine de l’ADT, mais démontre également par des exemples comment parvenir à analyser ses propres corpus. Cependant, le lecteur doit bien noter qu’il doit fixer lui-même ses objectifs de recherche et ne pas suivre aveuglément les méthodes proposées. Il est possible d’observer que les images constituent le parent pauvre de l’ADT. Les études d’images et l’ADT ont pourtant un point en commun ; les images tout comme le texte constituent des corpus par essence. L’analyse du couple texte-images pourrait alors donner lieu à d’autres perspectives de recherche.
Pour citer cet article
Référence électronique
Alimata Elodie Tapsoba, « LEBART, Ludovic, PINCEMIN, Bénédicte et POUDAT, Céline, 2019. Analyse des données textuelles », Revue française des sciences de l’information et de la communication [En ligne], 20 | 2020, mis en ligne le 01 septembre 2020, consulté le 17 janvier 2025. URL : http://0-journals-openedition-org.catalogue.libraries.london.ac.uk/rfsic/9652 ; DOI : https://0-doi-org.catalogue.libraries.london.ac.uk/10.4000/rfsic.9652
Haut de pageDroits d’auteur
Le texte seul est utilisable sous licence CC BY-NC-SA 4.0. Les autres éléments (illustrations, fichiers annexes importés) sont « Tous droits réservés », sauf mention contraire.
Haut de page