Folgert Karsdorp, Mike Kestemont et Allen Riddell, Humanities Data Analysis. Case Studies with Python
Texte intégral
1Le présent manuel prend acte de l’intérêt croissant des sciences humaines et sociales pour le langage de programmation Python, autrefois réservé aux sciences de la nature. Les algorithmes permettant en effet de révéler des régularités qui resteraient sinon invisibles, leur usage et l’automatisation de certaines procédures de traitement des données ont désormais fait leurs preuves dans des disciplines aussi variés que la sociologie, la littérature et l’histoire. Adressé aux néophytes, ce manuel vise ainsi à montrer ce que Python peut apporter à tout chercheur qui recourt à des données numérisées. Attention cependant : le livre ne se présente pas comme une introduction complète à Python, un minimum de connaissances étant requis pour bien saisir la dimension technique de ce qui est enseigné. Ceci étant, il reste possible de le parcourir sans s’attarder sur les pages de code, pour se faire une idée du type d’applications qu’on peut espérer de Python, et le manuel propose aussi un rappel des bases de Python. De plus, pour le lecteur désireux d’apprendre ce langage, il donne des ressources bibliographiques pour se former en peu de temps, et des exercices pour vérifier la compréhension des concepts présentés.
2La première partie du livre se focalise sur les bases de l’analyse de données. La démarche y est la suivante : pour chacun des cas pratiques évoqués, le premier objectif est de traiter les données pour les rendre utilisables, après quoi ces données sont exploitées pour faire surgir des régularités qui seront l’objet de l’étude. Un premier cas paradigmatique est alors donné avec l’exemple de l’évolution des recettes de cuisine aux États-Unis. En compilant l’ensemble des recettes parues sur la base de données Feeding America: The Historic American Cookbook, certaines régularités invisibles à l’œil nu apparaissent. Plus précisément, en utilisant le test du khi-deux, il est possible d’observer les variations de fréquence de certains aliments avant et après la guerre de Sécession, avec notamment une forte croissance de l’usage de la levure chimique après la guerre. Cette étude de cas permet ainsi de présenter de manière intuitive un ensemble de procédures qui seront détaillées dans les chapitres suivants : la création de bases de données, de tableaux et de graphiques, ou encore l’usage de méthodes statistiques.
3Le second cas étudié est celui du réseau de relations des personnages de la pièce Hamlet de Shakespeare, et c’est l’occasion de se concentrer sur les différents formats de texte. En effet, si un texte brut est facilement lisible par un humain, ce n’est pas le cas pour un ordinateur. Selon les données que l’on cherche à analyser, d’autres formats peuvent se révéler plus pratiques. De plus, les métadonnées peuvent se révéler cruciales. Dans le cas d’Hamlet, elles peuvent permettre, par exemple, de situer rapidement certaines répliques dans la pièce. C’est pourquoi, si ce chapitre présente différents formats de données, il se concentre sur le XML (eXtensible Makeup Format), qui prend en compte beaucoup de métadonnées. In fine, on arrive ainsi à former un graphe indiquant les relations qu’entretient Hamlet avec les autres personnages, et la densité des échanges verbaux entre ces personnages.
4Le troisième cas va plus loin dans cette formalisation, et propose l’usage d’espaces vectoriels pour coder certaines informations intuitives. Ce faisant, le but du chapitre est de donner une définition claire de ce que veut dire « proche de », ceci en se fondant sur l’étude des genres littéraires à l’âge classique français. En remarquant que certains mots sont des marqueurs de genre (par exemple « sang » pour les tragédies, ou encore « Monsieur » pour les comédies), il est question de chercher à les définir sous forme de vecteurs, pour ensuite les tester sur des tragicomédies. Au fil de l’analyse, il apparait alors que les tragicomédies sont, du point de vue du vocabulaire, plus proches des tragédies que des comédies. S’il s’agit d’une intuition que le lecteur humain peut certes avoir, elle est ici quantifiée avec précision, et permet à l’analyste d’étudier plus finement les pièces qui ne se conforment pas au modèle classique, ceci en utilisant la notion de voisinage pour évaluer la distance d’une œuvre par rapport à un idéal-type précédemment créé. On voit ainsi que Bérénice et Stratonice échappent par exemple aux classifications habituelles de leur époque.
5Le dernier cas de la première partie s’intéresse ensuite aux évolutions d’attribution des prénoms au cours de l’histoire des États-Unis. Ici, à la différence des cas précédents, on dispose dès le départ de données tabulaires riches. Tout le chapitre est ainsi consacré au traitement de ce type de données, en utilisant la librairie additionnelle Pandas, qui permet de représenter de manière graphique le « turnover » de certains prénoms, en indiquant la vitesse à laquelle les prénoms les plus populaires sont remplacés.
6La seconde partie du livre aborde des applications plus complexes de Python. La première étude introduit des notions avancées de statistiques, en étudiant le cas des lecteurs de romans. Une rapide introduction à ce domaine mathématique est alors apportée avec des rappels définitionnels concernant les notions de moyenne, de variance, et d’écart type. Ici, plusieurs outils vont être utilisés pour essayer de déterminer quel facteur influe le plus sur les pratiques des individus. La mesure de l’entropie de Shannon est ainsi introduite pour évaluer l’hétérogénéité de certains groupes en termes de parcours scolaire. En outre, tout un ensemble d’outils est mobilisé pour établir des corrélations entre plusieurs variables.
7La seconde étude s’intéresse à l’attribution d’un ensemble de textes issus des Federalist Papers. Dans ce domaine, nous n’avons aucune certitude absolue, et nous devrons faire usage de probabilités bayésiennes pour calculer la plausibilité de l’attribution des textes à un auteur ou à un autre. Ce chapitre se présente ainsi comme une introduction aux probabilités bayésiennes, qui permettent d’estimer le degré de fiabilité de telles hypothèses d’attribution de textes à un auteur en fonction des données disponibles.
8La troisième étude s’inscrit dans une perspective géographique, et vise à montrer comment utiliser Python pour créer des cartes retraçant le déroulement de la guerre de Sécession. La préparation des données est ici assez complexe : il faut trouver une carte de base, définir une méthode de projection (la carte étant en deux dimensions, tandis que les événements se déroulent dans un monde réel en trois dimensions, où l’altitude a un rôle non négligeable), et recueillir des données évoquant les pertes et les dates associées à chaque bataille. On peut alors générer une série de cartes montrant l’évolution du conflit, mais il est ici essentiel d’être au clair sur les conventions utilisées pour formaliser les données, puisqu’elles ont une influence non négligeable sur le résultat.
9La quatrième étude prolonge la seconde étude de cette même partie en introduisant la notion de stylométrie. Le problème y est le suivant : faut-il attribuer tel document à Hildegarde de Bingen, ou à l’un des moines copistes qui l’aidaient dans ses rédactions ? La stylométrie permet de répondre en s’intéressant aux « mots fonctions », c’est-à-dire aux mots qui ont une importance grammaticale forte sans avoir un contenu sémantique fort, à l’instar des connecteurs logiques ou des modalisateurs. Utilisés de manière moins consciente par les auteurs, ils sont par conséquent moins sujets à la falsification. Ainsi, le chapitre fait appel au machine learning pour entraîner un algorithme sur certains textes attribués de source sûre à Hildegarde, puis évaluer des textes douteux. Il se clôt avec la présentation de l’analyse en composantes principales, qui permet de représenter graphiquement en deux dimensions l’écart entre plusieurs styles d’écriture, quand bien même ces styles font appel à des données qui comportent beaucoup plus de dimensions (dans l’exemple donné, nous avons 36 documents appartenant à trois auteurs, et 65 fréquences de mots pertinentes). C’est à cette occasion qu’est introduite la notion de modèle supervisé, c’est-à-dire de modèle de classement vérifié dans un premier temps par un humain, et appliqué ensuite à de nouveaux textes par un algorithme.
10Le dernier chapitre étend cette notion aux modèles non supervisés, désignant des modèles où, à partir de données brutes, l’ordinateur est capable de déceler par lui-même des motifs récurrents. Le cas étudié est alors celui des arrêts de la Cour Suprême des États-Unis, dans l’objectif de montrer quelles sont les évolutions thématiques de ces différents arrêts. Ici, la difficulté est que nous disposons d’un grand nombre de documents, avec un ensemble de termes qui, s’ils peuvent être regroupés sémantiquement, auront des sens différents selon le contexte. Par exemple, le terme « minor » peut référer par exemple aux mineurs comme personnes, mais aussi qualifier des offenses mineures. L’utilisation d’un modèle de mélange gaussien permet ainsi de caractériser plusieurs ensembles de termes typiquement associés, qui seront ensuite utilisés pour construire plusieurs thèmes possibles, et permettront de classer les documents.
11Le manuel se finit avec un rappel des bonnes pratiques dans l’usage de Python, en particulier la transparence sur le mode de collecte et de traitement des données, garante de la scientificité du résultat. Ainsi s’achève un ouvrage complet, qui, s’il ne saurait constituer par lui-même une introduction à Python ou à l’informatique associée au traitement des données, donne une bonne idée de ces procédures et de leur intérêt pour les sciences humaines et sociales. Il sera utile à tout étudiant ou chercheur intéressé par les méthodes quantitatives et désireux d’automatiser des procédures complexes.
Pour citer cet article
Référence électronique
Thibault Vareilles, « Folgert Karsdorp, Mike Kestemont et Allen Riddell, Humanities Data Analysis. Case Studies with Python », Lectures [En ligne], Les comptes rendus, mis en ligne le 31 octobre 2022, consulté le 14 décembre 2024. URL : http://0-journals-openedition-org.catalogue.libraries.london.ac.uk/lectures/58579 ; DOI : https://0-doi-org.catalogue.libraries.london.ac.uk/10.4000/lectures.58579
Haut de pageDroits d’auteur
Le texte et les autres éléments (illustrations, fichiers annexes importés), sont « Tous droits réservés », sauf mention contraire.
Haut de page