Navigation – Plan du site

AccueilNumérosXXXV-2VariaL’ordinateur au service du dépoui...

Varia

L’ordinateur au service du dépouillement de sources historiques

Éléments d’analyse semi-automatique d’un corpus diplomatique homogène
The Computer as a Tool for Historical Source Analysis: A Semi-Automatic Analysis of a Homogeneous Diplomatic Corpus
Sébastien de Valeriola
p. 171-196

Résumés

L’historien qui mobilise un corpus d’actes est amené à extraire de chacun de ces documents une série d’informations nécessaires à son étude, comme les noms des protagonistes, les dates, les montants, etc. Lorsque la taille de l’ensemble documentaire considéré est importante, cette étape de dépouillement peut poser un problème. Nous présentons ici une méthodologie d’analyse semi-automatique d’un tel corpus mettant en œuvre des méthodes quantitatives. Nous nous concentrons sur trois étapes de ce processus : le découpage des actes en sous-parties, la lemmatisation des anthroponymes et l’extraction des dates. Nous soulignons l’importance de l’intervention de l’humain après l’action de la machine, étape indispensable de tout dispositif d’analyse de ce type.

Haut de page

Notes de l’auteur

Il m’est agréable de remercier ici pour leurs conseils judicieux et leur relecture rigoureuse et constructive Paul Bertrand, Nicolas Perreaux ainsi que les deux relecteurs sollicités par le comité de rédaction d’Histoire & Mesure.

Texte intégral

  • 1 « It was clear to me, however, that to process texts containing more than ten million words, I had (...)
  • 2 Parmi de très nombreux exemples, voir S. Antonijević, 2015, p. 12.

1« Cependant, il me semblait clair que, pour traiter des textes contenant plus de dix millions de mots, je devais chercher quelque mécanique1 », constatait Roberto Busa en 1946 alors qu’il travaillait sur les œuvres de Thomas d’Aquin. Sans prétendre nous placer au niveau de celui qu’on qualifie parfois aujourd’hui de « père des humanités numériques2 », c’est à une conclusion similaire que nous sommes arrivé en débutant l’analyse globale de plus de deux mille actes médiévaux. Nous avons par conséquent mobilisé un ensemble de techniques numériques et de méthodes quantitatives permettant de faciliter l’étude historique d’un tel corpus. L’objet de cet article est de présenter la méthodologie que nous avons développée pour ce faire.

  • 3 Nous utiliserons tout au long de cet article le terme « clause » pour désigner les sous-parties do (...)

2Le but de l’exercice est d’extraire autant d’informations que possible des documents, de manière semi-automatique. Comme nous allons le voir, il est notamment possible d’isoler, à partir de transcriptions, les dates, les protagonistes et les témoins des actes. En automatisant ainsi une partie du dépouillement des sources, l’historien est donc en mesure de considérer des corpus de taille importante et de constituer rapidement une base de données contenant les principales caractéristiques des actes. L’intérêt de l’analyse semi-automatique ne s’arrête pas là, puisque le découpage des textes en sous-parties permet d’étudier les formules utilisées, les clauses dont les contrats sont composés3, etc.

  • 4 Le chirographe est un acte « établi en deux exemplaires (et parfois davantage) d’une teneur identi (...)

3Nous avons développé cette boîte à outils dans le cadre de nos travaux de recherche doctorale consacrés aux modalités selon lesquelles les acteurs économiques des villes de la Flandre et du nord de la France gèrent le risque de défaut – c’est-à-dire le risque qu’un débiteur ne rembourse pas son créancier – au xiiie et au début du xive siècles. Pour ce faire, nous avons rassemblé un grand nombre d’actes urbains qui, dans les villes que nous avons sélectionnées (Ypres, Douai et Tournai), prennent la forme de chirographes4. Nous envisageons notre problématique principalement sous deux aspects. D’une part, nous appliquons l’analyse des réseaux sociaux aux réseaux de crédit des trois villes. Fondées sur la théorie mathématique des graphes, ces méthodes quantitatives permettent d’envisager le crédit médiéval sous l’angle des relations entre bourgeois que les chirographes nous font connaître. D’autre part, nous étudions le contenu des contrats de dette, c’est-à-dire les clauses dont ils sont composés, en tentant de confronter celles-ci aux autres caractéristiques des emprunts. Il est ainsi possible de comprendre quelles clauses et quelles formules sont utilisées dans quels actes, par et pour quels acteurs économiques.

  • 5 Notons que les actes étudiés ne sont pas tous disponibles sous la même forme : certains nous sont (...)

4Si notre attention est bien entendu particulièrement attirée par les chirographes directement liés au crédit, nous mobilisons également d’autres types de chirographes. Les deux approches que nous avons mentionnées sont gourmandes en renseignements sur les acteurs économiques considérés, d’où la nécessité de collecter autant d’informations que possible à propos de ceux-ci : profession, situation familiale, lieu d’habitation, etc. Les actes qui ne concernent pas directement des opérations de prêt nous permettent d’effectuer à ce titre une sorte de prosopographie générale des protagonistes des réseaux de crédit. Le corpus formé des reconnaissances de dette et des autres documents que nous analysons est donc très conséquent5. Les exemples donnés tout au long de cet article proviennent de cette collection d’actes.

5Les techniques décrites dans le présent article ont été développées pour cet ensemble documentaire précis, composé de chirographes qui partagent une même structure standardisée. Nous ne prétendons pas qu’elles soient toutes applicables telles quelles à n’importe quel corpus diplomatique. Nous pensons néanmoins que la méthodologie qui sous-tend ces outils est assez générale et par là même adaptable à d’autres contextes.

6Insistons sur le fait que l’analyse que nous présentons ici n’est pas automatique, mais bien semi-automatique. Il ne s’agit pas, une fois la méthodologie implémentée, de laisser passivement faire l’ordinateur. Le cours d’une étude mettant en œuvre de tels outils s’apparente plutôt à une suite d’allers-retours entre procédures automatisées et manuelles. Le travail de la machine ne remplace aucunement celui de l’historien, il l’accompagne et le facilite. Cet aspect est, comme nous le verrons, crucial.

  • 6 Toutes les étapes de la méthodologie présentée dans cet article ont été implémentées dans le langa (...)

7L’analyse semi-automatique des actes se découpe en une série d’opérations qui sont appliquées l’une après l’autre au corpus6. Nous avons choisi d’insister dans cet article sur trois d’entre elles, que nous passerons successivement en revue.

1. Découpage des actes

8La première étape de l’analyse semi-automatique est le découpage des actes en séquences textuelles cohérentes.

Principe et intérêt

  • 7 À titre d’exemple, la base qui est générée à partir de notre corpus de reconnaissances de dette do (...)

9Il s’agit ici de délimiter au sein des textes des sous-parties qui correspondent à des groupes ou parties de phrases présentant un intérêt particulier. On peut ensuite disposer ces sous-parties dans une base de données, dont chaque ligne correspond à un acte et chaque colonne à une sous-partie7. Le Tableau 1 en constitue un extrait.

Tableau 1. Extrait de la base de données consignant les sous-parties des reconnaissances de dette douaisiennes de notre corpus

# Notification Débiteur Serment Liberté Date
1 Ce sachent tot cil qui ore sunt et qui a venir sunt que Willames de Borgoigne, de Hornaig, / / Ceste covenance fu faite en l’an de l’Incarnation .M.CC.XXIIII., el mois d’aust
2 Ce sacent tout cil ki ces letres veront et oront que Giles li Canbiers, de Fecain, / / Ce fu fait en l’an de l’Incarnasion Nostre Segneur mil et .CC. et .XXV. ans, el mois de fevrier
3 Ce sacent tot cil ki ces letres veront et oront que Jehans de le Vinchort, chevaliers, Tote ceste covenence a Jehans de le Vinchort devant dis creante par se foi fiancie loiaument a tenir et a rendre as borgois ki ci devant sunt nome / Ce fu fait en l’an del Incarnation Nostre Segneur mil ans et .CC. et .XXVIII. ans, el mois de jenvier
4 Sacent tout cil ki sont et ki avenir sont ke Pieres Ablos / Et se reconnoist Pieres devant dis […] k’il n’a about convenence ne assenement sour lui ne sour le sien ne sour l’ostille devant dite, ki voist devant cesti Ce fu fait en l’an de l’incarnation Notre Signeur M.CC.IIIIXX et X, el mois de juille

10Ce découpage des actes a un double intérêt. Le premier d’entre eux est purement technique : l’extraction des informations essentielles des actes est plus facile à effectuer si celles-ci sont circonscrites dans des groupes de mots de taille réduite. Par exemple, il est plus aisé de dégager le millésime d’un contrat en traitant la phrase « Cou fu fait en lan del incarnacion Nostre Seignor Jhesu Crist M CC et LXX, le tierc jour a lentree de March » qu’en traitant l’acte dans son intégralité.

11Le deuxième intérêt est plus central : le fait que certaines clauses aient été intégrées dans certains actes et pas dans d’autres constitue une information intéressante en soi. De tels renseignements, fournis dans la base de données décrite ci-dessus, permettent de découvrir des motifs et offrent des possibilités d’exploitation nombreuses et variées. On peut ainsi étudier l’évolution chronologique du formulaire des actes. La Figure 1 donne un exemple d’une telle analyse.

Figure 1. Évolution de quelques aspects du formulaire des reconnaissances de dette à Douai

Figure 1. Évolution de quelques aspects du formulaire des reconnaissances de dette à Douai
  • 8 La « clause de conseil » spécifie que les protagonistes doivent s’en remettre au conseil des échev (...)

12On peut y observer, par période de cinq années, la proportion d’actes qui contiennent trois types de clauses : la « clause de conseil », la « clause de liberté » et la « clause de monnaie »8. Sans entrer véritablement dans les détails de l’étude de cette évolution, remarquons que les deux premières dispositions sont surtout présentes dans les actes rédigés après 1285, tandis que la troisième se rencontre presque exclusivement durant les années 1260. D’autres questions peuvent trouver une réponse grâce à la base de données qui fait état de la présence ou de l’absence de certaines clauses : il est notamment possible de confronter ces données aux caractéristiques des contractants, par exemple pour savoir quelles clauses sont imposées aux débiteurs étrangers. Mentionnons enfin que certaines analyses requièrent la comparaison des clauses du même type dans des actes différents, par exemple pour identifier des modèles suivis par les rédacteurs.

13En termes pratiques, le découpage du texte des actes revient à y ajouter des balises, c’est-à-dire à insérer, autour des groupes de mots correspondants, des mots-clefs indiquant le type de clause auquel ils correspondent. Pour faire en sorte que les textes balisés puissent être lus par un ordinateur, nous avons adopté un balisage de type XML. Il s’agit donc par exemple d’entourer la portion de phrase « Ce sachent tot cil qui ore sunt et qui a venir sunt que » de deux balises « Notification », l’une ouvrante pour indiquer le début de la clause de notification, l’autre fermante (ce caractère étant indiqué par l’ajout d’une barre oblique au début de son nom) pour en indiquer la fin, comme dans la phrase suivante :

<Notification> Ce sachent tot cil qui ore sunt et qui a venir sunt que </Notification>.

À partir du texte balisé, l’ordinateur génère aisément une base de données similaire à celle qui est décrite dans le Tableau 1.

14Il est bien entendu illusoire de vouloir mettre au point une méthode permettant de découper n’importe quel ensemble d’actes en clauses : c’est parce que la structure interne des actes que nous considérons est relativement fixe qu’il est possible d’en effectuer l’analyse semi-automatique. Cependant, les graphies des actes présentent d’importantes variantes et les conventions d’édition une forte hétérogénéité, ce qui impose l’utilisation d’un outil faisant preuve d’une grande flexibilité, comme nous allons le voir.

Expressions régulières

15Donnons un aperçu de ce processus appliqué à un exemple très simple. Examinons les premiers mots de six actes choisis à titre d’échantillon (Tableau 2) ; leur notification est signalée par des italiques.

16Cela signifie donc qu’une balise ouvrante « <Notification> » doit être insérée avant le début de la notification, c’est-à-dire avant le premier mot en italique, et qu’une balise fermante « </Notification> » doit être insérée à la fin de celle-ci, après le dernier mot en italique. Le premier exercice ne pose pas de problème, parce que tous les actes du corpus commencent précisément par cette clause : il suffit donc d’insérer « <Notification> » avant le texte de chaque acte. En revanche, pour la balise fermante, il est nécessaire de faire appel à une méthode plus élaborée.

Tableau 2. Début du texte des six actes formant l’échantillon donné en guise d’exemple

1 Ço sacent cil ki cest escrit veront et oront que Rogiers Li Vilains …
2 Sacent tout cil ki cest escrit veront et oront que Watiers don Kaisnoit …
3 Sacent cil ki sunt et ki a venir sunt et cest escrit verunt et orunt que Waukiers Li Sauvages …
4 Ce sacient cil ki sunt et a venir sunt et cest escrit verunt et orunt ke Hues De Bietune …
5 Sacent tout cil ki cest escrit verront et orront ke Juliane, ki fame …
6 Ce sacent tot cil ki cest escrit oront et veront que li dame Juliane …

17En guise de point de départ, observons la première ligne du Tableau 2 : le dernier mot en italique est la conjonction de subordination « que ». Nous pourrions donc demander à l’ordinateur d’insérer une balise fermante après chaque occurrence du mot que (que nous appelons une expression pour des raisons qui deviendront plus claires par la suite). Cette simple instruction ne fonctionnerait toutefois pas, puisque ce mot apparaît à d’autres endroits dans les textes traités, et des balises erronées y seraient introduites un peu partout. Nous devons être plus spécifiques : toujours en partant de la première ligne du Tableau 2, nous choisissons d’indiquer à l’ordinateur l’expression oront que : à chaque fois qu’il rencontre ces neuf caractères (en comptant l’espace), il insère « </Notification> ».

  • 9 C.-T. Gossen, 1970, p. 84, no 28b.

18Comme on peut s’en rendre compte facilement, cette opération permet de traiter les deux premières lignes du Tableau 2, dont la clause de notification se termine effectivement par « oront que ». Néanmoins, cette instruction ne fonctionne pas pour la notification du troisième acte, qui se termine par « orunt que » (on reconnaît ici une variation de graphie de la terminaison de la troisième personne du pluriel souvent rencontrée en picard9). Nous devons donc modifier l’expression soumise à l’ordinateur : il s’agit de pouvoir traiter à la fois les clauses qui se terminent par « oront que » et celles qui se terminent par « orunt que ». Ce sont les expressions régulières qui nous permettent d’effectuer cette étape de manière flexible.

  • 10 Parmi les très nombreux travaux traitant des expressions régulières, un ouvrage se dégage d’après (...)

19Les expressions régulières – qu’on appelle parfois « expressions rationnelles », et qu’on abrège souvent en « regex » – sont un formidable outil qui constitue pour ainsi dire le couteau suisse de la fouille de textes10. Il s’agit d’un ensemble d’expressions (c’est-à-dire de suites de caractères) permettant de décrire et donc d’isoler du texte de manière très souple. Il est pertinent de faire ici un parallèle avec le caractère *, opérateur de troncature qui est souvent utilisé pour chercher un mot sans saisir toutes les lettres de celui-ci : dans beaucoup de systèmes informatiques, l’utilisateur peut entrer « hist* » pour désigner tous les mots dont les quatre premières lettres sont « hist », parmi lesquels on retrouve « histoire », « historien », « histamine », etc. Les expressions régulières peuvent être considérées comme une généralisation de ce système, plus flexible et bien plus puissante.

20Revenons à notre exemple : l’expression régulière qui désigne à la fois « oront que » et « orunt que » est or[ou]nt que. L’utilisation des crochets droits [] permet de désigner plusieurs caractères et l’expression or[ou]nt que est lue par l’ordinateur comme un groupe de neuf caractères dont le premier est un « o », le deuxième un « r », le troisième un « o » ou un « u », le quatrième un « n », etc. Cette expression permet donc de traiter les trois premières lignes du tableau. Notons que plus de deux caractères peuvent être placés entre les crochets. Nous pourrions ainsi utiliser l’expression or[oue]nt que si nous désirions désigner « oront que », « orunt que » et « orent que ». Une autre manière d’arriver à cette fin est d’utiliser le point ., qui joue le rôle de joker et prend la place de n’importe quel caractère. L’expression or.nt désigne donc « oront », « orunt », « orant », « orMnt », « or2nt », « or nt », etc. Le Tableau 3 résume les éléments de syntaxe que nous utilisons tout au long de cet exemple.

Tableau 3. Éléments de syntaxe des expressions régulières

Élément Explication Exemple
[…] Désigne n’importe lequel des caractères situés entre les crochets [adcf] = « a », « d », « c » ou « f »
. Désigne n’importe quel caractère . = « a », « Q », « 5 », « & », espace, virgule, etc.
(…|…) Désigne le groupe de caractères compris entre les parenthèses et situé à gauche de | ou celui situé à sa droite (aabs|15) = « aabs » ou « 15 »
+ Désigne n’importe quelle répétition du caractère précédant + ab+c = « abc », « abbc », « abbbc », « abbbbc », etc.
{n,m} Désigne la répétition (n à m fois) du caractère précédant { ac{2,4}a = « acca », « accca » ou « acccca »
? Désigne le caractère précédant ? ou rien ba?c = « bc » ou « bac »
  • 11 C.-T. Gossen, 1970, p. 98, no 41.

21Inspectons à présent la quatrième ligne du Tableau 2. Cette fois, la conjonction « que » est écrite « ke », une autre particularité du picard11. Il nous faut donc une expression régulière qui désigne à la fois ces deux graphies. Les crochets [] ne peuvent pas être utilisés ici, puisque la différence entre « que » et « ke » consiste en plus d’un caractère. L’expression doit désigner les deux mots se terminant par « e » et débutant par « qu » ou « k ». L’opérateur | et les parenthèses () permettent d’obtenir ce résultat. Par l’expression (qu|k)e, nous indiquons à l’ordinateur que la première partie du mot, délimitée par les parenthèses, correspond à « qu » ou à « k ». Notons que la présence des parenthèses est nécessaire : sans celles-ci, le | signifie un choix entre tous les caractères qui se trouvent à sa gauche et tous ceux qui sont situés à sa droite (l’expression qu|ke désigne « qu » et « ke »). En la combinant avec l’expression construite précédemment, nous obtenons or[ou]nt (qu|k)e. Elle permet de traiter les quatre premières lignes de notre exemple.

22La raison pour laquelle elle ne permet pas de traiter la cinquième ligne du Tableau 2 est que le mot « orront » y est écrit avec deux « r ». Nous pouvons ici utiliser le quantificateur +, qui indique que le caractère à la suite duquel il est placé peut être répété un nombre quelconque de fois. L’expression régulière or+ont désigne donc les mots « oront », « orront », « orrront », etc. Notre expression régulière d’ensemble devient donc or+[ou]nt (qu|k)e. Notons que d’autres quantificateurs permettent de spécifier de manière plus précise le nombre de répétitions tolérées. Ainsi, l’expression or{1,2}ont désigne seulement « oront » et « orront », c’est-à-dire les mots comprenant une à deux occurrences de « r ». Nous aurions aussi pu utiliser l’opérateur ?, qui signale que le caractère situé à sa gauche peut être présent (une fois) ou pas. Nous aurions dès lors écrit orr?ont : le ? indique que le deuxième « r » peut (mais ne doit pas forcément) apparaître.

23Enfin, dans la dernière ligne du Tableau 2, la formule « verront et oront » est inversée en « oront et verront ». Parmi les expressions régulières permettant de traiter cette inversion, citons (or+[ou]nt|ver+[ou]nt) (qu|k)e, qui utilise | pour opérer un choix entre les deux verbes, et (o|ve)r+[ou]nt (qu|k)e, qui exploite le fait que les deux verbes se ressemblent assez fort.

24Cette expression régulière finale permet donc de baliser l’ensemble des clauses du Tableau 2. Le traitement de corpus plus conséquents ne comporte pas de difficulté conceptuelle supplémentaire : si d’autres éléments de syntaxe sont utilisés et si les expressions qui en résultent sont plus longues, le principe de fonctionnement est exactement le même.

Repérage des anthroponymes

  • 12 Voir par exemple D. Nadeau & S. Sekine, 2007.
  • 13 Cette convention est néanmoins très souvent respectée par les transcripteurs et éditeurs.

25Le repérage des anthroponymes mentionnés dans les actes est une autre application des expressions régulières dans l’analyse semi-automatique d’un corpus diplomatique. Si le problème plus général de l’identification des entités nommées dans un texte est reconnu par la littérature spécialisée comme un problème difficile12, il est traitable sans trop de difficultés dans le contexte qui est le nôtre. Pour ce faire, une condition doit être remplie : il faut que les éditions ou transcriptions des actes respectent une même convention, celle de la capitalisation de la première lettre des noms de baptême et des patronymes13.

26L’intérêt d’un tel repérage est clair : une mention conjointe de deux individus dans un acte signifie que ceux-ci sont liés, la forme de relation qu’ils entretiennent dépendant notamment de la nature de l’acte en question. On pourra ainsi identifier les débiteurs et les créanciers des contrats de dette en analysant l’ordre (relativement au verbe d’action de la première phrase du document) dans lequel ils sont mentionnés. Par exemple, l’ordinateur identifiera sans problème le débiteur et le créancier d’un acte dont le texte contient « Pieres dou Maresc doit comme se propre dette a Mehaut de Somrenghien », à condition que les anthroponymes et le verbe d’action aient été correctement balisés. La Figure 2 présente l’expression régulière utilisée pour ce faire. Analysons-la en détail.

Figure 2. Expression régulière utilisée pour repérer les anthroponymes

Figure 2. Expression régulière utilisée pour repérer les anthroponymes

27La première partie (no 1) traite le nom de baptême de l’individu. Nous exploitons ici certains « raccourcis » qui sont autorisés par la syntaxe des regex : l’expression [:lower:] désigne toute lettre minuscule, et [:upper:] toute lettre majuscule. L’expression régulière [:upper:][:lower:]+ désigne donc un mot formé d’une majuscule quelconque suivie d’une ou de plusieurs minuscules.

28Le reste de l’expression (nos 2 et 3) traite le patronyme. Les nombreux cas de figure qui doivent être pris en compte en compliquent un peu la structure. Nous devons en effet indiquer à l’ordinateur que tous les mots ou groupes de mots qui apparaissent dans la deuxième colonne du Tableau 4 sont des noms de famille ou doivent en tout cas être traités comme tels.

Tableau 4. Exemples de noms de famille à traiter

    #     Nom de famille Analyse
i Cantecaudiere un groupe, zéro particule
ii Li Tenderes un groupe, une particule
iii De Le Helde un groupe, deux particules
iv Vilains Au Poch deux groupes, zéro et une particule
v De Saint-Martin un groupe, une particule
vi Li Eschoiers De Saint-Jakeme deux groupes, une et une particules

29Pour construire une expression régulière permettant d’atteindre ce but, nous analysons un patronyme comme un ensemble de groupes de mots, chacun de ces groupes ayant la même structure. Celle-ci débute éventuellement par une ou deux particules : « a », « de », « dou », « de la », etc. La sous-expression régulière dédiée à ces dernières (no 2 dans la Figure 2) fait usage de l’opérateur | et du quantificateur {0,2}, qui indique à l’ordinateur qu’un patronyme est précédé de zéro (comme i dans le Tableau 4), une (ii) ou deux particules (iii). La deuxième sous-expression (no 3) désigne le patronyme lui-même, à l’exclusion des particules. Celui-ci se présente sous deux formes : il est, soit composé comme un prénom, c’est-à-dire d’une majuscule suivie d’un certain nombre de minuscules (ii), soit comme deux mots de ce type séparés d’un tiret (v). Enfin, nous prévoyons que les groupes « particule(s) + nom » apparaissent entre une et trois fois (d’où le quantificateur {1,3}). Les deux sous-expressions utilisées ensemble désignent donc tous les noms qui sont rassemblés dans le Tableau 4.

  • 14 Lorsque des motifs se dégagent dans les éléments à supprimer (par exemple les groupes de mots comm (...)

30Si les groupes de mots repérés de cette manière sont dans leur grande majorité des anthroponymes désignant les protagonistes des actes, il ne s’agit pas d’une règle absolue. L’expression régulière construite pour ce faire isole aussi un ensemble d’autres suites de caractères, dont nous devons nous débarrasser après coup14. C’est par exemple le cas de « Nostre Dame » dans « l’endemain dou jour Nostre Dame en sieptembre », de « Jhesu Crist » dans « Ce fu fait l’an de grasce Jhesu Crist MCCC et IV » ou de « Saint Brisse » dans « en le warde des eskievins de Saint Brisse ». Une étape de vérification manuelle des résultats obtenus par l’ordinateur est donc nécessaire ici.

31Cette méthode de repérage permet d’isoler plus de 17 000 anthroponymes mentionnés dans les 1 321 actes de notre corpus tournaisien. Ils ne correspondent néanmoins pas tous à des individus différents, d’où la nécessité d’effectuer une étape de traitement supplémentaire, la lemmatisation.

2. Lemmatisation des anthroponymes

32Les anthroponymes qui sont repérés à l’étape que nous venons de décrire ne peuvent pas être utilisés tels quels pour construire une base de données d’individus.

Principe et intérêt

33Pour ce faire, il est nécessaire de les lemmatiser, c’est-à-dire d’indiquer à l’ordinateur lesquels désignent les mêmes individus, et de constituer ainsi des familles en regroupant les personnes portant le même patronyme.

34Le problème de la lemmatisation des noms communs est bien connu. Cette tâche, souvent incontournable en fouille de textes anciens, consiste à faire correspondre chaque mot avec son lemme, c’est-à-dire avec sa forme non fléchie. Par exemple, une analyse morpho-syntaxique et l’utilisation d’un dictionnaire de formes permettent de relier les mots du latin classique domini, dominus et dominorum au même lemme dominus. Le problème n’est néanmoins pas toujours aussi simple. Il faut en effet recourir à d’autres méthodes lorsqu’il s’agit de traiter des noms pour lesquels il n’existe aucun dictionnaire reprenant toutes les formes distinctes qu’on pourrait rencontrer. C’est le cas des noms communs des langues dont les mots subissent beaucoup de variations de graphie, comme le latin médiéval ou l’ancien français. Il en va de même pour les noms propres, et en particulier pour les anthroponymes (aussi bien les noms de baptême que les patronymes) du picard médiéval dont il est question ici. Ceux-ci subissent des variations de graphie parfois très importantes, qui trouvent leur origine dans des phénomènes variés.

35Sans vouloir en dresser une liste exhaustive, mentionnons quatre d’entre eux. Avant tout, ces mots sont déclinés et se rencontrent parfois au cas sujet, parfois au cas régime. On lira ainsi « Jehans » et « Marien » lorsque ces noms de baptême appartiennent aux débiteurs des actes (sujets du verbe « devoir »), et « Jehan » et « Marie » lorsqu’il s’agit de créanciers (compléments d’objet indirect de ce même verbe). Il faut ensuite mentionner la féminisation d’une partie des patronymes tirés d’un nom commun lorsqu’ils s’appliquent à des femmes. Sans lemmatisation, comment l’ordinateur pourrait-il comprendre que « Marguerite la Sauderesse » est de la même famille que « Jean le Saudeur » (en l’occurrence sa veuve) ? Troisièmement, la Flandre et le nord de la France, origines des actes que nous considérons, ne sont pas des régions exclusivement francophones : il est donc relativement courant que les noms soient attestés simultanément en picard et en flamand, grâce à une traduction. On trouve ainsi à Ypres les familles Ventre / Buc, Ours / Beir, Meunier / Meulenare, Neuveglise / Nieukerke, etc. Enfin, et il s’agit du cas de loin le plus fréquent pour les noms de famille, d’autres variations ne suivent pas de règle systématique : il s’agit de fluctuations graphiques banales, qui sont souvent observées dans beaucoup de textes médiévaux. Pour une part importante, celles-ci trouvent sans doute leur origine dans une (quasi-)homophonie, comme on le devine par exemple dans Neuveglise / Noeveglise / Nueveglise.

  • 15 Ce n’est bien entendu pas forcément le cas, puisqu’il peut exister plusieurs individus portant le (...)

36Ces variantes doivent être réconciliées, sous peine de multiplier les doublons dans la base de données résultant de l’analyse semi-automatique : malgré les différences manifestes de graphie, les formes « Jehans De Neuveglise », « Jean De Noeveglise », « Jan Van Nieukerke » et « Jehan De Nueveglise » désignent probablement le même individu15.

  • 16 Ajoutons que ce processus doit être appliqué deux fois, une première fois aux noms de baptême, une (...)

37S’il n’est pas possible de lemmatiser ces noms propres sur la base d’un dictionnaire contenant toutes les formes existantes, nous pouvons néanmoins leur appliquer un autre genre de méthode, en remarquant que les différentes graphies d’un même anthroponyme sont généralement assez semblables entre elles. L’idée générale est de regrouper les graphies les plus proches et d’assigner à chacun des groupes ainsi constitués une forme de référence (celle-ci étant arbitrairement choisie parmi les formes du groupe constitué). Regroupement et proximité sont les deux ingrédients principaux de ce processus de lemmatisation. Il est nécessaire de les expliciter tous deux16.

Distance entre les noms

38Définissions d’abord le concept de proximité entre les formes. Nous voulons traduire cette notion en un nombre et faisons donc appel au concept mathématique de distance. Suivant l’intuition, la distance séparant deux mots très semblables l’un par rapport à l’autre doit être petite, tandis que celle séparant deux mots très dissemblables doit être grande.

  • 17 Voir par exemple M. Piotrowski, 2012, p. 71-73.
  • 18 C’est cette liste d’opérations qui nous a poussé à choisir la distance de Damerau-Levenshtein parm (...)

39Il existe de nombreuses façons de définir une distance entre deux mots. Celle que nous utilisons porte le nom de Damerau-Levenshtein, ou encore de distance d’édition, et est très utilisée en fouille de textes historiques17. Sa valeur est égale au nombre d’opérations qu’il est nécessaire d’effectuer pour transformer le premier mot en le second (et vice versa). Ces opérations doivent être de l’un des types suivants : insertion d’un caractère, suppression d’un caractère, substitution d’un caractère par un autre, transposition de deux caractères adjacents18. Chacune d’elles pèse une unité dans la distance entre deux noms. Le Tableau 5 donne quelques exemples de calculs, qui clarifient cette définition abstraite.

Tableau 5. Exemples de calcul de la distance de Damerau-Levenshtein

Premier nom   Second nom   Distance   Opérations
Nueveglise Noeveglise 1 1. substitution du « u » en « o »
Nueveglise Neuveglise 1 1. transposition du « u » et du « e »
Nueveglise Noveglise 2 1. substitution du « u » en « o »
2. suppression du « e »
Nueveglise Neuveglysse 3 1. transposition du « u » et du « e »
2. substitution du « i » en « y »
3. insertion d’un « s »
Nueveglise Meulenare 7
  • 19 C.-T. Gossen, 1963 ; G. Des Marez, 1898.
  • 20 C.-T. Gossen, 1970, p. 91-94, no 38. Ce trait picard est l’un de ceux qui reviennent le plus fréqu (...)

40C’est une version affinée de cette distance que nous utilisons. La modification effectuée consiste à diminuer le poids de certaines opérations, qui ne comptent dès lors plus pour une unité entière dans le calcul, mais pour un nombre strictement inférieur à 1. Les opérations en question sont de deux types. D’une part, il s’agit de tenir compte des marques casuelles de l’ancien français. Par exemple, l’opération qui consiste à supprimer ou ajouter la lettre « s » en position finale (dans certains cas de figure) se voit associée à un poids de 1/4. De cette façon, les formes « Jehans » et « Jehan » apparaissent très proches l’une de l’autre, puisque la distance qui les sépare est égale à 1/4, et non à 1 comme le mesurerait la distance de Damerau-Levenshtein inchangée. D’autre part, il s’agit de tenir compte des particularités de la langue dans laquelle sont rédigés les actes traités, un ancien français fortement teinté des scriptae picarde et flamande19. Il existe en effet dans celles-ci des groupes de lettres qui sont utilisés par les rédacteurs de manière presque interchangeable. C’est le cas de la consonne « c » qui devient souvent « ch » devant les voyelles « e » et « i »20. Ainsi la distance entre les formes « Mace » et « Mache » est-elle aussi égale à 1/4 plutôt qu’à 1.

Regroupement hiérarchique

41À présent que nous avons défini le concept de proximité entre les formes des anthroponymes, il nous reste à clarifier ce que signifie le regroupement des formes les plus proches. Il s’agit de construire des groupes de formes qui sont toutes des variations de graphie du même anthroponyme, en nous basant sur la distance entre ces formes.

  • 21 Au sujet du regroupement hiérarchique, voir parmi de très nombreux ouvrages T. Hastie, R. Tibshira (...)
  • 22 Le calcul de la distance entre deux groupes qui contiennent plusieurs formes est un problème délic (...)

42Nous utilisons pour ce faire un algorithme de regroupement hiérarchique agglomératif (généralement désigné par son nom anglais, agglomerative hierarchical clustering21). Le principe de celui-ci est assez simple. Lors de la phase d’initialisation, chacune des formes est isolée et constitue un groupe à elle seule. L’algorithme consiste alors à calculer la distance entre tous les groupes (en utilisant la distance présentée ci-dessus), puis à fusionner les deux groupes dont la distance est minimale. Cette étape, qui réduit le nombre de groupes d’une unité chaque fois, est répétée jusqu’à ce qu’il n’y ait plus qu’un seul groupe contenant toutes les formes22.

43On présente généralement les résultats de cet algorithme par le truchement d’un dendrogramme, un graphique qui résume les regroupements qui ont été effectués au fur et à mesure (Figure 3). La hauteur à laquelle deux branches se rejoignent varie en fonction de la distance qui sépare les deux groupes correspondants. Il est par conséquent possible d’effectuer une partition des formes en un certain nombre de groupes.

  • 23 Voir par exemple Y. Jung et al., 2003.

44Il reste encore à déterminer les regroupements les plus pertinents, mais l’automatisation de cette opération est une question difficile et débattue dans la littérature spécialisée23. Dans notre contexte, il n’est pas question de laisser l’ordinateur s’en charger : l’historien intervient ici manuellement, pour déterminer les modalités de partition en coupant le dendrogramme à une hauteur donnée.

45La Figure 3 montre un exemple de dendrogramme obtenu par l’application de cette méthode à un nombre restreint de formes d’anthroponymes qui apparaissent dans les chirographes.

Figure 3. Classification hiérarchique ascendante de plusieurs formes anthroponymiques et sélection d’une des partitions produites par l’algorithme

Figure 3. Classification hiérarchique ascendante de plusieurs formes anthroponymiques et sélection d’une des partitions produites par l’algorithme

46En coupant à la hauteur 12, on obtient une partition en quatre groupes : {d’Eskerchin, d’Eskercin, d’Eskierchin, d’Eskiercin}, {Petis Deus, Petis Dieus, Petis Diex, Petis Diu}, {Chateus, Catels, Cateus} et {Nieukerke, Neuveglise, Nueveglise, Noeveglise, Noveglise}. Ceux-ci correspondent à un rassemblement intuitif des formes traitées. Il suffit maintenant d’attribuer à chacun de ces groupes une forme de référence choisie arbitrairement au sein de chacun d’eux (comme dans la Figure 3), et le processus de lemmatisation est terminé.

47Il est très important de remarquer que l’approche présentée ici, basée sur la distance de Damerau-Levenshtein, ne convient pas à toutes les variations de graphie. En effet, les diverses formes d’un même anthroponyme sont parfois séparées par une distance importante. Dans ce cas, le dendrogramme produit ne permet pas d’effectuer une partition satisfaisante. C’est par exemple le cas des traductions évoquées supra : la distance entre « Nieukerke » et « Nueveglise » (qui désignent le même patronyme) est égale à 7, soit autant que la distance entre « Nieukerke » et « Bonnebroke » (qui désignent deux noms bien distincts). Comme on peut le voir sur la Figure 4, le dendrogramme produit est alors problématique : en le coupant à la hauteur 15 (ii sur le graphique), on obtient quatre groupes incorrects (puisque l’un d’eux est {Nieukerke, Boinebroque, Boine Broke, Bonnebroke}) ; en le coupant à la hauteur 8 (i sur le graphique), on obtient cinq groupes dont un est constitué d’une seule forme {Nieukerke}.

Figure 4. Classification hiérarchique ascendante de plusieurs formes anthroponymiques et sélection d’une des partitions produites par l’algorithme

Figure 4. Classification hiérarchique ascendante de plusieurs formes anthroponymiques et sélection d’une des partitions produites par l’algorithme

48Il est par conséquent encore une fois nécessaire d’effectuer un travail de validation manuelle systématique des résultats obtenus par l’ordinateur.

3. Extraction des dates des actes

49Parmi les informations qui doivent être extraites des actes analysés se trouvent des indications de temps.

Principe et intérêt

50La date de l’acte lui-même, c’est-à-dire la date de sa rédaction, ou, dans le cas de notre corpus d’actes de juridiction gracieuse, de son authentification devant les échevins, n’est pas le seul renseignement de cette nature à revêtir de l’importance. En effet, certains types de contrats font systématiquement état de dates qu’il est également nécessaire d’extraire, comme le terme de l’emprunt dans le cas des reconnaissances de dette.

51Si l’intérêt qualitatif de connaître ces différentes dates va de soi du point de vue diplomatique, il faut souligner l’utilité de les intégrer à une base de données. D’une part, de nombreuses analyses peuvent être effectuées sur la base d’un examen simultané de l’ensemble de ces renseignements. Par exemple, les dates de passation des actes devant le banc échevinal nous informent sur celui-ci. La Figure 5 présente un graphique que nous intitulons « présençogramme » et qui permet de visualiser les apparitions (d’une partie) des échevins d’Ypres en tant que témoins officiels dans le corpus de chirographes.

52Dans celui-ci, l’axe horizontal est une ligne du temps à granularité quotidienne ; l’axe vertical est une liste des membres du magistrat. Un trait à un jour donné pour un échevin donné indique que celui-ci est mentionné dans au moins un acte ce jour-là. Les lignes verticales grises correspondent aux dates de renouvellement du banc échevinal (le 8 août de chaque année). On peut facilement y voir que les règles d’éligibilité aux charges municipales de la ville sont relativement bien observées : les individus ne siègent pas plus de deux ans de suite (d’où l’interruption d’un an dans les fonctions de certains) et les membres d’une même famille ne siègent pas simultanément (d’où l’alternance des fonctions dans la famille Lo).

  • 24 G. Espinas & H. Pirenne, 1906, p. 672‑673, no 841.

53D’autre part, ces dates permettent de passer les éditions de textes utilisées au crible de la critique. En effet, la confrontation automatique de toutes ces informations met en lumière des incohérences, notamment en ce qui concerne les listes annuelles d’échevins. Elle permet ainsi de rectifier en « M CC et LXIX » la date d’un chirographe éditée « M CC et LXIV » par Espinas et Pirenne24.

Figure 5. « Présençogramme » montrant les attestations d’une partie du banc échevinal d’Ypres dans le corpus de chirographes

Figure 5. « Présençogramme » montrant les attestations d’une partie du banc échevinal d’Ypres dans le corpus de chirographes

Millésime

  • 25 Nous ne discutons ici que des millésimes donnés en chiffres romains. Il n’est pas difficile de tra (...)
  • 26 Il s’agit bien entendu du millésime de l’acte en ancien style. La conversion en nouveau style est (...)

54Le millésime, toujours donné dans notre corpus selon l’année de l’Incarnation, est le premier élément à traiter, parce qu’il est le plus aisé à isoler25. Une expression régulière assez simple permet de le repérer directement dans la plupart des actes : MC{2,3}[IVXL]* désigne une chaîne de caractères composée d’une lettre « M », de deux ou trois (opérateur {2,3}) lettres « C », puis d’un nombre quelconque (opérateur *) de lettres « I », « V », « X » ou « L ». On peut ensuite compliquer cette expression de base en prévoyant la possibilité que ces trois groupes de lettres soient séparés d’espaces (« M CC XXXVI ») ou du mot « et » (« M et CC et LIII »), qu’ils soient délimités par des points (« .M.CCC. et .XIII. »), qu’ils apparaissent en minuscules, etc. Ces éléments satellites (espaces, mots de liaison, points) peuvent être insérés dans l’expression régulière, suivis de l’opérateur ?, pour indiquer leur caractère optionnel. Une fois le millésime isolé, il n’est pas difficile à l’ordinateur de transformer les chiffres romains en chiffres arabes26.

55Il faut cependant remarquer que certains millésimes présentent des caractéristiques qui les rendent difficiles à traiter directement à l’aide d’expressions régulières. Il s’agit d’une part de ceux qui expriment certains nombres en toutes lettres (« M CC et ciunquante et trois »), d’autre part de ceux qui utilisent des règles non standard pour les chiffres romains (« M CC IIII.XX et XI » pour 1291). S’il est malaisé pour l’ordinateur de les transformer automatiquement en chiffres romains, il est possible de repérer ces cas problématiques à l’aide de regex bien choisies, puis d’effectuer manuellement la conversion.

Jour et mois

56L’extraction du jour et du mois de la date traitée est la tâche suivante à effectuer. Les rédacteurs des actes utilisent de nombreuses façons de préciser ces informations, qu’il s’agit de couvrir toutes d’une manière ou d’une autre. Au sein de notre corpus, on peut les classer en deux groupes. Le premier comprend les dates données en précisant le quantième du mois, soit de manière absolue (« au sietisme jour de march »), soit de manière relative (« le darrain lundi de may »). Le second réunit les dates exprimées selon le calendrier liturgique, de manière absolue (« le nuit de Toutsains ») ou relative (« le lundi apries le Nostre-Dame »).

  • 27 Ce dictionnaire consiste en une liste des 31 premiers ordinaux français et de leur équivalent en c (...)

57Lorsqu’un jour du mois est directement désigné, il suffit de traduire le segment de phrase en question. Dans « au sietisme jour de march », l’adjectif numéral « sietisme » est ainsi traduit en « septième », que l’ordinateur peut convertir sans problème en chiffres à l’aide d’un dictionnaire27. Il en va de même pour le nom du mois. Des ajustements manuels peuvent être rendus nécessaires par les particularités linguistiques des documents (par exemple les noms picards des mois, comme « fenerech » pour juillet).

  • 28 Nous avons utilisé pour ce faire la librairie lubridate, issue de la méta-librairie tidyverse de R (...)
  • 29 Pour les xiiie et xive siècles, la différence entre les deux calendriers est égale à 7 jours jusqu (...)

58Les indications relatives du quantième du mois font le plus souvent référence à un jour de la semaine. Il est donc nécessaire, afin de les traiter automatiquement, d’identifier le quantième auquel correspond le jour de la semaine spécifié. Ainsi, pour « le darrain lundi de may », il faut déterminer quel jour de la semaine tombe le dernier jour de mai de cette année-là. Ceci ne pose pas de problème majeur, puisqu’un ordinateur effectue facilement ce calcul28. Il faut néanmoins bien faire attention aux différences entre les calendriers julien et grégorien29. Une fois que le jour de la semaine auquel correspond le dernier jour de mai est identifié, une simple soustraction permet d’obtenir la date exacte du dernier lundi de mai.

59Le deuxième groupe d’indications chronologiques est plus fastidieux à traiter. Il est en effet nécessaire de constituer un dictionnaire fournissant les noms des fêtes du calendrier liturgique et l’ensemble de leurs variantes graphiques, ainsi que leur date. Par exemple, on y trouve la ligne suivante :

Toussaint 01/11 Toussains, Tousains, Toussain, Toutsains, Toutsaint

  • 30 Par exemple A. Giry, 1925, p. 259‑273 ; Institut de recherche et d’histoire des textes, 2013.
  • 31 Il est possible, en utilisant le langage de requête SPARQL, d’interroger Wikidata pour produire un (...)

60Les outils traditionnels de chronologie médiévale peuvent bien entendu être utilisés pour produire les deux premières colonnes de ce tableau30. Nos tentatives d’automatiser efficacement la construction de ce dictionnaire, notamment à l’aide des ressources open data de Wikidata, sont restées vaines31.

  • 32 Il nous a fallu implémenter nous-même l’algorithme d’Oudin (J.-M. Oudin, 1940), puisque les packag (...)

61Une partie importante des fêtes liturgiques sont mobiles en fonction de la date de Pâques. Il est donc nécessaire d’identifier automatiquement celle-ci pour l’année correspondante. Les règles qui la déterminent sont compliquées, mais systématiques, et il est donc aisé de les traiter à l’aide d’un ordinateur. Il faut néanmoins à nouveau bien prendre garde aux différences entre les deux calendriers32.

62Une fois l’identification du jour et du mois effectuée, le millésime peut être converti de l’ancien style au nouveau style. Les trois villes étudiées utilisent le style de Pâques aux xiiie et xive siècles. Il est donc nécessaire d’ajouter une unité aux millésimes des dates situées entre le premier janvier et Pâques.

Conclusion

63Après cette présentation de trois étapes clefs de notre méthodologie d’analyse semi-automatique d’un corpus d’actes, il nous semble nécessaire de prendre un peu de recul. Soulignons tout d’abord que les outils mis en œuvre – parmi lesquels les expressions régulières, le regroupement hiérarchique, le calcul d’une distance entre des mots – sont connus depuis bien longtemps dans les communautés scientifiques habituées aux démarches quantitatives. Comme c’est souvent le cas dans les études d’humanités numériques, l’originalité de notre approche tient seulement au rassemblement de ces techniques et à leur application à un corpus historique.

64Revenons ensuite sur le degré de généralité de cette méthodologie. Nous l’avons dit, celle-ci n’est pas directement applicable à n’importe quel corpus diplomatique. Des trois étapes que nous avons évoquées, la première est sans doute celle dont la portée est la moins générale. En effet, la pertinence de l’utilisation de regex pour le découpage des textes tient à la forte homogénéité de notre corpus, les actes considérés partageant une structure très similaire. Cette méthode de traitement n’est donc envisageable que pour des ensembles documentaires qui présentent cette caractéristique.

65Les deux autres étapes de la méthodologie, si elles ne possèdent pas un caractère tout à fait général, sont plus facilement adaptables à d’autres contextes. Les opérations de lemmatisation des anthroponymes et d’extraction des dates sont en effet applicables à des corpus de types et de langues différents, moyennant une adaptation éventuelle de la définition de la distance entre deux formes et des dictionnaires utilisés.

66Ajoutons encore que, si le gain de temps dans le dépouillement des sources est l’objectif qui nous a poussé à mettre en œuvre ces étapes de traitement, il n’est pas le seul avantage de la semi-automatisation de l’analyse. Premièrement, le processus mis en place est systématique : il permet d’éviter bon nombre d’erreurs (de manipulation, d’encodage, etc.) qu’aurait commises un humain travaillant sans l’aide de l’ordinateur. Deuxièmement, il est réplicable : l’élargissement du corpus à de nouveaux actes de même nature (par exemple dans le cadre d’une extension de la période considérée) n’exige qu’un effort modéré. Troisièmement, il est réversible : si l’historien en vient à douter d’une des hypothèses utilisées au cours du processus, il est aisé de modifier les paramètres correspondants et d’appliquer la méthodologie sur cette nouvelle base de travail.

67Insistons enfin sur l’importance de l’intervention de l’humain après l’action de la machine, fondement de la distinction, évoquée supra, entre traitements automatique et semi-automatique. La vérification des résultats obtenus par l’ordinateur est une étape obligatoire de l’analyse d’un corpus, qu’il ne faut négliger sous aucun prétexte. Les raisons de cette importance peuvent être regroupées en deux catégories.

  • 33 « That is the reason why the use of computers in linguistics demands a lot of dedication and hard (...)

68La première d’entre elles, évidente, concerne l’efficacité matérielle du processus. Cette phase de validation permet de contrôler la production de celui-ci et d’éviter ainsi – ou en tout cas de limiter – les non-sens, les erreurs, etc. Sans elle, comme le souligne déjà Roberto Busa, « l’ordinateur ne produirait que des amas de déchets instantanés33 ». Il est donc essentiel d’entremêler critique numérique et critique historique pour mener à bien un projet de ce type. L’ajout de ce nouvel ingrédient au processus de critique mobilisé dans tout travail d’historien est un exercice qui ne va pas de soi et auquel les chercheurs en sciences humaines ne sont généralement pas habitués. Il requiert une bonne compréhension des éléments du processus automatisé en question, aussi bien dans leurs fondements théoriques que dans leur implémentation.

  • 34 A. Farge, 1989.

69La seconde raison qui justifie l’importance de cette intervention humaine consiste en un ensemble de considérations qu’on pourrait qualifier de psychologiques et dont le rôle est moins flagrant, mais à notre avis considérable. L’étape de validation permet à l’historien de se convaincre que les résultats obtenus ont du sens, qu’ils sont pertinents et font avancer son étude. De plus, et cet aspect est peut-être plus décisif, cette phase permet au chercheur de renforcer le lien qu’il entretient avec les sources qu’il mobilise, en partie endommagé ou effacé par l’intervention de la machine. Elle permet donc de réinstaurer la « relation intime » que l’historien entretient avec ses documents, qu’a si bien décrite Arlette Farge34.

Haut de page

Bibliographie

Sources imprimées

Espinas, Georges & Pirenne, Henri, Recueil de documents relatifs à l’histoire de l’industrie drapière en Flandre, Bruxelles, Commission royale d’histoire, 1906.

Travaux

Antonijević, Smiljana, Amongst Digital Humanists: An Ethnographic Study of Digital Knowledge Production, New York, Palgrave Macmillan, 2015.

Blackburn, Bonnie & Holford-Strevens, Leofranc, The Oxford Companion to the Year: An Exploration of Calendar Customs and Time-Reckoning, Oxford, Oxford University Press, 1999.

Busa, Roberto, « The Annals of Humanities Computing: The Index Thomisticus », Computers and the Humanities, vol. 14, 1980, p. 83-90.

Carcel Ortí, Maria, Vocabulaire international de la diplomatique, Valence, Universitat de València (Collecció Oberta), 1997.

Des Marez, Guillaume, « Note sur l’emploi de la langue française à Ypres », in Godefroid Kurth (dir.), La frontière linguistique en Belgique et dans le nord de la France, vol. 2, Bruxelles, Académie royale de Belgique (Mémoires couronnés et autres mémoires, 48), 1898, p. 107-124.

Farge, Arlette, Le goût de l’archive, Paris, Seuil, 1989.

Friedl, Jeffrey E. F., Mastering Regular Expressions, Sebastopol, O’Reilly Media, 2006.

Giry, Arthur, Manuel de diplomatique, Paris, Alcan, 1925.

Gossen, Charles-Théodore, Grammaire de l’ancien picard, Paris, Klincksieck (Bibliothèque française et romane, série A 19), 1970.

Gossen, Charles-Théodore, « La scripta des chartes picardes », in Georges Straka (dir.), Les anciens textes romans non littéraires, Paris, Klincksieck (Actes et colloques, 1), 1963, p. 17-31.

Grolemund, Garrett & Wickham, Harley, « Dates and Times Made Easy with lubridate », Journal of Statistical Software, vol. 40, no 3, 2011, p. 1-25.

Hastie, Trevor, Tibshirani, Robert & Friedman, Jerome, The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Berlin, Springer (Springer Series in Statistics), 2001.

Hockey, Susan, « The History of Humanities Computing », in Susan Schreibman, Ray Siemens & John Unsworth (dir.), A Companion to Digital Humanities, Oxford, Blackwell (Blackwell Companions to Literature and Culture), 2004, p. 3-19.

Institut de recherche et d’histoire des textes, Millesimo, 2013.
URL : http://millesimo.irht.cnrs.fr

Jones, Steven E., Roberto Busa, S. J., and the Emergence of Humanities Computing: The Priest and the Punched Cards, New York, Routledge, 2016.

Jung, Yunjae, Park, Haesun, Du, Ding-Zhu & Drake, Barry L., « A Decision Criterion for the Optimal Number of Clusters in Hierarchical Clustering », Journal of Global Optimization, vol. 25, no 1, 2003, p. 91‑111.

Lusignan, Serge, « Écrire au nom de la ville : le français picard des clercs de Douai (1370-1440) », in Corinne Leveleux, Anne Rousselet-Pimont, Pierre Bonin & Florent Garnier (dir.), Le gouvernement des communautés politiques à la fin du Moyen Âge : entre puissance et négociation (villes, finances, État), Paris, Panthéon-Assas, 2010, p. 43‑51.

Nadeau, David & Sekine, Satoshi, « A Survey of Named Entity Recognition and Classification », Lingvisticæ Investigationes, vol. 30, no 1, 2007, p. 1-20.

Oudin, Jean-Marie, « Étude sur la date de Pâques », Bulletin astronomique, vol. 12, 1940, p. 391-410.

Piotrowski, Michael, Natural language processing for historical texts, San Rafael, Morgan & Claypool (Synthesis lectures on human language technologies, 17), 2012.

R Core Team, R: A Language and Environment for Statistical Computing, Vienne, R Foundation for Statistical Computing, 2017.
URL : https://www.R-project.org

Reddy, Chandan K. & Vinzamuri, Bhanukiran, « A Survey of Partitional and Hierarchical Clustering Algorithms », in Charu C. Aggarwal & Chandan K. Reddy (dir.), Data Clustering: Algorithms and Applications, New York, CRC Press, 2014, p. 87‑110.

Reingold, Edward M. & Dershowitz, Nachum, Calendrical Calculations, Cambridge, Cambridge University Press, 2018.

Haut de page

Notes

1 « It was clear to me, however, that to process texts containing more than ten million words, I had to look for some type of machinery » (R. Busa, 1980, p. 83). Sauf mention contraire, c’est nous qui traduisons.

2 Parmi de très nombreux exemples, voir S. Antonijević, 2015, p. 12.

3 Nous utiliserons tout au long de cet article le terme « clause » pour désigner les sous-parties dont sont composés les actes considérés, qu’elles correspondent ou non aux découpages habituels de la diplomatique. Comme nous le verrons, nous extrayons ainsi des actes une « clause de notification » (qui correspond à la notification de la diplomatique classique), mais aussi une « clause d’auteur », qui donne le nom de l’auteur de l’acte.

4 Le chirographe est un acte « établi en deux exemplaires (et parfois davantage) d’une teneur identique, sur une même feuille de parchemin, chacun des éléments étant ensuite séparé, “parti”, en coupant selon un trait ondulé ou en forme de dents de scie » (M. Cárcel Ortí, 1997, p. 30, no 44).

5 Notons que les actes étudiés ne sont pas tous disponibles sous la même forme : certains nous sont parvenus sous la forme d’originaux, tandis que d’autres ont été détruits durant les deux guerres mondiales et ne sont disponibles que sous la forme d’éditions, de fragments ou de résumés. Nous disposons du texte intégral de plus de 2 150 actes et du résumé de plus de 5 000 actes. Les documents que nous analysons sont donc issus de transcriptions (les nôtres et celles de plusieurs autres chercheurs) et de plus de 70 ouvrages de l’historiographie. Deux opérations de pré-traitement ont été effectuées sur le corpus avant application de la méthodologie présentée ici : la suppression des appels de note et la transformation des caractères accentués en leur équivalent non accentué. Les conventions d’édition utilisées par les différents transcripteurs, très disparates, n’ont donc pas été normalisées. Cette hétérogénéité nous empêche d’utiliser certains éléments des textes (comme la ponctuation, très sensible au choix de chaque transcripteur) et nous oblige à sélectionner des outils aussi flexibles que possible.

6 Toutes les étapes de la méthodologie présentée dans cet article ont été implémentées dans le langage de programmation statistique R (R Core Team, 2017). Notons toutefois que n’importe quel langage de ce niveau convient pour ce faire.

7 À titre d’exemple, la base qui est générée à partir de notre corpus de reconnaissances de dette douaisiennes comprend ainsi 491 lignes et 143 colonnes ; certaines clauses stipulant des conditions assez particulières, beaucoup de colonnes sont presque entièrement vides.

8 La « clause de conseil » spécifie que les protagonistes doivent s’en remettre au conseil des échevins pour ce qui concerne l’action juridique en question ; la « clause de liberté » stipule que le bien concerné est libre de toute autre obligation ; la « clause de monnaie » précise que le remboursement doit s’effectuer dans une monnaie particulière.

9 C.-T. Gossen, 1970, p. 84, no 28b.

10 Parmi les très nombreux travaux traitant des expressions régulières, un ouvrage se dégage d’après nous comme une référence essentielle : J. E. Friedl, 2006.

11 C.-T. Gossen, 1970, p. 98, no 41.

12 Voir par exemple D. Nadeau & S. Sekine, 2007.

13 Cette convention est néanmoins très souvent respectée par les transcripteurs et éditeurs.

14 Lorsque des motifs se dégagent dans les éléments à supprimer (par exemple les groupes de mots commençant par « Saint »), une expression régulière bien choisie permet de s’en débarrasser. Les autres cas doivent être traités à la main.

15 Ce n’est bien entendu pas forcément le cas, puisqu’il peut exister plusieurs individus portant le même nom à la même époque. Négliger les homonymes est donc une hypothèse de travail, dont il s’agit d’évaluer la pertinence.

16 Ajoutons que ce processus doit être appliqué deux fois, une première fois aux noms de baptême, une seconde fois aux patronymes.

17 Voir par exemple M. Piotrowski, 2012, p. 71-73.

18 C’est cette liste d’opérations qui nous a poussé à choisir la distance de Damerau-Levenshtein parmi toutes les distances existantes. Beaucoup de variations graphiques présentes dans les sources peuvent en effet être aisément décrites à l’aide de ces opérations. C’est en particulier le cas de l’inversion de deux caractères adjacents (comme à la deuxième ligne du Tableau 5), qui fonde la différence entre les distances de Levenshtein et de Damerau-Levenshtein (la première ne considérant pas les transpositions de lettres voisines, à la différence de la seconde).

19 C.-T. Gossen, 1963 ; G. Des Marez, 1898.

20 C.-T. Gossen, 1970, p. 91-94, no 38. Ce trait picard est l’un de ceux qui reviennent le plus fréquemment dans les sources diplomatiques, à Douai en tout cas (S. Lusignan, 2010, p. 48).

21 Au sujet du regroupement hiérarchique, voir parmi de très nombreux ouvrages T. Hastie, R. Tibshirani & J. Friedman, 2001, p. 520-528 ; C. K. Reddy & B. Vinzamuri, 2014.

22 Le calcul de la distance entre deux groupes qui contiennent plusieurs formes est un problème délicat. Dans les exemples donnés ici, c’est la distance minimale entre toutes les formes des deux groupes qui est choisie. Il est néanmoins possible d’effectuer le calcul avec la distance moyenne ou la distance maximale entre toutes les formes des deux groupes. Bien que les effets de ce choix aient été soulignés de nombreuses fois (voir T. Hastie, R. Tibshirani & J. Friedman, 2001, p. 523-525), les trois options mènent à des résultats similaires pour le cas qui nous occupe.

23 Voir par exemple Y. Jung et al., 2003.

24 G. Espinas & H. Pirenne, 1906, p. 672‑673, no 841.

25 Nous ne discutons ici que des millésimes donnés en chiffres romains. Il n’est pas difficile de traiter ceux qui ont été retranscrits en chiffres arabes par les éditeurs. Notre corpus ne comporte qu’un nombre restreint d’actes dont le millésime est donné en toutes lettres. Ces cas peuvent être traités par l’utilisation conjointe de regex et d’un dictionnaire.

26 Il s’agit bien entendu du millésime de l’acte en ancien style. La conversion en nouveau style est effectuée sur la base de la date complète, comme discuté infra.

27 Ce dictionnaire consiste en une liste des 31 premiers ordinaux français et de leur équivalent en chiffres.

28 Nous avons utilisé pour ce faire la librairie lubridate, issue de la méta-librairie tidyverse de R. Pour les détails de l’implémentation, voir G. Grolemund & H. Wickham, 2011.

29 Pour les xiiie et xive siècles, la différence entre les deux calendriers est égale à 7 jours jusqu’au 28 février 1300, et à 8 jours après cette date (E. M. Reingold & N. Dershowitz, 2018, p. 161‑205 ; B. Blackburn & L. Holford-Strevens, 1999, p. 677‑682).

30 Par exemple A. Giry, 1925, p. 259‑273 ; Institut de recherche et d’histoire des textes, 2013.

31 Il est possible, en utilisant le langage de requête SPARQL, d’interroger Wikidata pour produire une liste des saints fêtés dans le calendrier liturgique (URL : https://w.wiki/84Z). Néanmoins, il est difficile de faire automatiquement la part des choses entre les saints fêtés au Moyen Âge et les autres, et de distinguer entre les saints homonymes (par exemple entre les 16 saints nommés Jacques retournés par la requête).

32 Il nous a fallu implémenter nous-même l’algorithme d’Oudin (J.-M. Oudin, 1940), puisque les packages R existants à notre connaissance ne donnent que la date de Pâques selon le calendrier grégorien.

33 « That is the reason why the use of computers in linguistics demands a lot of dedication and hard work. Without them, computers would only produce “in real time” monuments of waste » (R. Busa, 1980, p. 90).

34 A. Farge, 1989.

Haut de page

Table des illustrations

Titre Figure 1. Évolution de quelques aspects du formulaire des reconnaissances de dette à Douai
URL http://0-journals-openedition-org.catalogue.libraries.london.ac.uk/histoiremesure/docannexe/image/13534/img-1.jpg
Fichier image/jpeg, 443k
Titre Figure 2. Expression régulière utilisée pour repérer les anthroponymes
URL http://0-journals-openedition-org.catalogue.libraries.london.ac.uk/histoiremesure/docannexe/image/13534/img-2.jpg
Fichier image/jpeg, 708k
Titre Figure 3. Classification hiérarchique ascendante de plusieurs formes anthroponymiques et sélection d’une des partitions produites par l’algorithme
URL http://0-journals-openedition-org.catalogue.libraries.london.ac.uk/histoiremesure/docannexe/image/13534/img-3.jpg
Fichier image/jpeg, 749k
Titre Figure 4. Classification hiérarchique ascendante de plusieurs formes anthroponymiques et sélection d’une des partitions produites par l’algorithme
URL http://0-journals-openedition-org.catalogue.libraries.london.ac.uk/histoiremesure/docannexe/image/13534/img-4.jpg
Fichier image/jpeg, 716k
Titre Figure 5. « Présençogramme » montrant les attestations d’une partie du banc échevinal d’Ypres dans le corpus de chirographes
URL http://0-journals-openedition-org.catalogue.libraries.london.ac.uk/histoiremesure/docannexe/image/13534/img-5.jpg
Fichier image/jpeg, 2,1M
Haut de page

Pour citer cet article

Référence papier

Sébastien de Valeriola, « L’ordinateur au service du dépouillement de sources historiques »Histoire & mesure, XXXV-2 | 2020, 171-196.

Référence électronique

Sébastien de Valeriola, « L’ordinateur au service du dépouillement de sources historiques »Histoire & mesure [En ligne], XXXV-2 | 2020, mis en ligne le 01 janvier 2024, consulté le 13 janvier 2025. URL : http://0-journals-openedition-org.catalogue.libraries.london.ac.uk/histoiremesure/13534 ; DOI : https://0-doi-org.catalogue.libraries.london.ac.uk/10.4000/histoiremesure.13534

Haut de page

Auteur

Sébastien de Valeriola

Université libre de Bruxelles, département des Sciences et technologies de l’information et de la communication (STIC), et ICHEC Brussels Management School, laboratoire QUARESMI, Bruxelles (Belgique). E-mail : sebastien.de.valeriola@ulb.be

Haut de page

Droits d’auteur

Le texte et les autres éléments (illustrations, fichiers annexes importés), sont « Tous droits réservés », sauf mention contraire.

Haut de page
Search OpenEdition Search

You will be redirected to OpenEdition Search