1Dans la vallée d’Azun, on raconte « qu’une fée était condamnée à demeurer dans un lac jusqu’à ce qu’un homme, qui se trouverait à jeun après avoir mangé, l’épouserait. Un beau-fils, du nom d’Abbadie, se promenant au temps que les blés grandissent, prit un grain, le rompit entre ses dents, pour voir s’il était mûr : il avait résolu l’énigme ; il épousa la fée et en eut des enfants ; mais l’ayant, par malheur, appelée fée, hade, ou folle, holle, selon les uns, dame de l’eau, daune d’aygue, selon les autres, elle retomba sous le charme : car les fées ne doivent pas être appelées par leur nom. De celle-ci, à en croire les flatteurs indigènes, serait issu Bernadotte, le Béarnais roi de Suède, qui descend en effet des Abbadie de Sireix, dans la vallée d’Azun » (Ravier 1986, 102).
2Or ce récit en rappelle d’autres, de la même région, qui narrent à chaque fois l’enchantement d’une femme sous la forme d’une créature aquatique, qui se marie avec un mortel ou est libérée du sortilège qui l’accable lorsqu’un mortel consomme un grain de blé ou résout une énigme (« être à jeun après avoir mangé »). La levée du sort s’accompagne cependant d’un tabou : ne jamais prononcer le nom de l’héroïne maléficiée, sous peine de la voir reprendre son état premier. Lorsque ce tabou est rompu, cela peut conduire au retour définitif ou provisoire de la femme à son état de créature aquatique.
3M’appuyant sur un corpus rassemblant neuf versions de ce conte (Ravier 1986, 94-95, 95-96, 97-98, 99, 100-101, 102, 102-103, 104 ; Arnaudin 1994, 266-267), je souhaiterais montrer ce que peuvent apporter les statistiques à une étude comparée des contes et des mythes, et comment celle-ci permet de répondre à différentes questions. Il ne s’agira bien sûr que d’un aperçu très général de méthodes qui se sont fortement perfectionnées ces dernières années.
Question : peut-on mettre en évidence une structure commune à plusieurs contes en s’appuyant sur les mots employés dans les récits ?
4Il est possible de s’appuyer sur la « lettre » des récits pour en analyser le contenu. Dès le début des années soixante, certains chercheurs se sont appuyés sur le contenu des récits pour mettre en évidence la récurrence de certains mots ou combinaisons de mots, reflétant selon eux une certaine vision du monde des locuteurs du mythe (voir par exemple Köngas-Maranda et Maranda,1962 ; Colby et al. 1963, 1966 ; Kalin 1966). J’ai également repris cette approche, qui m’a par exemple permis de montrer que certains contes-types s’organisaient sous la forme d’associations récurrentes de mots constituant une sorte de « squelette » verbal (d’Huy 2014a) et que des antonymes se présentaient souvent à proximité l’un de l’autre dans les textes (d’Huy 2014b, d’Huy 2021), faisant des contes des outils de médiation « construits sur des oppositions plus faibles que celles qu’on trouve dans les mythes » (Lévi-Strauss 1973, 154) : père/mère, mari/femme, etc.
5Pour analyser le corpus de contes occitans, j’ai utilisé ici le logiciel libre Iramuteq 0.7 alpha 2 (Ratinaud 2009). Celui-ci analyse le contenu du récit sous la forme d’une « fenêtre », ici de 40 mots, qui glisse le long du texte. Chaque texte est analysé séparément, ce qui permet d’éviter que la surreprésentation d’un mot dans quelques textes seulement biaise l’ensemble de l’analyse. Le logiciel construit ensuite un dictionnaire de « formes lexicales » qui sont lemmatisées. Autrement dit, Iramuteq réduit automatiquement les mots à leur racine et à leur classification grammaticale. Par exemple, les verbes conjugués sont convertis en infinitif, les pluriels en singulier, et ainsi de suite.
6Chaque texte est découpé en segments. La segmentation est obtenue automatiquement sous forme de phrases ou de parties de phrases coupées par la ponctuation naturelle et parfois sous forme d’unités un peu plus grandes constituées par la concaténation de plusieurs phrases successives. À l’intérieur de chaque segment, le logiciel cartographie la distribution des formes sélectionnées par le chercheur pour l’analyse (noms, verbes, etc.). Les résultats sont ensuite collationnés et rassemblés pour être analysés.
7Le logiciel vise à regrouper les formes en fonction des similitudes et des différences dans la distribution du vocabulaire. L’analyse repose sur une série de bipartitions calculées à partir d’un tableau binaire (présence/absence) croisant les formes lexicales et les segments. L’ensemble de partitions qui maximise l’inertie inter-classes conduit au premier ensemble de partitions. Ensuite, le logiciel vérifie si chaque unité est échangeable d’une classe à l’autre afin de contrôler la robustesse du résultat. Une fois que tous les segments de texte ont été partitionnés en deux classes, l’algorithme répète l’opération à chaque étape pour la plus grande des classes restantes jusqu’à ce que le nombre requis d’itérations ait été effectué.
8Revenons à notre corpus. J’ai réalisé une analyse de similitude à partir des neuf textes à ma disposition. J’ai sélectionné les noms, verbes et adjectifs qui apparaissaient au moins trois fois dans l’ensemble des textes, en adoptant ensuite pour les traiter un critère de cooccurrence et une présentation des résultats sous la forme dite de Fruchterman reingold (figure 1).
Figure 1. Arbre de cooccurrence se fondant sur les associations lexicales récurrentes dans les textes de notre corpus.
9Le graphe obtenu permet de comprendre la fréquence de chaque mot et leurs associations les plus fréquentes. La taille des mots indique leur fréquence. La connexion entre les nœuds indique les associations entre mots. L’épaisseur des connexions représente le nombre de cooccurrences entre eux.
10Comme le montre la figure 1, le nuage de mots met en évidence une structure commune aux différents récits. On y retrouve des groupements de mots associés à la découverte de la fée et l’énonciation du tabou (jeune, fille, homme, enchantement, condition, etc.), la vie quotidienne du couple (berger, vivre, heureux, etc.), la rupture du tabou (enlever, disparaître, femme, etc.), le jeûne probatoire (grain, dent, orge, rompre, etc.) ainsi que le motif du fil de soie, que l’on retrouve dans quelques versions, et qui consiste en l’action du futur amant qui, rembobinant ledit fil, finit par découvrir la fée.
11La classification effectuée par le logiciel montre ainsi que l’énonciation des contes étudiés repose sur une proximité lexicale redondante, des mots semblables étant utilisés dans des contextes similaires. Cette approche permet d’aborder les contes en termes de réseaux sémantiques d’éléments. Cependant, on ne retrouve pas, contrairement à d’Huy 2014 et d’Huy 2021, l’association de termes contraires, ce qui pourrait s’expliquer par le plus faible nombre et l’hétérogénéité des textes étudiés.
Question : peut-on mettre en évidence les « contaminations » entre différents types de contes ?
12Mais l’analyse précédente possède un biais. Aucun récit n’est jamais totalement « pur ». Les différents types de contes fonctionnent souvent comme autant de briques séparées, que l’art du contage combine pour donner naissance à de nouvelles créations. Ainsi, pour Lutz Röhrich (1976, 291), « la contamination est l’essence de la poésie populaire ». Pour Vladimir Propp (1928, 14-15), « les contes de fées ont une particularité : les parties d’une histoire peuvent être transportées sans aucun changement dans une autre histoire ». L’importance de la contamination dans la transmission des contes a été largement étudiée, et le lecteur curieux pourra se reporter à divers articles de l’Enzyklopädie des Märchens, notamment « Affinität » (Voigt 1977), « Assoziation » (Fisher et Lüthi 1977) et « Kontamination » (Shojaei Kawan 1996). Notre approche statistique des contes ne peut donc faire l’économie de cette dimension. Mais comment prendre en compte cette variabilité ?
13Il est nécessaire pour cela de rapprocher les versions du conte que nous étudions de l’un des types reconnus par le catalogue d’Aarne-Thompson-Uther (2011). Un type de contes est un schéma narratif particulier dans lequel les épisodes et les motifs narratifs sont organisés de manière suffisamment stable. Remarquons au passage qu’un recoupement automatique par type est envisageable en se fondant sur les récurrences lexicales observées dans la première partie, certains obstacles demeurant cependant à lever (d’Huy 2014a).
14Un type est avant tout un outil de classification et d’étude des récits de transmission orale, permettant d’établir une structure là où la diversité ne serait autrement qu’apparente. En plus de définir chaque type, le catalogue d’Aarne-Thompson-Uther (dit ATU) répertorie les « combinaisons » les plus fréquentes entre types, qui peuvent appartenir à de mêmes cycles narratifs ou tendre à se combiner ou se contaminer.
15Le récit occitan que nous étudions semble s’intégrer sous l’ATU 400, « The Man on a Quest for His Lost Wife », avec lequel il partage : 1/ le passage d’un pacte entre un homme et une créature surnaturelle souvent liée à l’eau ; 2/ la rupture du pacte/tabou ; 3/ le départ de la créature surnaturelle vers son milieu naturel, et, généralement, 4/ la tentative de « reconquérir » la femme. La rubrique « combinaisons » associé au type 400 indique que ce type est souvent lié aux ATU 300, 301, 302, 303, 304, 314, 323, 325, 326, 329, 402, 425, 465, 505, 516, 518, 530, 531, 550, 552, 554, 566, 569, 590, 707, 810, 936 et 1159.
16La représentation de ces combinaisons peut prendre la forme d’une collection de types de contes interagissant en tant que système. Chaque type constituerait un sommet du réseau et serait relié à certains autres par des arêtes non dirigées, indiquant les interactions les plus fréquentes entre contes. Cette approche par réseau d’un corpus de récits oraux n’est pas nouvelle, Pádraig Mac Carron et Ralph Kenna ont par exemple travaillé sur l’existence de « réseaux sociaux » qui sous-tendraient certains récits (Mac Carron et Kenna 2012), d’autres auteurs s’intéressant davantage à l’évolution de réseaux particuliers de contes populaires (Karsdorp et van den Bosch 2016 ; d’Huy 2018).
Figure 2. Modélisation des relations unissant des contes-types en utilisant une centralité de données.
Un numéro a été attribué à chaque conte. Le numéro 47 renvoie à l’ATU 400 : « The Man on a Quest for His Lost Wife ». Pour plus de détails, voir d’Huy 2019.
17En 2019, j’ai modélisé les relations existant entre différents types de contes de fée (ATU 300 à 745A ; figure 2), incluant l’ATU 400. Il s’est avéré que ce type relève d’un ensemble très restreint de récits qui sont particulièrement connectés aux autres, et forment de véritables « nœuds » stratégiques dans le réseau des contes, quel que soit le paramétrage choisi. Les propriétés de ce réseau sont en accord avec celles identifiées pour certains types de réseaux que l’on nomme « petits mondes » (Watts et Strogatz 1998). Si l’on supprime les contes les plus « centraux », la longueur moyenne du plus court chemin (soit le nombre de « sommets » à franchir) pour aller d’un type à un autre s’allonge considérablement. Les différents types, ou ensemble de types, semblent donc reliés par un très petit nombre de récits intermédiaires. Ces récits semblent donc plus importants que d’autres dans l’économie de la narration, agissant probablement pour les conteurs comme un intermédiaire mental ou un « échangeur autoroutier » entre des groupes distincts de contes-types. Le succès culturel et l’aire de diffusion des contes-types ne paraissent pas expliquer la centralité des récits, mais tous partagent la propriété d’être probablement extrêmement anciens, comme si la chair de notre folklore avait poussé sur une ossature bien plus vieille que lui.
Question : Est-il possible de reconstruire l’histoire d’un récit oral ?
18Dans ces conditions, serait-il possible de démontrer la grande ancienneté de l’ATU 400, dont nous avons vu que nos versions occitanes relevaient ?
19Il faut pour cela faire un détour par l’aréologie, soit l’étude de l’aire de diffusion du conte pour en déduire l’histoire. Le chercheur anglais Arthur Thomas Hatto relevait que « la nature de l’histoire de la Femme-Cygne [qui appartient également à l’ATU 400] et sa distribution en Eurasie et en Amérique du Nord suggèrent qu’il s’agit d’une histoire archaïque. C’est le genre d’histoire qui pourrait avoir plusieurs milliers d’années » (Hatto 1961, 344). En 1894, Charles-Félix-Hyacinthe Gouhier, comte de Charencey, a commencé l’étude de la répartition mondiale de ce type. Identifiant des versions amérindiennes et océaniennes, il place l’origine probable du récit en Océanie, avec un passage ultérieur en Amérique, autrement dit, au vu de nos connaissances actuelles et de la diffusion du récit dans le Nouveau-Monde, avant la fin du Pléistocène. Yuri Berezkin (2010, 2013) s’est quant à lui penché sur la distribution mondiale du motif de la « femme céleste », où un homme capture une femme venue du monde d’en haut puis se marie avec elle — ce qui est le cas dans les contes occitans. Ce chercheur a remarqué que toutes les versions où la femme est un oiseau migrateur se concentrent dans l’hémisphère nord, tandis que plus au sud, en particulier dans l’est et le sud-est de l’Asie et à l’ouest de l’Océanie, se trouvent des récits de femmes célestes, dont les protagonistes sont des oiseaux non-migrateurs, des étoiles ou des nymphes célestes à forme humaine. À la différence des versions septentrionales, ces récits ont généralement une valeur anthropogonique ou étiologique, expliquant par exemple l’origine des humains, des dieux, des corps célestes, des phénomènes atmosphériques ou des cultures. Des versions semblables sont identifiables en Amérique latine, région peuplée par la première vague migratoire venue d’Asie du Nord-Est. Yuri Berezkin en conclut que le mythe serait d’abord apparu sur les côtes pacifiques de l’Asie, avant de se diffuser dans le Nouveau-Monde. Puis un nouvel écotype serait apparu en Eurasie du Nord avant de passer plus tardivement dans le nord de l’Amérique, sans doute en mêmes temps que les Eskimos, vers 5000 avant notre ère.
20L’approche statistique permet d’augmenter ici la focale de l’analyse. On sait que les mythes sont adaptés au contexte où ils sont racontés, prenant les « couleurs locales » du lieu (ce que Karl Von Sydow nomme l’écotype ; Von Sydow 1927, 1948). Les peuples peuvent aussi faire diverger volontairement leur version d’un récit pour la différencier de celles que connaissent leurs voisins (voir par exemple Goddard 1904, 197 ; Grégoire 1932). Il arrive encore que des changements techniques, économiques ou sociaux conduisent à modifier une histoire. Mais l’ensemble des modifications touchant les mythes n’altèrent que très rarement la totalité de la structure. Elles se font progressivement. Certains traits tombent, d’autres prennent la relève.
21Il en est de même quand on adopte une perspective diachronique plutôt que spatiale. Si contes et mythes peuvent évoluer très lentement, ce qui explique la répartition non-aléatoire de certains d’entre eux sur la planète (voir par exemple Witzel 2012 ; Berezkin 2013 ; d’Huy 2020 ; Le Quellec 2021), ils ne se répètent pas sans changement. Or ces changements sont quantifiables. Comme le note Lévi-Strauss à propos des versions d’un mythe, « sous peine de détruire l’armature logique, et donc de les anéantir au lieu de les transformer, [l’esprit] ne peut leur apporter que des changements discrets, au sens mathématique qui est à l’opposé du sens moral du terme : le propre d’un changement discret étant de se manifester sans discrétion » (Lévi-Strauss 1971, 604). En d’autres mots, les récits semblent suivre une évolution avec modifications, similaire à celle qui gouverne en grande partie le règne des vivants. La métaphore n’est pas neuve, et irrigue depuis longtemps l’étude du folklore (Hafstein 2000 ; d’Huy 2020, 52-56). Les contes et les mythes ne sont cependant pas des êtres vivants, leur rapprochement avec ces entités reposant sur un nombre fini de caractéristiques : 1/ un récit oral peut se décomposer en unités discrètes héritables ; 2/ celles-ci peuvent être modifiées lors de leur transmission, conduisant à l’apparition de nouvelles versions du même récit ; 3/ cette modification n’est jamais complète, car un tel bouleversement conduirait à la disparition de la notion de « groupe ».
22Si on accepte que l’écart structurel existant entre deux versions d’un même mythe soit fonction de l’âge de leur dernier principal ancêtre commun, et si cet écart s’avère quantifiable, il devient alors possible de modéliser leur évolution sous la forme d’un arbre phylogénétique. Un tel arbre montrera les relations de proximité entre les différentes versions, mais permettra aussi d’en proposer une histoire, chacun de ses nœuds représentant un ancêtre commun. L’arbre obtenu sera une construction hypothétique, dont la valeur dépendra du corpus et des paramétrages choisis pour établir l’arbre.
23La construction d’arbres phylogénétiques, qui s’appuie sur différentes versions d’un récit oral trouve son origine dans la méthode historico-géographique classique, elle-même fondée sur la philologie (Krohn 1926 ; Frog 2013). Par exemple, dans The Tale of Cupid and Psyche (1955), Jan-Öjvind Swahn a utilisé ce type d’approche pour examiner la transmission des ATU 425 et 428. Les approches phylogénétiques ont récemment été renouvelées en appliquant et adaptant des logiciels développés pour la recherche génétique à des objets culturels. Les premiers arbres à avoir été établis à partir de différentes versions d’un même mythe le furent par Thomas S. Abler (1987) et Jun’ichi Oda (2001) à des vues de classement, puis j’ai commencé, à partir de 2012, à les utiliser afin de reconstruire l’histoire passée de certains mythes et contes (d’Huy 2012 ; voir une synthèse dans d’Huy 2020).
24En 2016, j’ai créé un corpus de dix versions de l’ATU 400, appelé dans l’article « mythes de la femme-oiseau » et identifiés dans sept isolats linguistiques : les Aïnous, les Basques, les Bourouchaski, les Coréens, les Cofán, les Haïda, les Tlingit, les Natchez (d’Huy 2016). Un isolat linguistique est une langue dont on ne peut montrer aucune filiation avec d’autres langues. L’existence d’une frontière linguistique forte, séparant de telle langue des langues voisines, est d’importance, puisqu’il a été montré que des emprunts de récits oraux de part et d’autre de telles frontières s’avèrent extrêmement isolés (Ross et al. 2013). Par ailleurs, un isolat linguistique peut perdurer des millénaires en un lieu donné, liant une langue, une culture orale et un ancien peuplement (d’Huy 2020, 260-261).
25Ces dix versions de l’ATU 400 ont été analysées grâce à des méthodes issues de la biologie évolutive. J’ai établi pour cela une base de données décomposant chaque version en 88 mythèmes — soit des phrases les plus courtes possibles et contenant le minimum d’information (d’Huy 2020, 42-44). J’ai codé chaque mythème par 1 lorsqu’il était présent dans la version étudiée, par 0 sinon. Les données manquantes ont été codées par un « ? ». Àchaque version a donc été associée une chaîne de caractères binaires, permettant d’estimer leur plus ou moins grande proximité.
26J’ai ensuite utilisé différents algorithmes (bayésien : figure 3 ; parcimonie et consensus : figure 4 ; UPGMA, Neighbor-Joining) pour fabriquer des arbres, chaque méthode possédant ses forces et ses limites (pour un aperçu, voir d’Huy 2020, 65-70). Lorsque cela était possible, j’ai enraciné automatiquement les arbres en employant la méthode du point médian. Celle-ci repose sur l’idée que l’ensemble des versions évoluent plus ou moins à la même vitesse, et que, par conséquent, la racine doit se trouver à équidistance de l’ensemble des feuilles.
Figure 3. Arbre bayésien de la « femme-oiseau » obtenu grâce à dix versions sélectionnées.
Figure 4. Arbre phylogénétique de la « femme-oiseau » construit grâce à la méthode de consensus.
27Lorsqu’il était possible de l’évaluer grâce à des outils statistiques (comme l’indice de rétention), ceux-ci ont montré que la structure des arbres permettait d’expliquer la plus grande partie des données, et que l’hypothèse d’une descendance avec modification suffisait pour rendre compte de la majeure partie des variations existant entre les différentes versions.
28L’ensemble des arbres s’accorde ainsi sur une émergence du mythe en Asie de l’Est, puis une diffusion par le détroit de Béring lorsque celui-ci pouvait être encore franchi à pied. Il aurait pénétré simultanément, ou peu après, en Eurasie, avant de franchir de nouveau le détroit de Béring, accompagnant peut-être l’arrivée tardive des Esquimaux. La structure des arbres obtenus corrobore donc l’hypothèse de diffusion de Yuri Berezkin, tout en s’appuyant sur de tout autres fondations.
29Afin de prendre en compte les incertitudes liées au choix de l’arbre le plus probable parmi plusieurs autres possibles, j’ai utilisé un logiciel nommé Densitree qui permet de montrer l’ensemble des arbres de consensus synthétisés dans le cas d’un arbre bayésien (figure 5). Cet arbre confirme l’arrivée en deux temps du récit en Amérique, mais met également en évidence deux clades bien différenciés : la version bourouchaski se groupe avec la version haïda et les deux versions tlinglit, tandis que les autres versions forment un clade à part, sans doute plus ancien.
Figure 5. Arbre phylogénétique de la « femme-oiseau » faisant la synthèse de tous les arbres obtenus grâce à Mr. Bayes.
30L’ordre chronologique proposé ici correspond aux résultats de nombreuses autres études en mythologie comparée. Celles-ci se rejoignent pour montrer une diffusion de la mythologie depuis l’Eurasie jusqu’en Amérique en trois temps, d’abord sur l’ensemble du Nouveau-Monde, puis dans l’hémisphère nord, et enfin dans sa région septentrionale (voir par exemple Berezkin 2013 ; Le Quellec 2014 ; d’Huy 2020). Andrey Korotayev et Daria Khaltourina (2011) ont montré que cette hypothèse est la plus à même d’expliquer la répartition de nombreux motifs mythologiques amérindiens, et que chaque ensemble de motifs était corrélé à la diffusion de certains marqueurs génétiques présents chez les populations actuelles, suggérant une co-diffusion partielle des peuples et de leurs mythes.
31Une fois la solidité des arbres établis, il a été possible d’en utiliser la structure pour remonter, nœud après nœud, depuis les versions actuelles jusqu’à leurs ancêtres probables. Ces reconstructions sont avant tout statistiques et permettent d’estimer, au vu de l’état d’un corpus et du choix d’un certain nombre de paramètres, les formes antérieures d’un récit. Dans le cas qui nous intéresse, le proto-mythe, qui serait apparu en Asie de l’Est, aurait eu plus de 75 % de chance de ressembler à celui-ci :
Le héros, un jeune homme, bon chasseur, surprend des femmes se baignant dans un lac. Elles ont conservé leur aspect d’immortelles ou de créatures surnaturelles. Elles se déshabillent et leur corps ou leurs habits sont couverts de plumes. Le héros se saisit des habits ou du plumage de la plus belle des femmes, mais ne les cache pas. La femme nue demande au héros de lui rendre sa tenue. Elle promet [en échange] de l’épouser. Ils vivent d’abord dans le monde du héros. Un jour, la femme revêt son ancien plumage et, après avoir vécu sur terre, retourne au ciel. L’homme tente de la retrouver. Il exécute plusieurs tâches difficiles et dangereuses, et sa quête se termine heureusement, par des retrouvailles avec sa femme. Cependant, à la fin de l’histoire, le héros vit seul ou rentre seul chez lui.
32Nous retrouvons ainsi notre fée occitane, sinon son nom, qu’il ne faut pas prononcer, du moins l’ombre de son histoire.