Navigation – Plan du site

AccueilNuméros87La variable orthographique il y a...

La variable orthographique il y a en France et au Québec : étude d’un corpus de commentaires publiés sur le site communautaire Reddit

The orthographic variable il y a in France and in Quebec: a quantitative study of a corpus of Reddit comments
Marie Flesch

Résumés

La variation sociolinguistique a été décrite comme existant à plusieurs niveaux : phonétique, phonologique, syntaxique ou encore lexical (Wolfram, 1993). Cet article explore un autre type de variation : la variation orthographique. Il se focalise sur la variable orthographique il y a, composée de sa variante standard « il y a » et de plusieurs variantes non standard dont « y’a » et « ya ». À partir d’un corpus composé de commentaires publiés sur r/france et r/Quebec, deux forums du site communautaire Reddit, il étudie les effets de trois facteurs sociodémographiques (genre, âge, pays) et d’un facteur linguistique (position dans l’énoncé) sur les réalisations graphiques de il y a. Les résultats révèlent des corrélations significatives entre les choix des internautes, leur pays et leur âge, ainsi qu’un effet de la position des variantes dans l’énoncé.

Haut de page

Texte intégral

1. Introduction

  • 1 Pour Short Message Service. Désigne un message court envoyé via un téléphone mobile.
  • 2 Les tokens peuvent être des mots, mais aussi des signes de ponctuation, des chiffres ou encore des (...)

1De nombreux travaux ont décrit la variation orthographique et lexicale de la communication médiée par ordinateur en français, principalement dans l’écrit SMS1 (Blondeau & Tremblay, 2022 ; Cougnon, 2010 ; Panckhurst et al., 2013 ; Roche et al., 2016, par exemple). Ces travaux s’attachent majoritairement à cataloguer les procédés du français « électronique » : abréviations, anglicismes, acronymes, graphies phonétisantes, émoticônes, etc. Rares sont ceux qui s’inscrivent dans une approche variationniste, prenant en compte les effets de variables sociodémographiques et linguistiques sur l’utilisation des éléments orthographiques et lexicaux du français d’internet et des SMS. Certaines études se sont intéressées à la variation géographique, mettant en lumière des variantes orthographiques et lexicales qui reflètent les pratiques de communautés linguistiques (Cougnon, 2010 ; Cougnon & Ledegen, 2010), tandis que quelques travaux ont utilisé des méthodes quantitatives et inférentielles pour mettre en évidence les effets du genre et de l’âge des personnes sur leurs pratiques d’écriture (Cougnon & François, 2010 ; Flesch, 2022 ; Flesch, 2023). Cette étude quantitative, qui s’inscrit au croisement de la linguistique de corpus et de la linguiste variationniste, a pour ambition de montrer que la variation orthographique du français d’internet peut être analysée comme tout phénomène linguistique variable. Elle se focalise sur la variable orthographique il y a, composée de la variante standard « il y a » et des variantes non standard « y a », « y’a », « ya », « il ya » et « il y’a ». Elle se base sur deux corpus de commentaires publiés en 2021 et en 2022 sur Reddit : un corpus de 12,3 millions de tokens2 écrits par 478 personnes sur le forum r/france et un corpus de 5,7 millions de tokens produits par 233 personnes sur le forum r/Quebec. Utilisant la technique statistique de la régression logistique binaire avec effets mixtes, elle analyse les effets de trois facteurs sociodémographiques (le genre, l’âge et le pays des internautes) et d’un facteur linguistique (la position des variantes au sein des phrases) sur les réalisations graphiques de il y a.

1.1. La variable sociolinguistique

2La sociolinguistique variationniste est une branche de la sociolinguistique qui explore la variation et le changement linguistique. Elle étudie l’utilisation de différents dialectes, accents ou langues, mais aussi de variables sociolinguistiques. Introduit par Labov (1966), le concept de variable sociolinguistique désigne un élément qui peut être réalisé de deux façons (ou plus), ou « variantes ». Dans sa description la plus simple, la variable sociolinguistique est donc le fait de « dire la même chose de plusieurs façons différentes » (Labov, 1972 : 271). Par exemple, la variable (ING), abondamment étudiée par la sociolinguistique variationniste de l’anglais, est composée de deux variantes : la prononciation vélaire [ɪŋ] et la prononciation alvéolaire [ɪn] dans les syllabes finales en -ing. Labov définit également la variable sociolinguistique comme étant très fréquente, étant réalisée de façon généralement inconsciente, faisant partie intégrante de structures plus vastes et pouvant facilement être quantifiée sur une échelle linéaire (Labov, 1966 : 32). Elle est également « hautement stratifiée » : elle est distribuée de façon asymétrique dans différentes couches de la population (Labov, 1972 : 8), c’est-à-dire corrélée avec des facteurs sociaux (âge, genre, classe sociale, etc.). À partir des années 1980, avec notamment les travaux de Milroy (1980) et d’Eckert (1989), la recherche sociolinguistique a montré que les variantes sont porteuses de sens sociaux différents, utilisés par les locutrices et locuteurs pour construire leurs identités, comme elles et ils le font par leurs choix vestimentaires (Drummond & Schleef, 2016). Par exemple, là où les travaux sociolinguistiques des années 1970 ont établi des liens entre l’utilisation des variantes de la variable (ING) et le genre, le statut socioéconomique et le niveau de formalité (Trudgill, 1974 ; Mock, 1979 ; Woods, 1979), les études plus récentes mettent en lumière les sens sociaux des variantes : la prononciation [ɪŋ] peut notamment indexer l’éloquence (Campbell-Kibler, 2009), et la prononciation [ɪn] la camaraderie (Kiesling, 1998).

3Tout comme la définition de la variable sociolinguistique a évolué pour intégrer différentes dimensions liées à l’identité, les domaines d’intérêt des sociolinguistes ont aussi changé. Au départ concentré sur la phonologie, le variationnisme s’est mis à explorer la variation à d’autres niveaux, répertoriés par Wolfram (1993) : catégories structurelles, catégories sémantiques, morphèmes flexionnels, relations syntaxiques ou encore éléments lexicaux. En France et dans les espaces francophones, le travail variationniste a par exemple abondamment étudié la variable du « ne » de négation (Ashby, 1981 ; Coveney, 1989 ; Sankoff & Vincent, 1977). Il s’est aussi intéressé à la chute du /r/ dans les groupes consonantiques (Laks, 1977), à la liaison (Encrevé, 1988), au « e » caduc interconsonantique (Hansen, 2000), aux interrogatives (A. Coveney, 1996) ou encore à l’emploi du subjonctif (Roussel, 2023). L’immense majorité des travaux variationnistes, sur le français ou d’autres langues, s’est focalisé sur l’oral parce que, avant les années 1990, les écrits informels comme les lettres ou les journaux intimes étaient difficiles d’accès et qu’il existait peu de situations interactives dans lesquelles l’écrit était le mode de communication privilégié.

1.2. Études sociolinguistiques de la communication médiée par ordinateur

4La démocratisation d’internet et la naissance des réseaux sociaux ont changé la donne, permettant de créer de grands corpus et donnant naissance à des travaux s’intéressant à la variation orthographique (Eisenstein, 2013 ; Iorio, 2010 ; Squires, 2012). L’approche variationniste de l’orthographe a toutefois peu été employée pour décrire la langue française dans ses emplois numériques. La littérature portant sur la communication électronique en français, ou « communication médiée par ordinateur » (Panckhurst, 1997) s’attache surtout à cataloguer et à catégoriser ses procédés orthographiques et typographiques. Initiés par Anis (1998, 2003), les travaux réalisés portent principalement sur l’écrit SMS (Blondeau & Tremblay, 2022 ; Cougnon, 2010 ; Panckhurst et al., 2013 ; Roche et al., 2016). Leur objectif est souvent de montrer qu’il n’y a pas de « cacophonie orthographique » dans la communication médiée par ordinateur, mais que celle-ci possède des « règles propres », « conscientes ou inconscientes » (Cougnon, 2010 : § 22). Parfois, ils mesurent la distance entre les écrits électroniques et l’orthographe standard (Stark, 2015) ou avec l’oral (Bally, 2022).

5Quelques études ont exploré la variation géographique du français d’internet, mettant en évidence des différences d’usage. C’est le cas de Cougnon (2010), qui compare des corpus de SMS produits en France, en Belgique, en Suisse et au Québec, ou de Cougnon et Ledegen (2010), qui a étudié des SMS produits en Belgique et à l’ile de la Réunion. Cette étude met en évidence les traits phonétiques et les traits lexicaux par lesquels la variation s’exprime, faisant la distinction entre les pratiques ordinaires (termes familiers, abréviations, anglicismes, pratiques héritées de la prise de note), les pratiques spécifiques à l’écrit SMS (acronymes, émoticônes) et les régionalismes. Par exemple, dans un corpus de SMS québécois, Blondeau et Tremblay (2022) présentent des graphies représentant le vernaculaire québécois, comme « aik » ou « aek » qui reflètent l’effacement du /v/ dans « avec ». Les liens entre les pratiques d’écriture et des facteurs sociodémographiques comme le genre et l’âge ont fait l’objet de rares travaux sur la langue française (Cougnon & François, 2010 ; Flesch, 2023 ; Flesch, à paraitre), ce qui contraste avec la riche littérature portant sur l’anglais (Bamman et al., 2014 ; Coats, 2017 ; Flesch, 2020 ; Herring & Paolillo, 2006 ; Ilbury, 2020 ; Park et al., 2016 ; Squires, 2012 ; Waseleski, 2006) et d’autres langues (Coats, 2021 ; Hilte, 2019 ; Peersman et al., 2016).

1.3. La variable il y a

6À l’oral, la variable il y a se réalise par une variante prononcée en trois syllabes ([ilia]), par deux variantes en deux syllabes avec conservation ou disparition du [l] ([ilja] et ([ija]), et par une variante en une syllabe ([ja]). Elle a été décrite comme étant une variable « stable », qui ne témoigne pas d’un changement de la langue, la chute du [l] devant une consonne étant attesté depuis le 16e siècle (Blanche-Benveniste, 2010). La variante en une syllabe serait « une prononciation courante chez tous les locuteurs, qui ne peut pas servir à indiquer des pratiques particulières » selon Blanche-Benveniste (2010 : 150). Elle évoque les problèmes liés à la transcription de la variable dans les corpus oraux, notant que de nombreuses transcriptrices et transcripteurs font des exceptions à leurs principes pour écrire les réalisations de la variable en un ou deux mots au lieu des trois de l’orthographe standard, parfois avec une apostrophe pour marquer la disparition du « il » (« ‘y a »).

  • 3 « Internet Relay Chat », ou « discussion relayée par internet », l’ancêtre de la messagerie instant (...)
  • 4 Le clavardage, ou chat, est une conversation écrite en temps réel sur internet.

7Les variantes graphiques que nous appellerons désormais « non standard », par opposition à la graphie en trois mots enseignée à l’école, existent depuis des décennies, voire des siècles, dans la littérature. On trouve notamment la variante en deux mots sans apostrophe sous la plume de Céline (« Y a de tout ce qu’il faut à bord », Voyage au bout de la nuit, cité par Grevisse et Goosse, 2008 : 256), et la variante en deux mots avec apostrophe dans des titres de chansons (« Y’a de la joie » de Charles Trenet, « Y’a le printemps qui chante » de Claude François, « Y’a d’la rumba dans l’air » d’Alain Souchon). Les variantes « y’a » et « y a » figurent dans le dictionnaire collaboratif Wiktionnaire (Wiktionnaire, s. d.-b, s. d.-a). La forme « ya » n’y figure pas, et est plus difficile à trouver dans la littérature et les écrits populaires. Il est possible que, même si elle existe dans certains écrits littéraires et informels, elle ait gagné en visibilité avec l’essor de la communication médiée par ordinateur. Cette variante peut être classée dans la catégorie des réductions graphiques avec « compactage », un procédé qui « dissout les frontières de mots et évoque le mot phonique » (Anis, 2003), à l’instar de « jsuis » pour « je suis » ou « keske » pour « qu’est-ce que ». Les variantes graphiques non standard de il y a peuvent également être placées du côté des « pratiques ordinaires », qui ne sont pas réservées à la communication médiée par ordinateur et ne reflètent pas un usage spécifique à une communauté linguistique. La variable orthographique il y a a été étudiée par Van Compernolle et Williams (2007), qui comparent ses réalisations dans trois corpus (IRC3, forums de discussion et clavardage4 modéré), notant que les formes non standard sont plus fréquentes dans la messagerie instantanée IRC que sur les autres plateformes.

1.4. Reddit

8Créé en 2005, Reddit est un site communautaire américain qui regroupe des centaines de milliers de forums de discussion portant sur des sujets divers et variés. Ces forums sont appelés « subreddits », et leur nom est toujours précédé du préfixe r/. Chaque forum possède ses propres règles, ses modératrices et modérateurs bénévoles, et souvent ses pratiques linguistiques particulières. De nombreux subreddits peuvent être considérés comme des « communautés de pratique » virtuelles (Leuckert & Leuckert, 2020) parce qu’ils répondent aux critères proposés par Androutsopoulos (2006), dont l’existence de rôles sociaux, de hiérarchies, de normes et d’une histoire commune. Ces communautés peuvent également être décrites comme étant « démographiquement maigres », pour reprendre le terme proposé par Iorio (2010 : 198) : les profils des utilisateurs et utilisatrices du site ne fournissent pas d’informations sur leur genre, âge ou statut socioéconomique. Comme c’est le cas dans de nombreux espaces du web, la plupart des commentaires mis en ligne sur Reddit sont écrits par des hommes (Aggarwal et al., 2020 ; Thelwall & Stuart, 2018).

2. Méthodologie

2.1. Les corpus

9Les corpus ont été créés à partir des forums r/france (ou « France ») et r/Quebec (ou « Québec »). En septembre 2022, au moment de la création du corpus, r/france comptait un million de membres. Décrit comme « Le subreddit pour ce qui concerne la France et les Français », r/france fait la part belle aux discussions sur l’actualité et la politique, mais on y trouve également des discussions sur la science, l’écologie et la cuisine. Le forum r/Quebec, comptait 246 000 membres en septembre 2022 ; ses thématiques sont similaires à celles de r/France.

  • 5 Cette interface de programmation tierce, qui permettait de recueillir davantage de données que l’in (...)

10Nous avons recueilli tous les commentaires publiés entre septembre 2021 et septembre 2022 sur ces deux forums avec pmaw (Podolak, 2021), une fonction Python wrapper qui permettait d’accéder à l’interface de programmation Pushshift et d’extraire des données depuis Reddit5. Les corpus ont été tokénisés avec le package R Quanteda, qui permet de créer, gérer et analyser des corpus textuels (Benoit et al., 2018) et ont été analysés avec le logiciel R, version 4.1.1 (R Core Team, 2021). Ils ont été « nettoyés » par la suppression des commentaires écrits dans d’autres langues que le français avec le package cld3 (Ooms, 2021) ; les URL et les commentaires cités au sein de commentaires ont également été supprimés. Nous avons aussi enlevé du corpus les 46 internautes ayant écrit des commentaires sur les deux forums, afin que les données soient les plus représentatives possibles du français de France et du Québec. L’annotation sociodémographique a été effectuée en deux temps. Tout d’abord, nous avons recherché dans le corpus des déclarations du type « je suis une femme » et « je suis un homme », ainsi que des marqueurs du genre grammatical, quand ils existent à l’oral et à l’écrit (« je suis curieux », « je suis curieuse »). Les internautes ont ensuite été automatiquement placés dans deux catégories de genre en fonction des résultats des requêtes. Après cette première annotation, il restait 5248 personnes (69 267 601 tokens) dans le corpus français, soit 7.40 % des 70 937 internautes du corpus initial, et 2329 personnes (24 822 491 tokens) dans le corpus québécois, soit 7.57 % des 30 771 internautes du corpus de départ.

11Dans un second temps, nous avons effectué des requêtes visant à déterminer l’âge des internautes, en utilisant le caractère « * », qui permet de rechercher n’importe quel mot dans le package Quanteda : « je suis né/e en » et « j’ai * ans ». Les résultats ont été inspectés manuellement pour éliminer les faux positifs (discours rapportés, plaisanteries, etc.) et pour vérifier, en se basant sur l’historique de commentaires des internautes, la justesse de l’identification automatique du genre.

12Après ces deux phases d’annotation, il reste 12 281 671 tokens produits par 478 personnes dans le corpus français, et 5 669 327 tokens produits par 233 personnes dans le corpus québécois (Tableau 1).

Tableau 1 : Composition des corpus

France

Québec

Tokens

12 281 671

5 669 327

Femmes

81 (16.95 %)

50 (21.46 %)

Hommes

397 (83.05 %)

183 (78.54 %)

Internautes

478

233

13Dans chaque corpus, il y a une majorité d’hommes (83.05 % dans le corpus français, 78.54 % dans le corpus québécois). L’âge moyen est de 30.79 ans (écart type = 7.93) pour r/france, et de 32.86 ans (écart type = 8.25) pour r/Quebec. La distribution de l’âge dans chaque corpus est présentée dans la figure 1.

Figure 1 : Distribution de l’âge des internautes dans les deux corpus

Figure 1 : Distribution de l’âge des internautes dans les deux corpus

2.2 Extraction des variantes

14Les différentes réalisations de la variable il y a ont été extraites du corpus avec kwic(), une fonction du package Quanteda qui permet de générer des concordances. Nous avons recherché la variante standard il y a ainsi que cinq variantes, identifiées grâce à une exploration manuelle du corpus : « y’a », « y a », « ya », « il y’a » et « il ya ». Nous avons utilisé la fonction filter() du package dplyr, qui permet de créer des sous-ensembles, (Wickham et al., 2023) pour obtenir des concordances distinctes pour les variantes avec et sans pronom, ce qui a permis d’éviter que les concordances de y a soit groupées avec celles de il y a, par exemple. Nous avons également identifié les occurrences de la négation « il n’y a » qui ont été groupées avec les occurrences de « il y a ». Enfin, nous avons annoté la position des variantes au sein des commentaires en créant deux catégories :

  • Début : variante apparaissant en début de commentaire, après une ponctuation fermante (point, point d’interrogation, point d’exclamation, points de suspension), ou après une parenthèse ouvrante.

  • Milieu : variante apparaissant après un mot ou une virgule.

15Cette annotation a été réalisée manuellement, après tri des lignes de concordance par le dernier mot ou signe précédant chaque occurrence, selon la méthode décrite par Schweinberger (2023). Les occurrences de chaque variante avec les métadonnées associées (position dans le commentaire, pays, âge et genre de l’internaute qui les ont produites) sont disponibles sur la plateforme web OSF (Open Science Framework) :
https://osf.io/​yr3h6/​?view_only=0280263a11744a94a7e9876c642c735a.

16Pour préserver l’anonymat des internautes, nous n’avons pas inclus le contexte des concordances. Le dépôt OSF contient également le code utilisé pour réaliser les analyses présentées ci-dessous.

3. Résultats

3.1. Résultats généraux

17L’ensemble des réalisations de la variable il y a représente 30 467 occurrences dans le corpus français, et 13061 occurrences dans le corpus québécois. La Figure 2 présente la fréquence relative par million de tokens de chacune des variantes, par corpus. La variante standard « il y a » est majoritaire, avec une fréquence relative de 1510.79 en France et de 1245.12 au Québec. La graphie « y’a » est la variante non standard la plus fréquente dans les deux corpus, avec une fréquence relative de 409.96 pour la France et de 609.24 au Québec. La réalisation « y a » est bien plus fréquente en France (fréquence relative = 402.39) qu’au Québec (fréquence relative = 143.05). Enfin, la variante « ya » est quant à elle plus fréquente au Québec (fréquence relative = 293.33) qu’en France (fréquence relative = 122.62). Les deux variantes non standard « il y’a » et « il ya » sont rares dans les deux corpus. La proportion du non standard est plus élevée au Québec qu’en France : les cinq variantes non standard représentent 45.95 % de toutes les réalisations de la variable au Québec, et 39.1 % des réalisations de il y a en France.

Figure 2. Fréquence relative des variantes étudiées, par corpus

Figure 2. Fréquence relative des variantes étudiées, par corpus

18Les variantes non standard apparaissent plus fréquemment en début de phrase que la variante standard. 35.61 % (n = 6379) des occurrences des variantes non standard se trouvent en début de commentaire ou après une ponctuation fermante, contre 21.63 % des occurrences de la variante standard (n =5541) (Tableau 2).

Tableau 2. Position des occurrences des variantes de la variable il y a

Variantes

Début

Milieu

Standard

5541 (21.63 %)

20073 (78.37 %)

Non standard

6379 (35.61 %)

11535 (64.39 %)

Toutes

11920 (100 %)

31608 (100 %)

3.2. Analyse sociodémographique

3.2.1. Statistiques descriptives

19Pour étudier les effets de l’âge, du genre et du pays sur l’utilisation de la variable il y a, nous avons retenu les 689 personnes qui ont produit les 43528 réalisations des différentes variantes. La variable numérique « âge » a été recodée en trois catégories : moins de 25 ans, 25 à 40 ans, et plus de 40 ans (Tableau 3).

Tableau 3 : Composition sociodémographique de l’échantillon du corpus utilisé pour les analyses (f = femmes ; h = hommes)

France

Québec

Moins de 25 ans

87 (17 f, 70 h)

29 (8 f, 21 h)

25 à 40 ans

308 (51 f, 257 h)

151 (32 f, 119 h)

Plus de 40 ans

70 (10 f, 60 h)

44 (6 f, 38 h)

20La variable dépendante a été codée de la façon suivante : 0 = réalisation standard « il y a », 1 = réalisation non standard (toutes variantes non standard confondues). La Figure 3 présente les probabilités observées de l’obtention d’une variante non standard, par rapport à celle de la variante standard, en fonction du pays, du genre, de l’âge, et de la position de la variante. Lorsque la probabilité dépasse 0.5, une réalisation non standard est plus probable qu’une réalisation standard. Le graphique suggère tout d’abord un effet possible de la position : dans tous les cas, la probabilité du non standard est plus élevée quand la variante apparait en début de phrase. Ensuite, la probabilité observée des réalisations non standard est plus élevée en Québec qu’en France, surtout chez les femmes. Il ne se dégage pas de tendance claire dans les effets du genre et de l’âge, même si on peut voir une possible corrélation négative entre utilisation du non standard et âge chez les femmes, et une possible différence entre femmes et hommes au Québec.

Figure 3 : Probabilité observée des variantes non standard dans les corpus

Figure 3 : Probabilité observée des variantes non standard dans les corpus

3.2.2. Statistiques inférentielles

21Pour savoir quelles variables ont un effet significatif sur la probabilité de production des variantes non standard, nous avons réalisé un modèle de régression logistique binaire à effets mixtes avec le package lme4 (Bates et al., 2015). Comme les observations ne sont pas indépendantes, les internautes ayant produit plusieurs réalisations de la variable « il y a », nous avons intégré un effet aléatoire correspondant à chaque personne. Cela permet de neutraliser la variation liée aux préférences individuelles des internaute et d’isoler les effets des variantes indépendantes (genre, âge, pays, position). Nous avons ensuite créé un modèle maximal, qui intégrait toutes les variables indépendantes ainsi que l’interaction du genre et de l’âge, et l’interaction du genre et du pays. La fonction drop1(), qui permet de comparer des modèles de régression, a été utilisée pour sélectionner les variables ; les interactions n’ont pas été retenues (Tableau 4). Les coefficients du modèle (LOR ou « logged odds ratio ») sont présentés avec exponentiation (OR ou « odds ratio »). Quand ils sont inférieurs à 1, l’effet de la variable indépendante est négatif, c’est-à-dire que la probabilité d’obtenir une variante non standard est plus faible que celle d’obtenir une variante standard. Les niveaux de référence pour les différentes variables sont : les femmes, les moins de 25 ans, les internautes de r/france et la position en début de phrase. Le modèle prédit l’utilisation des variantes non standard.

Tableau 4 : Modèle de régression logistique binaire avec effets mixtes

Coefficient (OR)

Erreur standard

z

p

(Intercept)

0.939

0.260

-0.244

0.808

Pays : Québec

1.711

0.169

3.185

0.001

Genre : Hommes

0.948

0.206

-0.260

0.796

Âge : 25-40 ans

0.932

0.218

-0.325

0.747

Âge : 40 ans et plus

0.495

0.274

-2.568

0.010

Position : Milieu

0.375

0.028

-34.709

<0.0001

22Selon le modèle, l’effet du genre n’est pas significatif. Celui du pays l’est en revanche : les internautes du Québec sont plus susceptibles d’utiliser des variantes non standard que les internautes de France (OR = 1.711, p = 0.001). La comparaison entre les trois groupes d’âge révèle que l’effet de l’âge est partiel : il n’y a pas de différence significative entre les moins de 25 ans et les 25-40 ans, mais les internautes les plus âgés ont moins tendance à utiliser les variantes non standard que le groupe le plus jeune (OR = -0.495, p = 0.01 comparés aux moins de 25 ans). Leur taux d’utilisation des variantes non standard est également significativement plus faible que celui des 25-40 ans (OR = 0.531 ; p = 0.003, calculés après changement de référence du facteur âge). Enfin, la position des variantes a également un impact significatif : la probabilité du non standard est plus élevée pour les variantes qui apparaissent au début d’une phrase ou d’un commentaire. C’est la variable qui a l’effet le plus significatif (valeur p la plus faible) et la taille d’effet la plus importante (OR = 2.66, quand le modèle a pour niveau de référence la position « milieu »). La Figure 4 montre les probabilités prédites par le modèle en fonction des trois variables ayant un effet significatif : âge, pays et position.

Figure 4 : Probabilité prédite des variantes non standard, effets significatifs de l’âge, du pays et de la position

Figure 4 : Probabilité prédite des variantes non standard, effets significatifs de l’âge, du pays et de la position

4. Conclusions

23Notre étude révèle l’importante variation dans les réalisations de la variable il y a : même si la forme standard domine dans les deux corpus, la proportion de non standard atteint 45.95 % au Québec et 39.1 % en France. Les trois variantes qui omettent le pronom « il » s’imposent ainsi comme des alternatives relativement répandues à la variante standard. On note toutefois une absence de consensus : aucune forme ne prend clairement le devant, et les préférences ne sont pas les mêmes dans le corpus québécois et dans le corpus français. Cette situation semble contraster avec celle de l’anglais : cette langue dispose de formes « consacrées » pour certaines variantes de prononciation, qui ne sont pas en compétition avec d’autres formes non standard, comme « gonna », « kinda » et « gotta » (Voir Flesch, 2020, pour l’étude de ces formes dans un corpus de commentaires de Reddit). Cela s’explique peut-être par le statut qu’ont ces formes non standard, notamment dans les dictionnaires. La graphie « y a » est mentionnée dans Le Grand Robert de la langue française dans la sous-entrée « il y a » de l’entrée « avoir », mais elle ne figure pas dans la dizaine d’exemples fournis, et figure dans une seule des dix citations littéraires présentées. Les variantes « y’a » et « ya » ne sont pas mentionnées. Par contraste, les variantes orthographiques phonétisantes anglaises « wanna », « kinda », « coulda » et bien d’autres sont des entrées dans l’Oxford English Dictionary et dans le dictionnaire Merriam-Webster (entre autres). Le fait qu’il n’y ait pas de forme orthographique non standard « de référence » pour la prononciation en une syllabe de il y a pourrait expliquer la diversité des formes constatée.

24Les analyses ont également montré qu’il y a peut bien être considérée comme une variable d’ordre sociolinguistique. Tout d’abord, le choix entre la variante standard et les variantes non standard est fortement influencé par un facteur linguistique : la position de la variable dans l’énoncé, avec une tendance à utiliser les variantes non standard en début de phrase. Ensuite, la variation orthographique de cette pratique du français « ordinaire » est liée à la géographie, avec une tendance plus forte à utiliser les formes non standard dans le corpus québécois. De plus, les internautes du Québec utilisent plus largement que les internautes de France « ya », la variante la plus éloignée de la variante standard, qui efface la frontière des deux mots pour refléter la prononciation, et « y’a », qui intègre peut-être l’apostrophe pour marquer la prononciation en une syllabe. La question est de savoir si ces résultats peuvent s’expliquer par une variation de l’oral (avec, par exemple, une plus forte tendance à utiliser la variante en une syllabe dans des situations formelles au Québec) ou par une différence des attitudes par rapport à l’orthographe en France et au Québec. Par exemple, la féminisation des noms de professions, qui a entrainé l’apparition de nouvelles graphies (les féminins en -eure), a commencé près de 20 ans plus tôt au Québec qu’en France, où elle a provoqué des débats houleux (Moreau, 2015). La part plus importante du non standard dans le corpus québécois pourrait refléter des attitudes moins conservatrices par rapport à l’orthographe.

25Notre étude n’a pas révélé d’effet du genre, ce qui montre que, même si le genre est le facteur sociodémographique le plus étudiée dans les travaux portant sur la variation sociolinguistique, il n’est pas forcément une variable explicative. Ce résultat fait écho à ceux d’une autre étude d’un corpus de r/france, qui portait sur six variables lexicales et sur l’omission du « ne » de négation, et qui n’a mis en évidence que deux différences significatives entre femmes et hommes (Flesch, 2022). En revanche, nos résultats mettent en lumière un effet de l’âge, au Québec comme en France, chez les femmes comme chez les hommes : les internautes de plus de 40 ans ont davantage tendance à choisir la variante standard, comparé aux deux groupes plus jeunes. Ce résultat peut être interprété de deux façons. Tout d’abord, il est possible que l’on soit en présence de ce que Labov (2001) appelle « age grading », ou stratification de l’âge, c’est-à-dire d’une variation liée au cycle de vie de personnes, qui se répète à chaque génération. La préférence marquée pour des formes standard pourrait être corrélée à des changements dans la carrière ou la vie familiale (scolarisation des enfants, par exemple) des internautes. D’un autre côté, il se peut que la différence constatée entre les plus de 40 ans et les autres groupes soit due à une évolution de la langue. Même si les variantes orthographiques non standard de la variable il y a ne sont que du « recyclage » de formes attestées depuis des siècles, et si la variable il y a est considéré comme étant « stable » à l’oral, il est possible que la communication médiée par ordinateur ait changé les pratiques d’écriture. La communication électronique, omniprésente dans nos vies, donne une visibilité sans précédent à des formes orthographiques non standard jusqu’alors sous-représentées. Par-là, elle les légitime, changeant la façon dont on conçoit l’orthographe (Shortis, 2009) et entrainant une évolution spontanée (Cougnon, 2010). Dans les deux cas, ce résultat montre toute la difficulté posée par la variable « âge », soulignée par Eckert (1998) : l’étude des liens entre pratiques linguistiques et âge se situe à l’intersection des étapes de la vie des personnes et de l’histoire de la langue.

5. Limites

26Notre étude a plusieurs limites. Tout d’abord, nous soulignons l’aspect réducteur de notre annotation automatique du genre basée sur le genre grammatical, qui ne prend pas en compte voire mégenre les personnes non binaires, c’est-à-dire leur attribue une identité de genre qui ne leur correspond pas. Nous avons tenté de les identifier, en recherchant des déclarations du type « je suis non binaire », mais les requêtes ont été infructueuses. Ensuite, pour des raisons pratiques, nous avons groupé toutes les variantes non standard de il y a dans notre analyse inférentielle. Il est possible que ces variantes n’aient pas toutes le même statut et les mêmes sens sociaux, et que nous ayons « effacé » cette variation.

Haut de page

Bibliographie

AGGARWAL, J., RABINOVICH, E., & STEVENSON, S., 2020, « Exploration of gender differences in COVID-19 discourse on Reddit », arXiv preprint arXiv:2008.05713.

ANDROUTSOPOULOS, J., 2006, « Introduction : Sociolinguistics and computer-mediated communication », Journal of sociolinguistics, 10(4), 419‑438.

ANIS, J., 1998, Texte et ordinateur  : L’écriture réinventée ? De Boeck Supérieur.

ANIS, J., 2003, « Communication électronique scripturale et formes langagières », Actes des Quatrièmes rencontres Réseaux humains/Réseaux technologiques, 57‑70.

ASHBY, W. J., 1981, « The loss of the negative particle ne in French : A syntactic change in progress », Language, 57(3), 674‑687.

BALLY, A.-S., 2022, « Les interrogatives totales en français québécois dans l’écrit SMS : à la croisée de l’oral et de l’écrit », dans F. Neveu et al. (éds.), 8e Congrès Mondial de Linguistique Française, vol. 138, 12006.

BAMMAN, D., EISENSTEIN, J., & SCHNOEBELEN, T., 2014, « Gender identity and lexical variation in social media », Journal of Sociolinguistics, 18(2), 135‑160.

BATES, D., MÄCHLER, M., BOLKER, B., & WALKER, S., 2015, « Fitting linear mixed-effects models using lme4 », Journal of Statistical Software, 67(1).

BENOIT, K., WATANABE, K., WANG, H., NULTY, P., OBENG, A., MÜLLER, S., & MATSUO, A., 2018, « quanteda : An R package for the quantitative analysis of textual data », Journal of Open Source Software, 3(30).

BLANCHE-BENVENISTE, C., 2010, « Où est le il de il y a ? », Travaux de linguistique, 61(2), 137‑153.

BLONDEAU, H., & TREMBLAY, M., 2022, « Écrire son vernaculaire  : Variation et normes communautaires dans les messages textes en français québécois », Journal of French Language Studies, 32(2), 120‑144.

CAMPBELL-KIBLER, K., 2007, « Accent, (ING), and the social logic of listener perceptions », American Speech, 82(1), 32‑64.

COATS, S., 2017, « Gender and lexical type frequencies in Finland Twitter English », Studies in Variation, Contacts and Change in English, 19.

COATS, S., 2021, « ‘Bad language’ in the Nordics : Profanity and gender in a social media corpus ». Acta Linguistica Hafniensia, 53(1), 22‑57.

COUGNON, L.-A., 2010, « Orthographe et langue dans les SMS. Conclusions à partir de quatre corpus francophones », Éla. Études de Linguistique Appliquée, 160(4), 397‑410.

COUGNON, L.-A., & FRANÇOIS, T., 2010, « Quelques contributions des statistiques à l’analyse sociolinguistique d’un corpus de SMS », JADT : 10th International Conference on Statistical Analysis of Textual Data, 619-630.

COUGNON, L.-A., & LEDEGEN, G., 2010, « ‘c’est écrire comme je parle’. Une étude comparatiste des variétés du français dans l’écrit SMS (Réunion-Belgique), dans M. Abecassis et G. Ledegen (éds.), Les voix des Français  : En parlant, en écrivant, Lang, Bern/New York, 39‑57.

COVENEY, A., 1989, Variability in interrogation and negation in spoken French, Newcastle, Newcastle University.

COVENEY, A., 1996, Variability in spoken French : A sociolinguistic study of interrogation and negation, Elm Bank.

DRUMMOND, R., & SCHLEEF, E., 2016, « Identity in variationist sociolinguistics », dans S. Preece (éd.), The Routledge handbook of language and identity, Routledge, 50‑65.

ECKERT, P., 1989. Jocks and burnouts : Social categories and identity in the high school. Teachers College Press.

ECKERT, P., 1998, Age as a sociolinguistic variable », dans F. Coulmas (éd.), The handbook of sociolinguistics, Wiley Blackwell, 151‑167.

EISENSTEIN, J., 2013, « Phonological factors in social media writing », Proceedings of the Workshop on Language in Social Media, 11‑19.

ENCREVÉ, P., 1988, La liaison avec et sans enchainement  : Phonologie tridimensionnelle et usages du français, Paris, Éditions du Seuil.

FLESCH, M., 2020, Lol thats how reddit talks  ;)  : Le site américain Reddit comme espace de variation de l’anglais. Étude de corpus intersectionnelle et quantitative d’usages non standard, au prisme du genre, de l’âge et de l’ethnicité, Université de Lorraine.

FLESCH, M., 2022, « Pratiques langagières informelles des femmes et des hommes en ligne  : Étude quantitative d’un corpus de commentaires publiés sur le site internet Reddit », dans F. Neveu et al. (éds.), 8e Congrès Mondial de Linguistique Française, vol. 138, 12007.

FLESCH, M., 2023, « La variation géographique et sociale dans le français d’internet : émojis et émoticônes en France et au Québec », TRANEL, 78(1), 19-40.

GREVISSE, M. & GOOSSE, M., 2008, Le bon usage (14e éd.), Bruxelles, De Boeck/Duculot.

HANSEN, A. B., 2000, « Le E caduc interconsonantique en tant que variable sociolinguistique », Linx. Revue des linguistes de l’université Paris X Nanterre, 42.

HERRING, S. C., & PAOLILLO, J. C., 2006, « Gender and genre variation in weblogs ». Journal of Sociolinguistics, 10(4), 439‑459.

HILTE, L., 2019, The social in social media writing : The impact of age, gender and social class indicators on adolescents’ informal online writing practices, Anvers, Universiteit Antwerpen.

ILBURY, C., 2020, « Sassy Queens : Stylistic orthographic variation in Twitter and the enregisterment of AAVE », Journal of Sociolinguistics, 24(2), 245‑264.

IORIO, J. B., 2010, Explaining orthographic variation in a virtual community : Linguistic, social, and contextual factors, Austin, University of Texas at Austin.

KIESLING, S. F., 1998, « Men’s identities and sociolinguistic variation : The case of fraternity men », Journal of Sociolinguistics, 2(1), 69‑99.

LABOV, W., 1966, The social stratification of English in New York City, Center for applied linguistics.

LABOV, W., 1972, Sociolinguistic patterns, Philadelphia, University of Pennsylvania Press.

LABOV, W., 2001, Principles of linguistic change, volume 2 : Social factors, Malden/Oxford, Blackwell.

LAKS, B., 1977, « Contribution empirique à l’analyse socio-différentielle de la chute des /r/ dans les groupes consonantiques finals », Langue Française, 34(1), 109‑125.

LEUCKERT, S., & LEUCKERT, M., 2020, « Towards a digital sociolinguistics. Communities of practice on Reddit », dans S. Rüdiger et D. Dayter (éds.), Corpus approaches to social media Amsterdam, John Benjamins Publishing Company, 15‑40.

LIFT_TICKET83, 2023, 1er mai, « Reddit Data API Update : Changes to Pushshift Access, », Reddit, r/modnews. www.reddit.com/r/modnews/comments/134tjpe/reddit_data_api_update_changes_to_pushshift_access/

MILROY, L., 1980, Language and social networks, Oxford, Blackwell.

MOCK, C., 1979, « The social maturation of pronunciation : A family case study », The Rural Learner, 1, 23‑27.

MOREAU, M.-L., 2015, « Le succès d’une politique linguistique  : À quelles conditions  ? Ce que la féminisation pourrait apprendre à la réforme de l’orthographe », dans W. Remysen (éd.), Les Français d’ici, Laval, Presses de l’Université Laval, 37‑58.

OOMS, J., 2021, Cld3 (1.4.2) [R].

PANCKHURST, R., 1997, « La communication ‘médiatisée’ par ordinateur ou la communication ‘médiée’ par ordinateur ? », Terminologies nouvelles, 17, 56‑58.

PANCKHURST, R., DÉTRIE, C., LOPEZ, C., MOÏSE, C., ROCHE, M., & VERINE, B., 2013, « Sud4science, de l’acquisition d’un grand corpus de SMS en français à l’analyse de l’écriture SMS », Epistémé, 9, 107‑138.

PARK, G., YADEN, D. B., SCHWARTZ, H. A., KERN, M. L., EICHSTAEDT, J. C., KOSINSKI, M., STILLWELL, D., UNGAR, L. H., & SELIGMAN, M. E. P., 2016, « Women are warmer but no less assertive than men : Gender and language on Facebook », PLOS ONE, 11(5).

PEERSMAN, C., DAELEMANS, W., VANDEKERCKHOVE, R., VANDEKERCKHOVE, B., & VAN VAERENBERGH, L., 2016, « The effects of age, gender and region on non-standard linguistic variation in online social networks, » arXiv preprint arXiv:1601.02431.

PODOLAK, M., 2021, « How to scrape large amounts of Reddit data », The Startup, https://medium.com/swlh/how-to-scrape-large-amounts-of-reddit-data-using-pushshift-1d33bde9286

R CORE TEAM, 2021, R: A language and environment for statistical computing. https://www.R-project.org/

ROCHE, M., VERINE, B., LOPEZ, C., & PANCKHURST, R., 2016, « La néographie dans un grand corpus de SMS français  : 88milSMS », dans G. De Sterck et al (éds.), La neologiá en las lenguas románicas—Recursos, estrategias y nuevas orientaciones, Berne, Peter Lang.

ROUSSEL, B., 2023, « Entre mode et variation  : Une étude variationniste de l’emploi du subjonctif dans un parler du français acadien », Journal of French Language Studies, 33(1), 82‑102.

SANKOFF, G., & VINCENT, D., 1977, « L’emploi productif du ne dans le français parlé à Montréal », Le Français Moderne, 45(3), 243‑256.

SCHWEINBERGER, M., 2023, Concordancing with R, University of Queensland. https://ladal.edu.au/kwics.html#Piping_concordances

SHORTIS, T., 2009, « Spelling, vernacular orthography, and ‘unregimented writing’ », dans S. Wheeler (éd.), Connected minds, emerging cultures : Cybercultures in online learning, Charlotte, Information Age Publishing.

SQUIRES, L., 2012, « Whos punctuating what ? Sociolinguistic variation in instant messaging. Dans A. Jaffe, Orthography as Social action : Scripts, spelling, identity and power, Boston/Berlin, Mouton de Gruyter, 289‑324.

STARK, E. 2015, « ‘De l’oral dans l’écrit’  ? - Le profil variationnel des SMS (textos) et leur valeur pour la recherche linguistique », dans K. J. Kragh et J. Lindschouw (éds.), Les variations diasystématiques et leurs interdépendances dans les langues romanes, ELiPhi, Éditions de linguistique et de philologie.

THELWALL, M., & STUART, E., 2018, « She’s Reddit : A source of statistically significant gendered interest information? », Information Processing & Management, 56(4), 1543‑1558.

TRUDGILL, P., 1974, The social differentiation of English in Norwich, Cambridge, Cambridge University Press.

VAN COMPERNOLLE, R., & WILLIAMS, L., 2007, « De l’oral à l’électronique  : La variation orthographique comme ressource sociostylistique et pragmatique dans le français électronique », Glottopol, 10.

WASELESKI, C., 2006, « Gender and the use of exclamation points in computer-mediated communication : An analysis of exclamations posted to two electronic discussion lists », Journal of Computer-Mediated Communication, 11(4), 1012‑1024.

WICKHAM, H., FRANÇOIS, R., HENRY, L., MÜLLER, K., & VAUGHAN, D., 2023, « dplyr : A grammar of data manipulation ».

WIKTIONNAIRE, sans date-a, « Y a », Wiktionnaire, consulté le 9 juillet 2023, à l’adresse https://fr.wiktionary.org/w/index.php ?title =y_a&oldid =31043870

WIKTIONNAIRE, sans date-b, « Y’a », Wiktionnaire, consulté le 9 juillet 2023, à l’adresse https://fr.wiktionary.org/w/index.php ?title =y %E2 %80 %99a&oldid =32339967

WOLFRAM, W., 1993, « Identifying and interpreting variables », dans D. R. Preston (éd.), American dialect research, Amsterdam, John Benjamins, 193‑221.

WOODS, H. B., 1979, A socio-dialectology survey of the English spoken in Ottawa  : A study of sociological and stylistic variation in Canadian English, University of British Columbia.

Haut de page

Notes

1 Pour Short Message Service. Désigne un message court envoyé via un téléphone mobile.

2 Les tokens peuvent être des mots, mais aussi des signes de ponctuation, des chiffres ou encore des émojis.

3 « Internet Relay Chat », ou « discussion relayée par internet », l’ancêtre de la messagerie instantanée.

4 Le clavardage, ou chat, est une conversation écrite en temps réel sur internet.

5 Cette interface de programmation tierce, qui permettait de recueillir davantage de données que l’interface de programmation de Reddit, a été interdite le 1er mai 2023 car elle violait les nouvelles conditions d’utilisation de Reddit. Elle est désormais uniquement accessible aux modératrices et modérateurs de subreddits (lift_ticket83, 2023).

Haut de page

Table des illustrations

Titre Figure 1 : Distribution de l’âge des internautes dans les deux corpus
URL http://0-journals-openedition-org.catalogue.libraries.london.ac.uk/linx/docannexe/image/10478/img-1.png
Fichier image/png, 86k
Titre Figure 2. Fréquence relative des variantes étudiées, par corpus
URL http://0-journals-openedition-org.catalogue.libraries.london.ac.uk/linx/docannexe/image/10478/img-2.png
Fichier image/png, 94k
Titre Figure 3 : Probabilité observée des variantes non standard dans les corpus
URL http://0-journals-openedition-org.catalogue.libraries.london.ac.uk/linx/docannexe/image/10478/img-3.png
Fichier image/png, 151k
Titre Figure 4 : Probabilité prédite des variantes non standard, effets significatifs de l’âge, du pays et de la position
URL http://0-journals-openedition-org.catalogue.libraries.london.ac.uk/linx/docannexe/image/10478/img-4.png
Fichier image/png, 92k
Haut de page

Pour citer cet article

Référence électronique

Marie Flesch, « La variable orthographique il y a en France et au Québec : étude d’un corpus de commentaires publiés sur le site communautaire Reddit »Linx [En ligne], 87 | 2024, mis en ligne le 10 décembre 2024, consulté le 22 mars 2025. URL : http://0-journals-openedition-org.catalogue.libraries.london.ac.uk/linx/10478 ; DOI : https://0-doi-org.catalogue.libraries.london.ac.uk/10.4000/12zrf

Haut de page

Auteur

Marie Flesch

LLF (Université Paris Cité – CNRS) et ATILF UMR 7118 (Université de Lorraine – CNRS), marie.flesch[at]gmail.com

Haut de page

Droits d’auteur

Le texte et les autres éléments (illustrations, fichiers annexes importés), sont « Tous droits réservés », sauf mention contraire.

Haut de page
Rechercher dans OpenEdition Search

Vous allez être redirigé vers OpenEdition Search