- 1 Dans cet article, nous entendons comme méthodes traditionnelles, les méthodes FLS utilisées par les (...)
1L’Approche neurolinguistique (ANL) suscite, en didactique des langues, soit un fort engouement (Ricordel, 2020), soit de fortes réticences (Antier, 2022). Nous tâcherons d’apporter des éléments objectifs d’appréciation de son efficacité sur l’acquisition du français langue seconde (FLS) en présentant des résultats d’une évaluation contrôlée d’un dispositif dérivé, Approche neurolinguistique pour adolescents migrants (ANL4AMi) à destination d’élèves allophones de 12 à 16 ans scolarisés en Unité pédagogique pour élèves allophones arrivants (UPE2A) en France. Les spécificités du public allophone migrant liées au contexte d’exil, les plaçant dans une forte vulnérabilité émotionnelle et les modalités de mise en œuvre de l’ANL4AMi, inspirées de celles de l’ANL, ont été évoqués par Guedat-Bittighoffer et coll. (dans ce numéro de Lidil). L’ANL serait une alternative aux méthodes plus traditionnelles1 pour les sécuriser émotionnellement face à l’apprentissage du FLS.
2Ce présent article se focalise sur les aspects méthodologiques des études quantitatives menées sur l’ANL auprès d’apprenants non migrants, au Canada, en Chine, au Japon et en Iran, en se basant sur les 7 articles les plus cités, publiés dans des revues scientifiques entre 2004 et 2018. L’ANL a été comparée à des méthodes plus traditionnelles du FLS qui donnent une place prépondérante à l’écrit, à un cloisonnement rigide entre les diverses compétences, à la traduction, notamment. Puis, nous présenterons la méthodologie et quelques résultats d’une évaluation quantitative de l’ANL utilisée auprès d’élèves allophones migrants, qui tente de tenir compte des faiblesses relevées dans ces études.
3À ce jour, en dehors des retours d’expériences (Ricordel, 2020) ou de monographie (Chang, 2020), il existe peu d’études de validation quantitative de grande ampleur sur l’ANL. Les plus remarquables, tant par la taille des effectifs que par le choix des outils d’évaluation, sont celles menées par Germain et Netten au Canada dans la province anglophone de Terre-Neuve-et-Labrador, dès la mise en place du français intensif de 1998 à 2001, sur le niveau de compétences en production orale (Germain, Netten & Movassat, 2004) et sur celui en production écrite (Germain, Netten & Séguin, 2004). L’expérimentation a été menée sur 3 ans auprès de plus de 500 élèves anglophones répartis dans 23 classes de 6e année (équivalent à la 6e du collège en France). Après 5 mois d’apprentissage intensif (environ 300 heures), une évaluation en français a été proposée à l’aide d’un entretien oral individuel mené par l’enseignant (Oral Proficiency Interview, OPI, voir Macfarlane, 2020) et d’une tâche de production écrite (test GRICS, 1995). L’OPI, développé par le American Council for Teaching of Foreign Languages, a été conçu pour des élèves de 12e année (17 à 18 ans) du système scolaire de la province de Terre-Neuve-et-Labrador. Sa correction en double aveugle a permis de classer chaque élève sur 6 niveaux, le premier niveau correspond au niveau incotable (il n’y a pas de communication verbale possible) et le sixième niveau renvoie à un niveau avancé (situation de bilinguisme). Pour chaque niveau, chaque élève recevait 1 à 3 points selon qu’il était considéré comme faible, conforme ou fort dans le niveau considéré, donnant lieu à un score variant de 10 à 21. Le coefficient inter-juge de 0,70 était satisfaisant. Le GRICS, mis au point par la Société de gestion d’instruments pour les commissions scolaires pour le ministère de l’Éducation du Québec, validé auprès d’environ 1 200 élèves permettant de comparer les niveaux atteints en FLS avec ceux des élèves québécois francophones, était administré en classe par l’enseignant selon un protocole standardisé. La correction était réalisée selon 10 critères (par exemple, le nombre de phrases) sélectionnés après une analyse factorielle et regroupés en deux dimensions, l’une renvoyant à la précision linguistique, l’autre à l’aisance à communiquer. Les résultats indiquent qu’à l’oral, les élèves participant au programme expérimental (FI) ont atteint un niveau leur permettant de communiquer avec une très grande spontanéité et aisance en français et qu’ils obtiennent un niveau à l’écrit comparable à celui d’élèves québécois francophones scolarisés de 4e année pour la précision et de 5e année pour l’aisance. On peut regretter que les résultats s’appuient sur des écarts après 5 mois d’ANL entre deux groupes d’élèves n’ayant pas le même profil langagier de départ (élèves non francophones versus élèves francophones), sans contrôle de leur niveau initial en français (pré‑test), ni appariement entre eux sur certaines variables secondaires (âge, sexe, niveau sociodémographique, etc.), dont on sait qu’elles peuvent influer sur le développement langagier et l’acquisition des langues (Nocus, 2022).
4Dans une nouvelle évaluation menée de 2002 à 2007 dans la province bilingue français-anglais du Nouveau-Brunswick (Netten & Germain, 2009) auprès de 800 élèves de la 5e année âgés de 10 ans issues de 36 classes, un pré‑test a été ajouté à un post‑test, utilisant les mêmes outils auprès d’un effectif élevé d’élèves (476 élèves de 6e année avec l’ANL contre 1 600 inscrits dans un régime de français de base) suivis pendant 9 ans. Cette étude aboutit aux mêmes résultats que les deux précédentes et a permis de généraliser le français intensif et de le rendre obligatoire pour tous les élèves de la province par le ministère de l’Éducation du Nouveau-Brunswick.
5En 2010, l’ANL a été introduite auprès de monolingues sinophones de 18 à 21 ans de l’Université normale de Chine du Sud. Germain, Liang et Ricordel (2015) ont comparé 54 étudiants après un an puis deux ans d’utilisation de l’ANL (an 1 : n = 28 ; an 2 : n = 26) à 55 élèves de deux classes de contrôle (an I : n = 27 ; an II : n = 28) d’une autre université ayant recours à une méthode plus traditionnelle. L’OPI et le GRICS ont été administrés à la fin de chaque année universitaire. Les ANOVA réalisées sur les scores à l’OPI de chaque année révèlent un écart significatif en faveur du groupe expérimental. Au GRICS, les résultats sont également en faveur des groupes expérimentaux. Toutefois, compte tenu de la lourdeur de la cotation de ce dernier, la comparaison repose sur 6 copies par groupe et par année, ce qui en limite la portée, d’autant plus que les auteurs signalent des biais avec une absence de répartition aléatoire des sujets et une absence de pré‑test en début de la première année. En effet, en l’absence de critère de comparaison des deux groupes, rien ne peut préjuger que le groupe expérimental ne présentait pas un bon niveau initial, même si les auteurs affirment qu’en début d’année « tous les étudiants sont normalement de vrais débutants en français » (p. 72). Plus récemment, l’ANL a été expérimentée dans un établissement du second degré de Nanhai en Chine par Agaesse et Guilloux (2018). L’évaluation a comparé 51 élèves apprenant le français avec enseignement conventionnel en 2013‑2014 (GC = groupe contrôle) à 95 élèves avec l’ANL en 2014‑2015 (GE = groupe expérimental) aux 4 épreuves du DELF niveau A1 (production et compréhension à l’oral et à l’écrit en français), à la fin de la 1re année. En production, le GE obtient des scores moyens supérieurs à ceux du GC à l’oral, mais à l’écrit les écarts entre les deux groupes sont moins probants. Quant à la compréhension, l’avantage semble aller dans le sens du GC pour l’oral et pour l’écrit, avec des résultats plus nuancés : si 66,6 % des élèves du GC ont obtenu la moyenne de 90 % ou plus (contre 54 % dans le GE), aucun élève du GE n’a échoué (2 % des élèves du GC ont obtenu une moyenne inférieure à 50 %). Globalement, les auteurs considèrent que les résultats sont plutôt en faveur des élèves formés par l’ANL, en dépit d’un manque de traitement statistique des données et d’une absence d’appariement des deux groupes.
6Si lʼANL a suscité beaucoup d’intérêt au Japon, aucune étude de validation n’a été publiée à ce jour, à part celle de Takeuchi et Konishi (2018) qui apporte quelques conclusions provisoires en faveur de l’ANL, après quelques mois d’utilisation en milieu universitaire. Toutefois, ces auteurs n’exposent pas la méthodologie utilisée, en particulier les caractéristiques des participants japonais, la taille des effectifs, la méthode d’étude (qualitative ou quantitative), les outils (grille d’observation ou entretien, tests), la procédure (pré‑test et post‑test), ce qui ne permet pas d’apprécier la portée de ces résultats.
- 2 La ou les langues premières des participants n’ont pas été précisées par les auteurs.
7Enfin, en contexte iranien, Mohammadi et coll. (2018) ont mené une étude auprès de 20 adultes de 27 à 32 ans débutants en français2 avec un groupe contrôle apprenant le français avec une méthode traditionnelle (n = 10) et un groupe expérimental formé avec l’ANL (n = 10). Les deux groupes ont été comparés sur les scores à l’OPI et sur leur niveau atteint à une épreuve de compréhension orale de type Diplôme d’études en langue française (DELF) pour le niveau A2. Le groupe expérimental atteint des scores supérieurs en production orale mais inférieurs en compréhension orale par rapport au groupe contrôle. Néanmoins, la faiblesse des effectifs ne permet pas la généralisation de ces résultats.
8Dans un contexte où les méthodes FLS sont très éclectiques (Graveleau, 2021) et peu évaluées, l’intérêt des études présentées précédemment est indéniable. Toutefois, les limites soulevées invitent à proposer des améliorations des protocoles d’évaluation. D’abord, la constitution des groupes expérimental et contrôle doit reposer sur des indicateurs interindividuels et contextuels précis et comparables. Puis, certaines études, comme celle de Germain et coll. (2004), n’utilisent pas de plan longitudinal. Or, celui‑ci est recommandé pour mesurer des progressions et non des écarts, avec un pré‑test pour contrôler le niveau initial des deux groupes dans les indicateurs ciblés. Il convient également de diversifier les outils de mesures et de vérifier leurs propriétés psychométriques auprès des participants de l’étude lorsque ceux‑ci ne partagent pas les mêmes caractéristiques de l’étalon de départ. De même, la vérification de la normalité de la distribution des données lors de petits effectifs est nécessaire pour choisir des tests statistiques appropriés (paramétriques ou non), selon Howell et coll. (2008), notamment. Ceux‑ci peuvent inclure des tests statistiques à mesures répétées (ANOVA à mesures répétées) et des tests qui contrôlent, le cas échéant, des variables secondaires qui pourraient impacter les résultats (ANCOVA ou régressions multiples). Ces remarques rejoignent les conclusions de Gettliffe (2020) :
Il est frustrant de constater que les études [de validation de l’ANL] manquent parfois de rigueur dans la conception statistique (ce qui altère la validité des résultats) ou dans la transmission des résultats (avec des données manquantes). Ceci est d’autant plus dommageable qu’un nombre important de données ont été récoltées et qu’il suffirait souvent d’une analyse complémentaire pour faire émerger d’autres résultats probants. (p. 144)
9La section suivante présente la méthodologie et les principaux résultats de notre étude qui utilise un protocole d’évaluation tenant compte de ces recommandations. En référence aux études d’évaluation antérieurement menées, notre hypothèse est que l’ANL doit apporter des bénéfices en français, à l’oral comme à l’écrit, comparativement aux méthodes plus traditionnelles. L’accès à la maitrise de l’écrit étant l’un des apprentissages les plus importants dans les premières années de la scolarité, il est considéré dans les travaux scientifiques comme un des indicateurs menant à la réussite académique (Demont & Gombert, 2004). C’est pourquoi le protocole d’évaluation inclut des tâches qui mesurent des compétences qui prédisent le niveau de lecture (vocabulaire, conscience phonologique, connaissance des lettres) et une tâche de lecture (Nocus, 2022), en plus de l’OPI et du GRICS utilisés dans les études précédentes.
10Dans l’adaptation de l’ANL pour un public allophone, nous avons fait le choix de ne pas confondre deux profils d’élèves : ceux ayant été scolarisés antérieurement (SA) et ceux n’ayant jamais été scolarisés dans leur pays (NSA). En effet, les NSA n’ont pas le même rapport aux tâches scolaires (et donc aux tâches figurant dans le protocole d’évaluation), ni le même niveau de maitrise dans les mesures langagières initiales. Aussi, les conditions d’évaluation n’ont pas été standardisées de la même façon selon les deux profils (les élèves NSA n’ont pas passé en T0 le même nombre d’épreuves que les élèves SA et la complexité des tâches a été adaptée à leur profil). Aussi, nous postulons que les bénéfices éventuels de l’ANL dépendront du profil SA/NSA des élèves.
11Comme indiqué dans le tableau 1, les données ont été récoltées auprès de 91 élèves (35 filles et 56 garçons, âge moyen de 13,7 ans, ET3 = 1,66), scolarisés en UPE2A de 9 collèges en région des Pays de la Loire, dans les départements de Loire-Atlantique et de la Sarthe (France), sur deux années scolaires (2020‑2021 et 2021‑2022). Ils proviennent de 30 pays différents, avec une surreprésentation de la Somalie (14 % des participants), suivie de la Syrie (10 %), du Mali (9 %), de la Roumanie (8 %), puis de la Côte d’Ivoire (6 %). La plupart des élèves sont plurilingues. Les langues les plus parlées en dehors du français sont l’arabe, le somali et le soninké. En début d’étude (T0), ces élèves séjournent en France depuis 14 mois en moyenne, la moitié depuis moins de 9 mois.
- 4 Compte tenu de la faiblesse des effectifs, la normalité de la distribution est vérifiée systématiqu (...)
- 5 Pour effectuer les traitements statistiques (Chi2), les pays ont été regroupés par continent : Amér (...)
- 6 Pour les SA, il y a 30 élèves provenant d’Afrique, 12 d’Asie, 17 d’Europe et 1 d’Amérique.
12Les apprenants se distinguent par le fait qu’ils ont été ou non scolarisés antérieurement : 31 élèves (8 filles et 23 garçons) ont été non scolarisés antérieurement (NSA) dans leur pays et 60 élèves (27 filles et 33 garçons) ont été scolarisés antérieurement (SA). Pour les NSA et SA, deux groupes ont été constitués : un groupe bénéficiant de l’ANL (GE : groupe expérimental) et un groupe n’en bénéficiant pas (GC : groupe contrôle), apprenant le français avec des méthodes plus traditionnelles. Ainsi, pour les NSA, 16 élèves font partie de GC et 15 de GE et pour les SA, 31 élèves font partie de GC et 29 de GE. Pour les NSA, les deux groupes sont comparables sur l’âge [moyenne de 14,3 ans, ET = 1,6 pour GC et moyenne de 13,9 ans, ET = 1,8 pour GE, t(1, 29) = 1,95, p = 0,173], le nombre de mois en France [moyenne de 16,9 mois, ET = 25,9 pour GC et moyenne de 11,4 mois, ET = 11,4 pour GE, U4 = 107, p = 0,607], le pays d’origine5 [χ2 (2) = 0,007, p = 0,99]. En revanche, ils ne le sont pas sur le sexe : le GC compte moins de filles, avec respectivement 1 fille contre 7, et plus de garçons, 15 contre 8, χ2 (1) = 6,61, p = 0,01. Toutefois, des analyses de corrélation indiquent que les scores aux épreuves langagières ne sont pas liés au sexe des élèves ; il n’est donc pas nécessaire de contrôler cette variable. Pour les SA, les deux groupes sont comparables sur le sexe [GC compte 12 filles contre 15 pour GE, et 19 garçons contre 14, χ2 (1) = 1,03, p = 0,311], le nombre de mois en France [moyenne de 12,8 mois, ET = 10,5 pour GC et moyenne de 16 mois, ET = 12,3 pour GE, U = 386, p = 0,351], sur les pays d’origine6 [χ2 (3) = 7,33, p = 0,06]. En revanche, ils ne le sont pas sur l’âge, les élèves de GC étant significativement plus âgés que ceux de GE [respectivement moyenne de 14,1 ans, ET = 1,6 et moyenne de 13 ans, ET = 1,4, U = 278, p < 0,05]. Des analyses de corrélation révèlent que l’âge et les scores aux épreuves langagières ne sont pas corrélés ; il n’est donc pas indispensable de contrôler cette variable dans les analyses statistiques ultérieures. Les NSA étaient répartis dans 6 classes UPE2A (3 pour GC et 3 pour GE) et les SA dans 7 classes (4 pour GC et 3 pour GE).
Tableau 1. – Caractéristique des participants selon la scolarisation antérieure (NSA et SA).
13En plus de l’OPI et du GRICS utilisés dans les études antérieures, ont été ajoutés un test de lecture et des outils qui mesurent les compétences (vocabulaire, conscience phonologique et connaissance des lettres de l’alphabet français) liées à l’acquisition de la maitrise de l’écrit, elle‑même considérée comme un préalable à la réussite académique (Nocus, 2022).
Échelle de compétence orale en langue seconde, Oral Proficiency Interview (OPI)
14Son objectif est d’évaluer la capacité de l’élève à utiliser le français avec précision, aisance et spontanéité en situation réelle. Il s’agit d’une conversation en langue française, d’une durée de 3 à 20 minutes, avec un évaluateur qui aborde des questions autour de trois thématiques (par exemple, sur l’élève lui‑même, ce qui l’intéresse et son pays). L’entretien se déroule selon une trame préétablie en sept étapes et sollicite trois types de discours (description, narration et abstraction). Il est enregistré de manière à ce que deux examinateurs situent chaque élève sur six niveaux, se subdivisant en sous-niveaux : Incotable (pas de communication : niveau 10), Novice (peu de capacité de communication : sous-niveaux 11, 12 et 13), De base (début de communication spontanée : 14, 15 et 16), Intermédiaire (communication spontanée sur une grande variété de sujets : 17 et 18), Avancé (19) et Supérieur (20 et 21). Le coefficient inter‑juge sur les notes obtenues est de 0,90, ce qui est très satisfaisant.
Échelle de vocabulaire en réception (EVIP)
15Cette échelle a été validée pour le français canadien par Dunn et coll. (1993) pour des enfants âgés de 2 ½ ans à 18 ans et permet l’évaluation de leurs compétences lexicales. Il est souvent utilisé dans les études françaises moyennant la modification d’un item non utilisé en français de France (l’item « repasseuse » est modifié par « fer à repasser »). Le matériel est constitué de 175 planches et 5 items d’essai. Sur chaque planche, figurent 4 images et l’élève doit montrer celle qui correspond au mot prononcé à haute voix par l’évaluateur. Contrairement à la version initiale, en raison de leur niveau hétérogène en français et de la complexité croissante de l’épreuve, tous les élèves débutent par l’item 1 après la phase d’entrainement. La passation dure entre 5 et 10 minutes et le critère d’arrêt est prévu après 6 échecs dans une séquence de 8 items. Le score calculé correspond à la soustraction du nombre d’items échoués au numéro du dernier item réussi (par exemple, si l’enfant est parvenu à l’item 40 en commettant 12 erreurs, son score est de 28).
Épreuve de conscience phonologique
16Créée pour les besoins de l’étude, une épreuve de suppression du phonème initial (6 items) est proposée. L’élève doit prononcer la fin d’un non‑mot monosyllabique après avoir supprimé le phonème initial (par exemple, pour le non‑mot « pase », retirer « p » et dire « ase »). Aucun critère d’arrêt n’est prévu. Un score est calculé sur un total de 6 (1 point par réussite).
Épreuve de connaissance du nom des lettres en français
17Issue de EGRA (Sprenger-Charolles, 2009), la tâche comporte 20 lettres de l’alphabet français, présentées à l’écrit en minuscule et en majuscule, leur ordre étant randomisé. Les élèves doivent nommer le nom de chaque lettre. Un score est calculé sur 40 en accordant 1 point de réussite pour chaque lettre correctement nommée. Un critère d’arrêt est prévu si l’élève ne parvient pas à donner le nom des 5 premières lettres.
Test de lecture Identification de mots écrits pour le cycle 2 (abréviation : Timé2)
18Extrait du Timé2 de Écalle (2004), deux tâches de 12 items chacune sont présentées : reconnaitre un mot fourni oralement par l’évaluateur et reconnaitre un mot écrit correspondant à une image. Dans les deux tâches, l’élève doit entourer le mot attendu parmi cinq items, dont quatre distracteurs (Ho pour homophone, Vp pour pseudo‑mot visuellement proche, Vo pour voisin orthographique et nC pour pseudo‑mot avec une séquence illégale de lettres). Par exemple, pour la tâche 1, le mot « table » doit être reconnu parmi « tâble » (Ho), « toble » (Vp), « tabac » (Vo) et « tbale » (nC). Dans les deux tâches, est relevé le nombre de réussites sur un total de 24 points. Si l’élève est bloqué par la première tâche, la seconde n’est pas présentée (critère d’arrêt).
Échelle GRICS
19Dans cette tâche, proposée uniquement aux élèves SA, l’enseignant de la classe demande aux apprenants de rédiger pendant 20 minutes un texte sur le sujet suivant : « Raconte‑moi comment se passe ta vie au collège ». La production écrite de chaque élève est cotée par les chercheurs selon douze critères préalablement standardisés proposés par la Société québécoise GRICS (GRICS, 1995). Pour les besoins de cette étude, sur les 10 critères mesurés (voir infra), nous présenterons les résultats de trois critères que nous avons jugés les plus objectivement mesurables car dénombrables, à savoir le nombre de mots, de phrases, d’adjectifs et d’adverbes.
20Le tableau 2 récapitule les alphas de Cronbach calculés pour chaque échelle en fonction des sessions (T0 et T1) pour les NSA (N = 31), les SA (N = 60) et l’effectif total (N = 91). Ils sont très satisfaisants (> 0,80), indiquant que les mesures sont fidèles.
Tableau 2. – Alphas de Cronbach en fonction des sessions (T0 et T1) pour les NSA (N = 31), les SA (N = 60) et l’effectif total (N = 91).
21Après consentement des élèves eux‑mêmes, des familles ou, à défaut, celui du Centre académique pour la scolarisation des élèves allophones nouvellement arrivés et des enfants issus de familles itinérantes et de voyageurs (CASNAV), le recueil de données a comporté deux sessions d’évaluation, la première (T0) en début d’année scolaire (octobre-novembre) lors des premiers mois de la mise en place de la méthode ANL et la seconde (T1) en fin d’année scolaire (mai-juin), soit 7 mois après. En T0, les élèves ont été rencontrés individuellement sur 3 séances au sein des établissements scolaires dans une salle isolée. Pour tous les élèves (NSA et SA, groupe contrôle et groupe expérimental), la première séance était consacrée à une prise de contact et à la passation de l’échelle OPI (5 à 20 minutes). La deuxième séance comportait les épreuves de vocabulaire et de conscience phonologique (20 minutes). La troisième se focalisait sur les épreuves de connaissance des lettres et d’identification du mot écrit (10 minutes). En dehors de ces trois séances, les enseignants ont fait passer le GRICS uniquement aux élèves SA (20 minutes). En T1, les apprenants SA et NSA des deux groupes (contrôle et expérimental) ont été soumis aux mêmes épreuves langagières (orales et écrites) qu’en T0. Les épreuves de suppression du phonème initial et d’identification du mot écrit ont été proposées aux élèves NSA uniquement en T1.
22Du fait de la vulnérabilité psychologique des participants face aux situations d’apprentissage et d’évaluation et de leur faible niveau en français en T0, les consignes ont été adaptées à leur niveau de compréhension du français avec l’aide d’émoticônes et des critères d’arrêt prévus. De plus, les évaluateurs, chercheurs ou étudiants en psychologie, ayant une formation déontologique à la prise de contact de toute personne vulnérable, avaient pour consignes de prendre le temps nécessaire pour mettre à l’aise les élèves, d’expliquer le but de la recherche, de donner toutes les informations d’anonymat et de confidentialité, ainsi que de rassurer et de préserver, dans la mesure du possible, l’estime de soi de chaque élève face au sentiment d’échec.
- 7 En statistique, une taille d’effet (d de Cohen ou d’) est un indice quantitatif de la force de la r (...)
23La démonstration implique de vérifier si les deux groupes ont des niveaux initiaux comparables dans les tâches langagières. La normalité des données a été vérifiée au préalable : si les scores d’une tâche se distribuent selon la loi normale, un test t de Student (test paramétrique) est utilisé, si non un test U de Mann-Whitney (test non paramétrique). En T0, d’après le tableau 3, les scores obtenus à l’OPI sont significativement plus élevés chez les élèves GC (M = 15,6 ; ET = 1,3) que chez les élèves GE (M = 13,9 ; ET = 2,1), [t(28) = 2,70, p < 0,05, d’7 = 0,95]. Le d de Cohen de 0,95 indique un effet fort qui justifie de contrôler le niveau initial à l’OPI. Les scores à l’EVIP ne diffèrent pas significativement entre GC (M = 31,9 ; ET = 18,6) et GE (M = 25,3 ; ET = 24,7), U = 79, p = 0,109, d’ = 0,34. Il en va de même pour la suppression du phonème initial [GC : M = 0,69 ; ET = 1,5 et GE : M = 0,66 ; ET = 1,6, U = 116, p = 0,850, d’ = 0,03] et pour la connaissance des lettres [GC : M = 30,6 ; ET = 12,4 et GE : M =28,8 ; ET = 8,9, U = 88, p = 0,211, d’ = 0,26].
Tableau 3. – Analyses descriptives des épreuves langagières orales et écrites en T0 en fonction des groupes (contrôle et expérimental) pour les NSA.
- 8 La statistique êta au carré (η2) représente la quantité de variance expliquée pour la variable dépe (...)
24Afin de vérifier si, après contrôle du niveau initial, le groupe expérimental obtient de meilleurs scores en fin d’année que le groupe contrôle, une analyse ANCOVA a été réalisée sur les résultats au test OPI en contrôlant leurs scores en T0. L’ANCOVA révèle un effet tendanciel du groupe en faveur du groupe expérimental en T1, F(1, 27) = 3,78, p = 0,06, η2 = 0,038.
25Toutefois, ce test statistique ne permet pas de mesurer la progression des élèves en fonction de l’appartenance au dispositif. Des analyses d’ANOVA à mesures répétées, présentées dans le tableau 4, ont donc été réalisées pour toutes les tâches afin d’apprécier la progression du groupe expérimental par rapport à celle du groupe contrôle. Pour l’OPI, les analyses confirment qu’il existe bien un effet d’interaction Session*Groupe, montrant que la progression des élèves diffère selon le groupe : si les élèves GE ont des résultats inférieurs aux élèves GC en T0, ils les rattrapent en T1, F(1, 28) = 11,2, p < 0,01, avec une taille d’effet relativement petite (η2 = 0,02). Les scores à l’échelle de vocabulaire en français (EVIP) et à la tâche de suppression du phonème initial augmentent significativement entre T0 et T1, respectivement F(1, 29) = 15,07, p < 0,001 (η2 = 0,05) et F(1, 29) = 5,76, p < 0,05 (η2 = 0,04), mais sans écart entre les deux groupes (p > 0,05). L’absence d’effet d’interaction Session*Groupe indique que cette augmentation n’est pas due à l’effet du dispositif. En connaissance des lettres, les effets ne sont pas significatifs : les groupes ont des scores comparables et cette absence d’écart ne varie pas dans le temps. Globalement, l’effet du dispositif ANL n’est pas visible sur les tâches langagières pour les élèves NSA, à l’exception de l’OPI. Ce dernier résultat corrobore celui des études antérieures (voir supra) et correspond à l’un des objectifs essentiels de l’ANL, à savoir un meilleur niveau d’aisance et de précision à l’oral.
Tableau 4. – Effets des sessions, du groupe et d’interaction Session*Groupe sur les tâches langagières en français (orales et écrites) pour les élèves NSA.
26La même démarche a été menée pour les élèves SA. D’après le tableau 5, les deux groupes sont comparables en T0 aux épreuves (p > 0,05), sauf pour la sous-épreuve du GRICS [Nombre d’adjectifs et d’adverbes], pour laquelle, GE présenterait un avantage en début d’année par rapport à GC (respectivement M = 4,39 ; ET = 4,5 et M = 3,50 ; ET = 5,9, U = 166, p < 0,05, d’ = 0,16). Comme précédemment, une analyse ANCOVA a été réalisée pour cette sous-épreuve et révèle que les élèves des deux groupes ont des scores équivalents en T1, F(1, 89) = 0,199, p = 0,65 (η2 = 0,000). Autrement dit, GE qui présentait un avantage en début d’année par rapport à GC est rattrapé en fin d’année par ce dernier.
Tableau 5. – Analyse descriptive des épreuves langagières orales et écrites en T0 en fonction des groupes (contrôle et expérimental) pour les SA.
27Des analyses d’ANOVA à mesures répétées ont ensuite été réalisées pour toutes les tâches afin d’apprécier la progression en fonction du groupe. D’après le tableau 6, les élèves des deux groupes progressent significativement entre le pré- et le post‑test à l’OPI, en vocabulaire en français, en suppression du phonème initial, en connaissance des lettres de l’alphabet, en lecture identification du mot écrit, et, en production écrite, en nombre de phrases et en nombre de mots, avec des tailles d’effet de faible à modéré. Toutefois, il n’existe pas de différence entre les groupes et aucun effet d’interaction Session*Groupe.
Tableau 6. – Effets des sessions, du groupe et d’interaction Session*Groupe sur les tâches langagières en français (orales et écrites) pour les élèves SA.
28Ainsi, l’effet du dispositif n’est pas visible pour l’ensemble des indicateurs. Si GE présentait un avantage sur le nombre d’adjectifs et d’adverbes en début d’année par rapport à GC, il le perd en fin d’année.
29Chez les NSA, les élèves des deux groupes ont des scores équivalents en début d’année dans toutes les épreuves langagières en français, sauf pour l’OPI, pour laquelle les élèves du groupe expérimental étaient plus faibles en T0 et ont rattrapé leur retard en T1. Pour cette échelle, les résultats de début d’année indiquent, d’une part, que les élèves du groupe contrôle avaient un niveau de langage oral qui leur permettait notamment de participer à de brèves conversations portant sur des sujets familiers, de s’exprimer de façon plus spontanée, de faire preuve d’initiative et de se décentrer en abordant des sujets au‑delà des besoins de base (notes de 15‑16 à l’OPI). En revanche, au même moment, le niveau langagier des élèves du groupe expérimental était plus limité à la production de phrases simples (S/V/C) leur permettant de se débrouiller dans une situation de survie simple et de donner des renseignements de base (note de 14 à l’OPI). D’autre part, en fin d’année, les élèves du groupe contrôle sont restés au même niveau alors que les élèves du groupe expérimental ont dépassé leur niveau initial pour être capables du même niveau de production orale spontanée que celui du groupe contrôle. Pour les élèves SA, bien que tous les élèves progressent dans tous les indicateurs, l’effet du dispositif n’est pas visible, puisque les progrès sont comparables pour les deux groupes. De plus, le groupe expérimental qui présentait un avantage sur le nombre d’adjectifs et d’adverbes au GRICS en T0, perd cet avantage en T1 puisque rattrapé par le groupe contrôle. Au vu de l’ensemble des résultats, il n’est donc pas possible de conclure à un effet de l’ANL sur l’évolution des performances orales et écrites des élèves qui en ont bénéficié. Toutefois, pour l’épreuve de conversation (tests OPI), les élèves NSA du GE progressent plus vite que leurs pairs GC. En dehors de ce dernier indicateur, au minimum, ils progressent autant que ceux qui n’en ont pas bénéficié. L’ANL semble plutôt profiter aux élèves n’ayant pas fréquenté l’école dans leur pays d’origine (NSA) et agirait chez eux sur le niveau de conversation orale, compétence importante pour leur insertion scolaire et sociale. En revanche, pour les élèves SA, l’effet n’est pas visible peut‑être parce que l’écart entre leur niveau actuel et le niveau qu’ils avaient avant leur arrivée en France est moins important que celui des NSA, notamment au niveau des processus langagiers (notamment ceux impliqués dans la maitrise de l’écrit). Cette interprétation doit faire l’objet d’études plus approfondies.
30Les conclusions de cette étude doivent être confrontées aux limites inhérentes à toute étude d’analyse d’impact d’un dispositif pédagogique. La principale limite est la faiblesse des effectifs, liée en grande partie à la crise sanitaire que nous avons connue qui n’a pas permis de suivre en T1 les élèves de la première cohorte et a réduit les entrées des élèves allophones dans le dispositif l’année suivante. Or, pour montrer l’effet d’un dispositif, avec une taille d’effet de 3 %, il faudrait interroger au moins 250‑300 élèves, effectif que nous aurions pu atteindre en 3 ans, si la crise sanitaire n’avait pas perturbé les recueils de données. Par ailleurs, comme le souligne la littérature scientifique, un certain nombre d’années (environ 6 ans, selon Baker, 2011) serait nécessaire pour voir apparaitre d’éventuels effets de transferts positifs d’un dispositif pédagogique sur les apprentissages scolaires. Or, l’étude porte sur 7 mois d’exposition à l’ANL. Des suivis de cohortes seraient indispensables (par exemple un an après, lorsque les élèves sont en classe ordinaire) pour montrer des effets à long terme, ce qui est difficile avec les élèves allophones, du fait de leur grande mobilité.
31Quelles que soient les limites de l’étude quantitative, le travail réalisé aura eu le mérite de montrer qu’il est possible de réaliser une étude avec une méthodologie rigoureuse auprès de ces publics, réputés non interrogeables du fait de la barrière de la langue. La fiabilité de leurs réponses, préalable important si l’on veut montrer l’effet de l’ANL, est attestée par les qualités métriques des outils de mesures. Le protocole de l’évaluation répond en partie aux limites méthodologiques soulignées dans les publications des études antérieures (voir supra). Ces limites étaient le manque de contrôle de variables secondaires contextuelles et individuelles des groupes et, pour certaines études, l’absence de pré‑test qui permet de contrôler le niveau initial dans les tâches utilisées, le manque de diversification des outils de mesures, la non‑vérification de leur fidélité psychométrique. Les évaluations futures de l’ANL gagneraient en crédibilité si elles tenaient compte de ces limites.
32Face à l’ampleur des arrivées des élèves allophones en France, il devient essentiel de conduire des études à plus grande échelle afin de leur garantir une meilleure qualité d’accueil en classe. De par leurs parcours migratoire et scolaire, la diversité des langues parlées, ce public présente une grande hétérogénéité de profils. Or, pour mener une étude de type quantitatif, il est indispensable de constituer des groupes homogènes sur certaines dimensions. La faiblesse des compétences acquises par les élèves en maitrise de l’écrit en fin d’année, les effets immédiats ou retardés du dispositif ANL non constatés, suggèrent de déployer son évaluation sur plusieurs années au collège. Un enseignement structuré et programmé dans la durée, comme proposé par l’ANL, permettrait aux jeunes de consolider leurs compétences élémentaires de l’oral et de l’écrit et ainsi probablement de mieux appréhender les apprentissages systématiques en français proposés au collège. Une telle mesure pourrait contribuer à réduire le nombre d’abandons et d’échecs scolaires, dont on peut penser qu’ils sont en partie liés au fait que certains élèves se découragent en raison du décalage très important existant entre leur niveau de compétence réelle dans la maitrise du français et celui exigé par les contenus d’enseignements/apprentissages qui leur sont proposés dans cette langue.