- 1 Ce ne sera toutefois pas l’objet de cette contribution que de mettre en perspective les deux contex (...)
1Notre contribution s’inscrit dans un travail de recherche sur les pratiques pédagogiques d’enseignantes filmées chacune dans deux contextes pédagogiques distincts (classe de français langue première et classe de français langue seconde). Nous avons retenu l’angle de la construction des normes scolaires pour analyser leurs pratiques et observer les traces multimodales d’adaptation aux contextes et publics1.
2L’étude des pratiques implique de s’intéresser à l’agir professoral, que Cicurel (2011) définit comme « l’ensemble des actions verbales et non verbales, préconçues ou non, que met en place un professeur pour transmettre et communiquer des savoirs ou un “pouvoir-savoir” à un public donné dans un contexte donné » (p. 119). On relèvera sans peine le caractère intentionnel de cet agir (« pour »), auquel il nous faut adjoindre celui de « situé » dans la mesure où il se réalise différemment selon les publics, les cultures, l’environnement, la personnalité ou la formation des enseignants. Si le caractère multimodal est posé comme constitutif de la pratique enseignante, la plupart des travaux prenant pour objet cet agir s’intéresse principalement, quand ce n’est pas uniquement, à son aspect verbal.
3Notre travail s’intéresse à l’aspect mimo-gestuel de ces actions. Il nous a conduit à nous interroger sur la granularité du traitement des données, c’est-à-dire sur la « finesse et [le] nombre de phénomènes [à retenir] » (Mondada, 2008, p. 92) et notamment sur le degré de finesse à privilégier dans l’analyse des interactions observées. Celui-ci a évolué au fur et à mesure de nos observations, jusqu’à mettre au jour une multimodalité des signes (Barrier, 2006) dans la pratique enseignante dont nous souhaiterions discuter ici, afin de contribuer à la compréhension de la complexité de l’agir professoral.
4Après avoir abordé brièvement les concepts clés de notre étude, nous présenterons un exemple d’un cas empirique qui nous servira de point de départ pour notre réflexion autour de la question de la granularité d’analyse, que nous développerons dans une troisième partie. Nous y discuterons notamment de l’intérêt d’une étude de la multimodalité des signes dans la pratique enseignante. Nous proposerons également une réflexion sur la question de la surinterprétation, qui dépasse le cadre de l’étude multimodale des interactions, ainsi que sur les outils méthodologiques qu’il est possible de mettre en place pour limiter ces élans surinterprétatifs.
5Selon Cicurel (2011), l’agir professoral est défini par plusieurs éléments : un projet, une planification, mais aussi des incertitudes, une intention et une compétence corporelle (gestion de l’espace et relation aux objets didactiques). Analyser cet agir suppose de s’intéresser aux théories de l’action puisqu’elles proposent une grille de lecture et de compréhension des notions évoquées. Cela implique également de revenir sur un autre élément constitutif des interactions didactiques, à savoir la multimodalité des échanges.
6Baudouin et Friedrich (2001) et Filliettaz (2006) ont souligné la difficulté, si ce n’est l’impossibilité, à ce jour, de parler d’une théorie de l’action unifiée tant cette question rassemble des disciplines diverses, apportant avec elles leurs lots de conceptions et terminologies spécifiques. Notons toutefois que, selon Baudouin et Friedrich (2001), deux dimensions majeures sont communes aux différents domaines scientifiques : le discursif et l’intentionnel.
7Nous retiendrons la tentative de théorisation que propose Filliettaz (2006). Sensevy (2001) propose également un « essai de modélisation de l’action didactique générique du professeur » (p. 213). Malgré l’intérêt certain de son modèle, nous ne l’utiliserons pas, car il dépasse largement nos intentions et nous mènerait sur des terrains d’analyse autres (il ne s’agira pas, par exemple, de décrire l’ensemble des tâches de l’enseignant, ni ses techniques). Pour Filliettaz, l’action peut s’articuler autour de deux axes majeurs (fig. 1) : l’axe d’agentivité et l’axe de typicalité. Chaque axe constitue un continuum mettant en tension deux pôles. Sur l’axe d’agentivité, se font face les pôles individuel et collectif, sur l’axe de typicalité, les pôles schématique et émergent. Le pôle schématique renvoie aux schèmes incorporés des acteurs, à la dimension réitérable de l’action enseignante. À l’inverse, le pôle émergent fait référence aux actions localement construites. Chaque action peut être située sur ces deux axes.
Figure 1. – Les lignes de tension de l’agir.
(Filliettaz, 2006, p. 76)
8Au-delà de son intérêt théorique, cette tentative a l’avantage de proposer un cadre interprétatif à l’agir humain qui dépasse toute dichotomie simplificatrice de l’agir professoral (soit schématique, soit émergent, d’une part, soit individuel, soit collectif d’autre part), tel qu’il s’actualise lors des interactions didactiques.
9Les interactions didactiques possèdent certains critères définitoires propres. Leur dimension polylogale (Bouchard, 1998) ou leur caractère asymétrique (Bange, 1992 ; Mondada, 1995 ; Vasseur, 2005 ; Cicurel, 2011) sont aujourd’hui considérés comme inhérents à la communication didactique. Un autre élément est lié aux échanges de classe : la multimodalité des interactions didactiques. Selon Allen (2000), elle a été démontrée dès les années 1980 ; par la suite, d’autres auteurs ont mis en relief plus spécifiquement l’importance de la gestualité dans la pratique enseignante (Antes, 1996 ; Lazaraton, 2004 ; Hostetter, Bieda, Alibali, Nathan & Knuth, 2006) et dans l’acquisition du langage (Dick, Goldin-Meadow, Hasson, Skipper & Small, 2009 ; Cook & Goldin-Meadow, 2006) ou l’apprentissage des langues (Colletta, 2007 ; Tellier, 2010). Depuis un certain nombre d’années, Tellier observe et analyse le geste pédagogique qu’elle définit comme « un geste des bras et des mains (mais il peut aussi être composé de mimiques faciales) utilisé par l’enseignant de langue dans un but pédagogique » (Tellier, 2008, p. 41). Elle a mis au jour trois fonctions de la gestuelle pédagogique (animer, informer et évaluer), et démontré son effet sur la mémorisation. Lors de travaux ultérieurs, elle a également observé l’impact du niveau linguistique du coénonciateur sur les stratégies verbales et gestuelles lors d’une activité d’explication lexicale interlingue (Tellier & Stam, 2012). Certaines mimiques faciales (rires et regard) ont été analysées par Foerster (1994) en milieu guidé, confirmant notamment les conclusions de travaux en analyse des conversations (Goodwin, 1981) sur l’importance du regard dans la gestion des tours de parole. Calbris et Porcher (1989) ont par ailleurs noté l’étroite collaboration entre les mimiques faciales, les énoncés verbaux, et la gestuelle, ce qui soutient l’existence d’un système unique gérant parole et gestes (McNeill, 1992 ; Kendon, 2004).
10Ainsi, tout comme pour les interactions quotidiennes ordinaires (Watzlawick, Helmick & Jackson, 1972), il convient de reconnaitre cet aspect des interactions didactiques et de l’intégrer dans nos analyses (Azaoui, 2014b). La question qui se pose alors est non pas de savoir si l’on doit considérer le non verbal ou le paraverbal dans nos études, mais bien de s’interroger sur le degré de finesse dans l’analyse multimodale des échanges, multimodal étant entendu comme l’utilisation de divers canaux de communication : paraverbal, mimiques faciales, posture, gestuelle. Quel degré de granularité doit-on alors donner au traitement ? C’est à cette question que nous allons apporter des éléments de réponse à partir d’une réflexion sur la mimo-gestuelle enseignante. Au préalable, nous présenterons notre méthodologie de recherche.
11Notre parti pris théorique et nos interrogations nous ont amené à opter pour une démarche empirico-inductive (Blanchet, 2011) et ethnographique (Cambra-Giné, 2003). Le terrain est donc la source première des informations collectées par différentes techniques.
12Nous avons collecté des données de divers ordres : écrites (textes officiels, programmes d’enseignement et questionnaires) et orales/visuelles (films de classe, entretiens, autoscopie).
13Notre contribution s’appuiera essentiellement sur un corpus filmique enregistré à Toulouse. Il est constitué de 4 h 49 de cours d’une même enseignante dans deux contextes d’enseignement différents : français langue seconde – FLS (Vigner, 2009), face à des élèves allophones nouvellement arrivés, et français langue première – FL1, tel que défini par Simard, Dufays, Dolz et Garcia-Debanc (2010), face à un public français. Les interactions verbales et mimo-gestuelles de l’enseignante ont été transcrites et annotées avec le logiciel libre d’accès ELAN2 développé par le Max Planck Institute de Nimègue, Pays-Bas (Sloetjes & Wittenburg, 2008).
14Le corpus filmique n’est toutefois pas sans poser un certain nombre d’interrogations méthodologiques puisque l’objet d’analyse que construit le chercheur s’avère être une représentation filmée de la réalité pédagogique (Guernier & Sautot, 2012) qu’il est censé retranscrire. Installer sa caméra dans une classe (ou lors d’une enquête de terrain en général) soulève rapidement des questions méthodologiques (Taranger, 1986) orientées par la problématique retenue : quoi filmer ? Qui filmer ? D’où filmer ? Ainsi, le film constitue un filtre entre l’analyse et la réalité filmée, d’autant plus qu’il comporte nécessairement un effet d’énonciation dont il est difficile de se défaire, mais qu’il convient de considérer dans l’analyse.
- 3 « […] from its [limb] rest position […] to its rest position », notre traduction.
15D’autres réflexions méthodologiques sont nées de ce traitement de l’image, principalement celles relatives à la question de la segmentation des gestes et mimiques. McNeill (1992) définit ainsi les limites à retenir pour segmenter le mouvement de la main : « […] depuis sa [du membre] position de repos […] à sa position de repos initiale3 » (p. 83). Or la réalité des interactions de classe conduit l’enseignant à se déplacer très régulièrement dans l’espace classe, ce qui fait de lui un sujet mouvant dont le geste est potentiellement caché (par son propre corps ou celui des élèves). Dans de telles conditions, la définition de McNeill n’est plus véritablement opératoire. L’impact pour l’étude que nous présentons ici est faible, mais cette réflexion mérite d’être approfondie pour proposer une segmentation propre à l’approche écologique.
16Dans l’exemple choisi, que nous avons développé ailleurs (Azaoui, 2014a), nous verrons tout l’intérêt d’une étude multimodale de l’action enseignante. Il nous servira de point d’appui pour notre réflexion sur la granularité d’analyse.
17L’enseignant lambda assume un « pluriagenda » langagier (Bucheton, Bronner, Broussal, Jorro & Larguier, 2004, p. 40) et non langagier : gestion de classe, manipulation d’outils pédagogiques, etc. Son rôle est donc foncièrement multiple. Lors de nos observations, nous avons observé que, pour mieux répondre à cette exigence, l’enseignante mettait en œuvre diverses stratégies multimodales. Une première stratégie, récurrente dans les deux contextes, est un « relai » regard/geste qui lui permet d’évaluer tout en gérant son cours. Ou encore de gérer son cours tout en évaluant ? De gérer son cours et d’évaluer ? La notion de multiactivité développée par Mondada (2006), et que nous pouvons rapprocher de celle de « pluriagenda », montre dans de telles situations toute sa pertinence.
18Dans ce premier exemple (fig. 2), l’enseignante met en œuvre une stratégie verbo-mimo-gestuelle, qui semble relever de ses schèmes d’action incorporés. La professeure, véritable médiatrice polyphonique et multimodale, effectue plusieurs actions quasi simultanément : elle reprend verbalement l’énoncé de l’élève, que nous appellerons Mireille, attire l’attention sur cette élève en la pointant du doigt avec sa main droite (fig. 2, cliché b) et dirige alternativement son regard vers cette élève (fig. 2, clichés a et c) et le reste de la classe (fig. 2, clichés b et d). Cela lui permet de construire une communauté d’apprenants en réunissant ainsi tous les acteurs présents.
Figure 2. – Enseignante en tant qu’agent de liaison.
FLS/1/ 16 : 59.480 - 17 : 01.790* E : [alors 2e chose oui que tu as dite Mireille]**
* Durée du geste exprimée en seconde/milliseconde.
** Conventions de transcription : E = Enseignante ; A1, A2 = Apprenants ; […] = segment de parole sur lequel est produit le geste ; (..) = son non prononcé ; XXX = segment inaudible ; (… ?) = transcription incertaine ; + = pause.
19Cet exemple permet en outre d’observer une des nombreuses situations durant lesquelles le regard, le verbal et la gestuelle combinés permettent à l’enseignante de définir son coénonciateur principal et de gérer l’attention de la classe. Elle commence par regarder brièvement l’élève juste avant d’entamer son geste évaluateur, puis elle regarde la classe sur « alors », rappelant ainsi l’attention des autres élèves, avant d’orienter à nouveau son regard vers l’élève source de l’énoncé évalué sur « 2e chose oui que tu as dite Mireille ». En créant cette attention conjointe, l’enseignante invite les élèves à orienter leur regard vers Mireille, à qui elle donne ensuite la parole.
20L’enseignante interagit donc avec plusieurs coénonciateurs à la fois. Si l’on change notre point de vue de la scène, on prend conscience que l’enseignante démontre une capacité à être l’interlocutrice de plusieurs élèves à la fois ou, en d’autres termes, une coénonciatrice non pas unique, mais plurielle. Cette aptitude, que nous nommerons « ubiquité coénonciative », lui permet de répondre aux exigences imposées par la réalité polylogale des interactions de classe. Elle est mise en œuvre lors de la gestion multimodale de ses interventions.
21L’exemple suivant (fig. 3) nous aidera à mieux comprendre cette idée.
Figure. 3. – Ubiquité coénonciative multimodale de l’enseignante en cours de FL1.
FL1/2-1/ 01 : 32.810 -01 : 34.700 E : j’ai entendu ce mot c’est- c’est juste à quoi
on voit qu(e) c’est un régime totalitaire ça c’est
on en a parlé jeudi dernier A1 : ben [si on suit
pas la loi on nous ::::] A2 : XXX A1 : (on
emprisonne ?) E : alors si on n(e) suit pas la loi
+ qu’est-c(e) qui s(e) passe A1 : on nous
emprisonne
22Sollicitée par plusieurs apprenants à la fois, l’enseignante coénonciatrice est amenée à se démultiplier. Un premier élève, appelé « A1 », est situé à la droite de l’enseignante. Son intervention se chevauche avec celle d’un deuxième élève, « A2 », placé devant l’enseignante avec laquelle A2 a déjà initié un échange. L’orientation de la main droite de l’enseignante, ainsi que celle de son regard nous indique que, en l’espace de moins de 20 millisecondes, elle est au minimum trois fois coénonciatrice : 1) lorsque A1 commence à parler, elle a entamé une évaluation gestuelle de l’intervention de A2 comme l’indique l’orientation de sa main (fig. 3, cliché a) ; 2) au même instant, et tout en maintenant son geste déictique sur A2, elle signale son intérêt pour l’intervention de A1 en tournant vers lui son regard (cliché b) et en validant son énoncé par un hochement de tête vertical (cliché c) ; 3) elle tourne le regard vers le côté gauche de la classe, rétablissant ainsi un contact visuel avec le reste du groupe, donc une gestion des interventions et/ou du comportement (cliché d).
23Cette ubiquité coénonciative est observée à plusieurs reprises dans les deux contextes (FLS et FL1) et relève donc du pôle schématique de l’agir de cette enseignante. Cette capacité est observée lors des moments de gestion des interactions et du comportement des élèves. Elle a également tout son intérêt au niveau de la construction d’une relation interpersonnelle enseignant/apprenant puisqu’elle offre à l’enseignante l’opportunité de prendre en considération plusieurs élèves à la fois dans la singularité de leurs interventions. C’est donc une reconnaissance de chaque élève en tant que coacteur des interactions.
24Mettre au jour cette capacité a nécessité de mettre en œuvre une démarche permettant d’affiner l’analyse des interactions didactiques. Il s’agissait de dépasser le logocentrisme habituel des études sur les interactions de classe pour considérer, en plus de la parole, plusieurs aspects non verbaux des échanges. C’est à ce niveau que la question de la granularité d’analyse se pose.
- 4 Voir aussi Cosnier (1997, p. 12) pour ce qui est du rôle du regard dans la désignation de l’allocut (...)
25L’exemple de disjonction geste-regard présenté dans notre cas empirique a permis de revenir sur la question du destinataire direct/indirect en contexte didactique : quel est le véritable allocutaire du discours de l’enseignant ? Ce résultat souligne l’intérêt de la notion de « trope communicationnel » proposée par Kerbrat-Orecchioni (1990, p. 92). L’auteure entend par là l’inversion de l’ordre des destinataires. Dans notre cas, de destinataire indirect, le groupe classe devient destinataire direct qui « se définit par le fait qu’il est explicitement considéré par l’émetteur L (l’emploi du pronom de seconde personne et/ou la direction du regard en témoignent4) » (ibid.).
26Nous le voyons, une analyse multimodale des interactions didactiques permet d’en affiner la compréhension. Elle nous offre l’opportunité de pénétrer dans le détail des échanges à la manière d’un agrandissement photographique, révélant ainsi la multimodalité des signes en jeu dans les interventions et ses implications au niveau énonciatif. C’est aussi l’occasion de rendre justice au travail complexe de l’enseignant.
27Des limites à cette démarche peuvent toutefois être soulevées, notamment celle liée au risque de surinterprétation.
28Ce type d’approche accroit la focale, pour conserver la métaphore photographique, sur les interactions didactiques, donc il nous amène à considérer certains détails non verbaux des échanges : les gestes et les mimiques faciales, les postures et la proxémie. Or, plus nous pénétrons dans ce microcosme des échanges, plus le risque de surinterpréter grandit ; il convient alors de ne sélectionner que certains éléments signifiants pour notre problématique (voir infra).
29Calbris (citée par Kendon, 2004, p. 200) avait analysé les différences de sens liées au positionnement des déictiques effectués avec la main. Selon cette gestualiste, lorsque nous pointons l’index vers un élément, nous tendons à singulariser l’objet et à en faire le centre de l’attention. En revanche, lorsque l’on indique l’objet de la main ouverte, celui-ci n’est pas l’élément principal de notre énoncé. Elle avait également observé que la main tendue paume vers le haut signifierait soit que l’énonciateur reconnaissait la personne indiquée comme la source de l’information, soit que l’énonciateur était d’accord avec cette personne. Dans quelle mesure devons-nous prendre en compte la position des mains, du doigt, le nombre de phalanges pliées, de doigts pointés, etc. ? Peut-on véritablement attribuer un sens à ces différences sans verser dans une surinterprétation de l’action ? Cette prise de risque d’analyse est certes intéressante et elle est le cœur de toute interprétation (Lahire, 1996), mais doit-on nécessairement y souscrire ? Il serait alors tentant d’analyser la microgestualité du sujet et d’accorder à un regard, à un mouvement de sourcil ou à un sourire un sens que l’auteur n’avait aucunement l’intention — même inconsciemment — d’exprimer. Il serait tentant de lui prêter en plus des motifs à agir, « des capacités visuelles, auditives, sensitives, cognitives plus “grandes” que (ou simplement différentes de) celles qu’ils possèdent réellement » (Lahire, 1996, § 33).
30Aussi la difficulté ne se situe peut-être pas dans la lourde tâche de l’approche multimodale, mais, comme pour toute analyse du discours, dans celle de réfréner les élans surinterprétatifs en posant un certain nombre de garde-fous méthodologiques définis selon les objectifs de la recherche.
31Il convient notamment de reconstituer la logique et les enjeux des interactions multimodales, car chaque mode de comportement spécifie le sens des autres (Watzlawick, Helmick & Jackson, 1972, p. 47), l’objectif étant de mettre en perspective les canaux pour comprendre, dans le sens que lui donne Blanchet (2011, p. 10) : identifier les phénomènes, leur attribuer des relations d’interactions et d’interdépendances éventuelles et des valeurs pour saisir la complexité (Morin, 1999, p. 17) consubstantielle à l’interaction.
32Procéder à une objectivation de l’analyse peut également servir de garde-fou. En soumettant l’enseignant à sa propre image lors de séances d’autoscopie (Peraya, 1990, p. 7), celui-ci peut proposer sa lecture des échanges filmés, ce qui permet d’objectiver, tout au moins, relativiser le regard du chercheur en le croisant à celui de l’intéressé/e. Il ne s’agit pas là de remettre en cause l’analyse faite par le chercheur, mais bien de la confronter à l’observation du sujet par le sujet.
33Enfin, limiter le nombre de phénomènes à analyser peut constituer un moyen supplémentaire de réduire la surinterprétation. En effet, multiplier le nombre d’éléments à analyser fait courir le risque de négliger l’interaction globale qui donne la cohérence à l’ensemble des éléments étudiés. La problématique retenue oriente nécessairement la sélection des canaux à étudier (Mondada, 2008, p. 92). Il en a été ainsi du regard, et à un moindre degré des sourires. Alors que nous avions entamé notre travail sur la coconstruction multimodale des normes scolaires avec l’objectif de ne nous intéresser qu’au verbal et à la gestuelle, notre approche ethnographique nous a conduit à considérer certains éléments récurrents tel que le regard. Celui de l’enseignante, comme nous l’avons montré avec notre exemple, semblait jouer un rôle primordial lors des échanges à caractère évaluatif. Son analyse a permis d’observer que les rétroactions du professeur ne s’inscrivent pas dans un dialogue entre une enseignante et un élève. L’enseignante a pour mission de transmettre un savoir, savoir-faire et savoir-être idéalement à toute la classe. Notre analyse de la multimodalité des signes révèle une des stratégies enseignantes pour que son évaluation d’un élève soit profitable à l’ensemble du groupe classe.
34Cette contribution visait à proposer une réflexion sur la question de la granularité d’analyse. Notre étude sur l’ubiquité coénonciative nous a servi de point de départ à la présente discussion. Elle permettait de souligner l’importance de considérer la multimodalité des signes dans le traitement de l’agir professoral pour approfondir la compréhension que nous en avons. Ainsi, il s’agit de s’interroger sur la finesse du traitement à privilégier et sur les limites d’une telle entreprise. Car, comme nous l’avons indiqué, ce type d’analyse comporte des risques : la tentation de surinterpréter est un de ceux-ci. Pour réfréner ces élans surinterprétatifs et éviter « la violence faite aux données » (Sardan, 1996), il s’avère alors nécessaire de poser quelques garde-fous méthodologiques tels que ceux évoqués : reconstituer la logique globale des interactions, objectiver l’analyse et limiter les phénomènes à étudier, auxquels il conviendrait d’ajouter l’annotation d’un même corpus à plusieurs mains, qui a l’avantage de croiser les regards et relativiser, si ce n’est objectiver, l’annotation (Tellier, Azaoui & Saubesty, 2012).
35Ainsi, ces mesures permettraient d’envisager plus sereinement l’approche multimodale de l’action enseignante, ce qui complèterait les techniques d’analyse actuellement en usage dans ce domaine (Cicurel, 2011 ; Bigot & Cadet, 2011). Un intérêt accru pour la multimodalité des signes aurait pour avantage d’affiner le portrait déjà bien avancé de la pratique enseignante. C’est au prix de cette démarche de transcription, d’annotation et d’analyse multimodales, chronophage s’il en est, que le voyage au cœur de l’agir professoral nous révèlera progressivement de nouveaux aspects à explorer, notamment l’adaptation de la mimo-gestuelle enseignante selon les contextes évoqués. Une telle étude apporterait, nous semble-t-il, de nouvelles connaissances intéressantes sur les pratiques de transmission.