Navigation – Plan du site

AccueilNuméros26Débat-discussionÉthique des Learning Analytics

Texte intégral

Introduction

1Je suis postdoctorant en informatique, spécialisé en intelligence artificielle et plus particulièrement dans l’apprentissage automatique, sur le projet ANR français de Développement d’Universités Numériques Expérimentales, un Engagement pour Ouvrir L’Éducation (DUNE EOLE, 2018), dont une action porte sur les Learning Analytics (LA). Ce projet a pour objectif la mise en place d’une solution complète de LA au sein de l’Université de Lorraine pour mesurer l’impact des LA sur la réussite des étudiants en première année de licence. Mon rôle est de définir un modèle qui, à partir des traces d’apprentissage numériques, identifie le profil d’un apprenant, ses forces, ses faiblesses, et l’aide à progresser dans son apprentissage. Ce travail consiste à calculer des indicateurs à partir des données brutes, à modéliser le comportement de l’apprenant sur la base de ces indicateurs, et à lui restituer les résultats de notre analyse de ses traces d’apprentissage sous la forme d’un tableau de bord personnalisé.

2Le lien entre distance et Learning Analytics n’est pas systématique. À l’Université de Lorraine, il s’agit majoritairement de cours présentiels dans lesquels l’enseignant est en contact direct avec ses étudiants. J’insiste sur cette distinction entre les cours à distance et les cours présentiels car ce sont les données, les traces d’apprentissage, qui fondent une solution de LA efficace. L’avènement du numérique permet une exploitation des données pour laquelle les cours à distance présentent de nombreux avantages. En effet, la quasi-totalité des interactions entre un apprenant et son cours se fait en ligne et est collectée sous la forme de traces d’apprentissage. De la même manière, avec un nombre d’apprenants très important sur les MOOC par exemple, la quantité d’informations disponibles dans le contexte de la distance est souvent un atout pour l’efficacité des LA. La mise en place, l’utilisation et l’évolution des Learning Analytics soulèvent de nombreuses questions, et je tente dans ce texte d’apporter mon point de vue de chercheur dans le domaine sur plusieurs d’entre elles.

Une méthode éthique de collecte et d’analyse des données ?

3Comme le rappelle le texte de cadrage proposé par D. Peraya (2019), les LA sont aujourd’hui intimement liées au domaine de la science des données. Les données sont, depuis longtemps, collectées massivement par les systèmes d’information et les environnements numériques de travail sous la forme de logs d’activité à des fins de gestion et d’administration des plateformes web. La collecte de ces logs est une obligation légale. Selon la loi, une simple déclaration de l’existence de ce fichier logs à la Commission nationale de l’informatique et des libertés (CNIL) suffit à rendre légal la collecte des traces d’activités des utilisateurs sur une fenêtre glissante de 6 mois. La collecte de cette donnée à caractère personnel est autorisée pour des raisons de sécurité. Si un utilisateur commet un acte frauduleux sur un site web, il doit pouvoir être traduit en justice, ce qui implique que le site web doit pouvoir retrouver la trace de son délit.

4Tout a basculé avec l’émergence de la fouille des données d’usage du web (Srivastava, Cooley, Deshpande et Tan, 2000). Il s’agit de fouiller les données de logs d’activité d’un site web pour détecter les motifs récurrents du comportement de ses utilisateurs afin de prédire le comportement futur de ces derniers. Dès lors, la collecte des logs contenant l’adresse IP de l’utilisateur est-elle encore éthique ? Pour faire référence au texte de cadrage (Peraya, 2019), on voit ici que ce ne sont pas les données ni leur collecte qui posent un problème d’éthique, mais leur exploitation.

5En e-éducation, ces traces de l’activité des utilisateurs sont appelées traces d’apprentissage. Tant que l’on collecte ces traces de manière anonyme (sans le moyen de retrouver qui est l’apprenant à l’origine de ses traces), cette collecte de données respecte la loi. Mais une collecte anonyme est-elle pour autant éthique ? Toute collecte a pour but d’apporter quelque chose, de faire bénéficier d’un avantage, à celui qui collecte les données. Donc même lorsque les données sont anonymes, c’est l’utilisation qui en est faite qui détermine, selon moi, l’éthique de la collecte.

6Mes recherches s’inscrivent dans la catégorie de recherche en LA identifiée sous le nom Learning Analytics Dashboards dans le texte de cadrage (Lang, Siemens, Wise et Gasevic, 2017 ; Peraya, 2019). Pour apporter un service de tableau de bord (TDB) personnalisé à l’apprenant, les données anonymes ne suffisent plus. Un service personnalisé nécessite l’exploitation de données à caractère personnel. Les traces d’apprentissage ne sont donc plus anonymisées, mais pseudonymisées, permettant ainsi de reconnaître les traces d’apprentissage générées par un même individu. Dans ce contexte, le problème de l’éthique des données et des algorithmes d’intelligence artificielle est souvent résumé autour des trois fondamentaux suivants : les biais, la transparence et la responsabilité (AI Forum, 2018 ; Peraya, 2019). Je me positionne dans la suite de ce texte sur ces trois éléments pour répondre aux arguments présentés dans le texte de cadrage.

7Tout d’abord, parlons des biais présents dans les données et dans les algorithmes. Nous avons désormais de nombreux exemples d’intelligences artificielles qui reproduisent les biais présents dans les données. Par exemple, la société Amazon a mis au point un algorithme d’apprentissage automatique spécialiste du recrutement d’employés qui a montré un biais contre les femmes, favorisant le recrutement des hommes (Dastin, 2018). Face à ce constat, les ingénieurs à l’origine du programme ont décidé de filtrer les mots faisant référence au genre du candidat pour rendre neutres les candidatures. Ils ont alors remarqué que le programme avantageait encore les hommes et ont trouvé la raison de ce nouveau dysfonctionnement : les données « proxy ». Les données proxy sont les données corrélées entre elles qui peuvent se substituer les unes aux autres. Par exemple, si sur la fiche neutre d’un candidat apparaît le nom d’une école qui n’est pas mixte, alors la candidature n’est pas neutre. La conclusion de cette expérience a été l’arrêt du projet, face au constat qu’il est très difficile d’éliminer les biais dans les données. C’est d’ailleurs une thématique de recherche très populaire depuis plusieurs années (Greenland, Mansournia et Altman, 2016 ; Zhao, Wang, Yatskar, Ordonez et Chang, 2017).

8D. Peraya (2019, §35, citant, Ouakrat et Mesangeau, 2016, §2) rappelle que les données captées dans le cadre d’une collecte de traces d’apprentissage sont « partielles et limitées » et remet en cause la validité des données collectées. À titre personnel, je pense que ce problème du biais des données et des algorithmes ne doit pas empêcher la recherche et l’innovation dans le domaine de l’apprentissage automatique. Il faut être conscient des limites de ces algorithmes qui ne font qu’imiter ce qu’ils observent, même partiellement, du comportement des humains. Je considère qu’il s’agit plutôt d’une opportunité pour révéler les iniquités de notre société, afin de les gommer pas à pas. Par exemple, maintenant que le biais dans les recrutements de la société Amazon est révélé, les recruteurs de la société ne vont-ils pas, même inconsciemment, prêter une attention particulière à ce biais ?

9Ensuite, nous pouvons évoquer le besoin de transparence des applications et de leurs algorithmes. Pour qu’un algorithme soit aussi transparent que possible, il faut expliquer aux utilisateurs, le plus clairement possible, l’utilisation qui est faite de leurs données, mais ce n’est pas tout. Le règlement général sur la protection des données (RGPD) stipule qu’il faut mettre en place une « gouvernance des données », ce qui, dans le cadre de l’e-éducation, a les impacts suivants (Lang, Siemens, Wise et Gasevic, 2017) :

  • l’apprenant doit pouvoir accéder aux données brutes collectées le concernant ;

  • l’apprenant doit pouvoir choisir les informations affichées sur son compte rendu d’activité ;

  • l’apprenant doit pouvoir contester et corriger les informations qu’il juge erronées ou imprécises ;

  • l’apprenant peut demander la suppression intégrale des données le concernant.

10Une application de LA respectant ce niveau de transparence avec ses apprenants est considérée comme éthique. Je peux en attester, dans le cadre du projet EOLE, l’Université de Lorraine fait l’effort de respecter ces règles, mais, tout comme le souligne D. Peraya, je crains qu’une entreprise visant la rentabilité maximale puisse être tentée de ne pas respecter cette partie du RGPD. C’est pourquoi on évoque toujours un troisième principe autour de l’éthique des données et des algorithmes : la responsabilité.

11Enfin, même dans le cas d’une collecte de données respectant le principe de la « gouvernance des données », comment s’assurer que les traces d’apprentissage que l’on entrepose ne puissent pas faire l’objet d’une utilisation non éthique ? Il en va de la responsabilité des concepteurs de l’application, qui sont désormais légalement responsable des dérives de leurs outils. L’exemple récent du procès de Facebook aux États-Unis est très parlant. Le scandale Cambridge Analytica a révélé comment cette société, spécialiste de l’influence politique et proche de Donald Trump avait siphonné les données de plus de 80 millions de comptes utilisateur Facebook sans leur consentement. L’entreprise Facebook, qui pourtant affirme avoir été dupée, a été reconnue responsable de la fuite des informations personnelles de ses utilisateurs, aux États-Unis. Au travers de ce principe de responsabilisation des acteurs du numérique, l’objectif est d’amener ceux-ci à proposer des applications et des entrepôts de données éthiques par conception (« privacy by design »). Ce principe, tel qu’il est défini dans le RGPD, consiste à s’assurer de la prise en compte de la protection des données à caractère personnel dès la conception des applications qui traitent ces données. Dans ses travaux, C. Zolynski (2018), professeur de droit, propose sept principes à respecter pour une « éthique by design » des applications. Ces principes reprennent succinctement les éléments évoqués par le RGPD, en insistant sur le besoin d’« explicabilité et de contrôle pour et par l’utilisateur », la nécessité du « maintien du contrôle par l’humain » et l’importance de la « mise en place de formations et de campagnes de sensibilisation des utilisateurs » au fonctionnement des applications (Zolynski, 2018, p. 8). On peut noter que le RGPD est une loi qui fournit de nombreux outils pour entraver, en partie, les utilisations non éthiques des données personnelles.

12Dans la même perspective, citons aussi le serment d’Hippocrate des data scientist (Aloy, 2018). Ce sont cinq principes qui doivent être respectés par toute personne travaillant au contact de la donnée, et inscrite dans une démarche éthique. L’objectif est de sensibiliser ces personnes à l’impact que peuvent avoir leurs algorithmes. Le parallèle entre un médecin et un data scientist est intéressant, dans les deux cas, des individus leur confient des données à caractère personnel pour bénéficier d’un service personnalisé dont ils ne comprennent pas le fonctionnement. Cependant, là où les médecins consacrent aujourd’hui de plus en plus de temps à leurs patients pour les rassurer et les renseigner, les data scientist ne rencontrent jamais les utilisateurs dont ils exploitent les données personnelles.

13L’écosystème du numérique est complexe, très peu d’utilisateurs comprennent la manière dont il fonctionne. Il faut remettre l’humain au centre du problème, afin qu’il puisse autoréguler les problèmes d’éthique dans le cadre du numérique. Cela passe par la compréhension, la maîtrise et l’appropriation des outils numériques et de leur fonctionnement par leurs utilisateurs. Pour cela, les applications doivent être ouvertes, claires et bien documentées. À l’heure actuelle, c’est exactement l’inverse que l’on observe. Par exemple, les conditions générales d’utilisation (CGU) des applications, dont le but est aussi d’informer les utilisateurs sur l’utilisation de leurs données personnelles, ne sont plus lues par les individus : nous acceptons tous des CGU sans même les comprendre. Une meilleure solution doit émerger, pour rendre simple et pédagogique la transmission de ce type d’informations à l’utilisateur.

14À la lecture de toutes ces règles à respecter pour concevoir une application éthique, je pense que le plus important à retenir est que nous, acteurs de la science des données et du numérique, sommes désormais pleinement conscients de nos responsabilités et nous ne pouvons plus les nier. Je suis entièrement d’accord avec D. Peraya lorsqu’il affirme que « le débat est de savoir et de pouvoir contrôler » qui utilise les LA et dans quel but, mais je pense aussi avoir apporté quelques éléments de réponses à ces questions.

15La familiarisation des utilisateurs aux Learning Analytics

16Il s’agit d’une acculturation au numérique et particulièrement aux LA dont il est question ici. La restitution des données d’analyse aux apprenants est une partie essentielle de mon travail. Récemment, nous avons fait un sondage auprès d’un groupe de plus de cent étudiants en première année de licence, et pas un seul étudiant n’a déclaré être opposé à la mise en place d’un outil de tracking de son activité, à condition de pouvoir choisir de partager ou non ces informations avec l’enseignant de la matière. Cette nouvelle génération d’étudiants est d’ores et déjà habituée à être suivie par des outils numériques, notamment sur leur smartphone. La crainte d’être jugé négativement par l’enseignant s’il accède aux traces d’apprentissage de chaque apprenant est, quant à elle, bien présente. L’acculturation au numérique des étudiants est bien entamée, il reste alors à les familiariser avec les outils de Learning Analytics. Un travail de pédagogie sur l’utilisation de ces outils, leur fonctionnement et leur appropriation est donc à prévoir.

17Le plus souvent, l’apprenant accède aux résultats d’une approche de LA au travers d’un tableau de bord. L’auteur Y. Park (2015) détaille les avantages et inconvénients de 6 tableaux de bord de l’état de l’art. Mon point de vue sur les tableaux de bord est qu’il ne faut pas faire l’erreur de penser qu’un même tableau de bord puisse convenir à tout le monde. Il faut au contraire permettre à l’apprenant de personnaliser son tableau de bord (TDB) pour surveiller les informations qu’il pense pertinentes et le laisser s’approprier l’outil. L’objectif est que l’apprenant comprenne le fonctionnement du TDB et donc comprenne la manière dont chacune des informations y figurant est calculée. Cela implique que les méthodes d’apprentissage automatique les plus performantes à l’heure actuelle, comme les réseaux de neurones, dont les résultats ne sont pas explicables, sont à proscrire dans le cadre d’une démarche éthique de LA. Parmi les objectifs du projet EOLE figure la conception d’un TDB de suivi de l’activité à destination des apprenants. Notre démarche pour atteindre cet objectif est de placer les apprenants au centre de la conception de ce TDB pour intégrer le plus de diversité possible parmi les besoins exprimés. Pour cela, nous avons réuni 103 étudiants de l’Université de Lorraine en première année de licence pendant 3 heures. Nous leur avons présenté quelques exemples de TDB qu’ils ont pu critiquer, pour ensuite leur demander d’exprimer ce qu’ils souhaiteraient avoir comme TDB en tant qu’étudiant. Voici les remarques formulées par nos apprenants le plus fréquemment lors de cette séance de co-conception :

  • envoi d’un mail lorsqu’il y a une évolution importante du TDB, notamment à la baisse ; cette demande a été formulée de différentes manières, mais les étudiants veulent s’assurer de ne pas passer à côté d’une information importante que pourrait leur transmettre le tableau de bord. Ils ont donc demandé à être notifiés lorsqu’il y a de nouvelles informations. Il faut tout de même rester vigilant à ne pas créer une « obsession de l’indicateur » chez les étudiants ;

  • forte diversité des informations affichables pour que chacun trouve celle(s) qui lui correspond(ent) ; les étudiants sont nombreux à avoir demandé à pouvoir personnaliser l’affichage et ont suggéré des indicateurs qui n’étaient pas présents par défaut ;

  • les informations doivent être positives et motivantes ; le TDB doit rester un outil de motivation et d’engagement. Plusieurs étudiants ont signalé qu’un TDB présentant des indicateurs alarmistes ne les intéressent pas ;

  • indiquer comment les informations sont calculées ; certains veulent une explication narrative, d’autres veulent accéder aux données brutes à l’origine d’un résultat, etc. Les demandes concernant l’explicabilité du TDB sont très diverses ;

  • prise en compte de contraintes individuelles (maladie, travail, enfants, handicap, etc.) ;

  • etc.

18Au travers de ces retours, je remarque que les apprenants sont conscients de leurs droits et savent ce qu’ils veulent. Ils ont besoin d’un outil d’aide à l’auto-évaluation personnalisable en lequel ils peuvent avoir confiance. C’est là tout l’enjeu de mon travail.

19Cette confiance est primordiale dans une démarche d’apprentissage. Le besoin permanent d’obtenir le consentement éclairé de l’apprenant a pour objectif de construire cette confiance. Pourquoi afficher le rang d’un apprenant dans une classe s’il ne souhaite pas le connaître ? Pourquoi ne pas demander l’avis de l’apprenant avant d’afficher ces informations ? Cela peut ressembler à du bon sens, mais la majeure partie des applications numériques actuelles calculent et affichent l’intégralité des informations avant même de demander l’avis de leurs utilisateurs. Les apprenants doivent pouvoir comprendre la manière dont chaque information est calculée, et, enfin, ils doivent pouvoir supprimer une analyse de leurs données s’ils la trouvent imprécise ou erronée.

20Une autre question d’ordre éthique mérite d’être soulevée ici. Si l’analyse des traces d’apprentissage révèle à l’apprenant qu’il a très peu de chances d’obtenir de bons résultats aux examens, même s’il peut supprimer cette analyse suite à un désaccord sur les résultats, n’est-il pas déjà trop tard ? Est-ce éthique de prendre le risque de démotiver un apprenant ? Dans le cadre du projet EOLE, le TDB doit rester motivant et engageant, les informations les plus pessimistes ne s’affichent donc pas par défaut. Mais gardons à l’esprit qu’il n’est peut-être pas éthique non plus de ne pas confronter l’apprenant à ses fortes probabilités d’échec. Mesurer et comprendre l’impact des LA sur les apprentissages des étudiants de l’Université de Lorraine est au centre des intérêts de notre projet.

21Du côté de l’enseignant, le problème est différent puisque les données sur lesquelles sont calculées les informations qui lui sont affichées ne lui appartiennent pas, ce sont les données d’activité de ses apprenants. Néanmoins, la pratique de l’enseignement, de manière globale, pourrait être impactée avec l’utilisation des Learning Analytics par l’enseignant. L’acculturation sera longue, mais tout comme pour les apprenants, chaque enseignant a le choix de sa pratique de l’enseignement, les LA ne sont pas une obligation.

Le futur des Learning Analytics

22Mon domaine d’expertise concerne la collecte, l’analyse et la restitution des analyses dans le domaine des Learning Analytics. Mon avis sur l’avenir du secteur de la formation relève donc plus du ressenti que de l’expérience.

23Beaucoup voient les LA comme un premier pas vers une marchandisation de la formation, de manière très négative. Je ne suis pas d’accord. Si les LA sont un outil permettant d’améliorer significativement l’apprentissage des apprenants, ils seront très vite adoptés par l’ensemble des organismes de formation privés et publics. Un établissement possédant une meilleure solution de LA, et profitant de cet avantage pour commercialiser ses formations, ne sera que l’équivalent des organismes privés actuels qui attirent leurs apprenants avec la renommée de leurs enseignants. Derrière chaque innovation se cachent des entreprises prêtes à profiter de ces innovations pour s’enrichir, mais cela ne doit pas empêcher l’innovation.

24Enfin, plutôt que d’employer le terme « industrialisation » de la formation, je préfère y voir un accès à la formation pour tous, et un pas de plus vers l’équité sociale. L’impact de tels changements dans l’écosystème de la formation est difficile à prévoir, seul le temps pourra nous renseigner.

Haut de page

Bibliographie

AI Forum (2018). Artificial Intelligence : Shaping a Future New Zealand. Récupéré le 20 mai 2019 sur le site d’AI Forum : https://aiforum.org.nz/wp-content/uploads/2018/07/AI-Report-2018_web-version.pdf

Aloy, J.-B. (2018). Le serment d’Hippocrate du Data Scientist. Récupéré le 20 mai 2019 sur le site de l’association : https://hippocrate.tech/

Dastin, J. (2018). Amazon scraps secret AI recruiting tool that showed bias against women. Récupéré le 20 mai 2019 sur le site Reuters : https://www.reuters.com/article/us-amazon-com-jobs-automation-insight/amazon-scraps-secret-ai-recruiting-tool-that-showed-bias-against-women-idUSKCN1MK08G

DUNE EOLE (2018). Projet ANR DUNE EOLE : Un engagement pour ouvrir l’éducation. Récupéré le 20 mai 2019 sur le site officiel du projet : http://www.dune-eole.fr/

Greenland, S., Mansournia, M. A. et Altman, D. G. (2016). Sparse data bias : a problem hiding in plain sight. British Medical Journal (BMJ). https://0-doi-org.catalogue.libraries.london.ac.uk/10.1136/bmj.i1981

Lang, C., Siemens, G., Wise, A. et Gasevic, D. (Eds.) (2017). Handbook of learning analytics. SOLAR, Society for Learning Analytics and Research. Récupéré de : https://0-doi-org.catalogue.libraries.london.ac.uk/10.18608/hla17

Park, Y. et Jo, I. H. (2015). Development of the learning analytics dashboard to support students’ learning performance. Journal of Universal Computer Science, 21(1), 110.

Peraya, D. (2019). Les Learning Analytics en question. Distances et médiations des savoirs, 25. Récupéré le 4 mai 2019 sur le site de la revue : http://0-journals-openedition-org.catalogue.libraries.london.ac.uk/dms/3485

Srivastava, J., Cooley, R., Deshpande, M. et Tan, P. N. (2000). Web usage mining : Discovery and applications of usage patterns from web data. Acm Sigkdd Explorations Newsletter, 1(2), 12-23.

Zhao, J., Wang, T., Yatskar, M., Ordonez, V. et Chang, K. W. (2017). Men also like shopping : Reducing gender bias amplification using corpus-level constraints. Dans Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing (p. 2979-2989). https://arxiv.org/pdf/1707.09457.pdf

Zolynski, C. (2018). L’Ethics by design sous le prisme de la privacy. Conférence Ethics By Design. Récupéré sur le site de la conférence : https://2018.ethicsbydesign.fr/wp-content/uploads/2018/08/T2-ZOLYNSKI-Celia.pdf

Haut de page

Pour citer cet article

Référence électronique

Benjamin Gras, « Éthique des Learning Analytics  »Distances et médiations des savoirs [En ligne], 26 | 2019, mis en ligne le 17 juin 2019, consulté le 21 janvier 2025. URL : http://0-journals-openedition-org.catalogue.libraries.london.ac.uk/dms/3768 ; DOI : https://0-doi-org.catalogue.libraries.london.ac.uk/10.4000/dms.3768

Haut de page

Droits d’auteur

CC-BY-SA-4.0

Le texte seul est utilisable sous licence CC BY-SA 4.0. Les autres éléments (illustrations, fichiers annexes importés) sont « Tous droits réservés », sauf mention contraire.

Haut de page
Rechercher dans OpenEdition Search

Vous allez être redirigé vers OpenEdition Search