Navigation – Plan du site

AccueilNuméros24DossierVers une métrique pour évaluer le...

Dossier

Vers une métrique pour évaluer les métadonnées de documents scientifiques

Étude de cas de l’Université de Toulon et l’archive ouverte HAL
Alaric Tabariès

Texte intégral

Introduction

1Avec l’adoption généralisée de la science ouverte par la communauté scientifique, la volumétrie d’information accessible par le chercheur s’accroît de manière exponentielle jusqu’en 2020. En décembre 2021, 2 919 152 références sont librement accessibles sur l’archive ouverte française HAL (figure 1). Cette tendance se reflète également dans d’autres archives similaires telles qu’arXiv.

Figure 1. Nombre de dépôts, par an, sur l’archive HAL

Figure 1. Nombre de dépôts, par an, sur l’archive HAL

2Dans ce contexte avancé de « redocumentarisation » (Broudoux & Scopsi, 2011), l’utilisation d’archives ouvertes regroupant ces données joue un rôle important dans toute entreprise scientifique : elle permet d’archiver, de décrire puis d’indexer pour améliorer la visibilité et la pérennité des productions. Réciproquement celles-ci deviennent plus faciles à identifier pour, entre autres, réaliser des avancées scientifiques sur la base de recherches antérieures. Ce processus de veille scientifique ne peut être réalisé que si les données sont correctement indexées, ce qui permet alors de retrouver l’information de manière instrumentée par les moteurs de recherche (Shankaranarayanan, Even, & Watts, 2006). Dans le cas inverse, il en résulte un manque d’efficacité pour l’archive dans son rôle de système de recherche de l’information. Nous nous intéressons donc ici au renseignement de métadonnées pour décrire une référence (par exemple : la discipline, les mots-clés ou encore le résumé), soit par le chercheur, soit par un processus automatisé d’enrichissement de l’information. En effet, cette étape de nature chronophage (Alarcon et al., 2020) tend à être reportée, voire négligée, par le chercheur, que ce soit par manque de temps ou d’intérêt : des études antérieures (Tabariès & Reymond, 2021) portant sur l’archive ouverte HAL montrent que seulement 50 % des références qu’indexait la plateforme étaient décrites par des mots-clés.

3Nous proposons donc une métrique d’évaluation des métadonnées des références déposées dans l’archive HAL. Nous commençons par décrire la méthodologie que nous avons suivie, avant de présenter les résultats de son application dans notre étude de cas. Nous présentons enfin le jeu de données utilisé ainsi que les méthodes d’acquisition et de traitement au travers d’un notebook (Tabariès, 2022).

Contexte

4Ce travail s’inscrit dans un projet plus large visant à développer un outil d’accompagnement du chercheur vers la science ouverte (Reymond & Galliano, 2019). Cet outil permet à un chercheur, un laboratoire ou encore une université de situer sa production scientifique en présentant des informations récoltées à partir de HAL puis enrichies à l’aide d’autres services. Le calcul d’une métrique simple, agrégeant plusieurs éléments qui participent à définir la qualité de l’indexation d’une référence déposée dans une archive ouverte, fournit un indicateur compréhensible pour le chercheur. Il peut ainsi évaluer facilement la qualité de l’indexation de ses travaux référencés et l’évolution de ce paramètre dans le temps.

L’archive ouverte HAL

5HAL est une archive ouverte où les auteurs peuvent déposer des documents scientifiques. C’est l’une des principales plateformes utilisées en France par les chercheurs (Sergi, 2021). L’archive permet de décrire une référence par une multitude de métadonnées (API HAL | API Archive Ouverte HAL, 2022). Une interface de programmation (API) est disponible pour collecter les références en vue d’un traitement ultérieur.

Travaux précédents

6La problématique de la mesure de la qualité des métadonnées fait l’objet de nombreuses recherches.

7Bruce et Hillmann (2004), Custard et Sumner (2005) définissent plusieurs dimensions permettant de définir la qualité de l’information (et par extension, des métadonnées) dont :

  • la complétude qui indique si une donnée est complète ou non ;

  • l’exactitude qui implique que l’information représente exactement ce qu’elle décrit ;

  • la provenance qui détermine la crédibilité de l’information.

8La communauté scientifique s’accorde sur le fait que la complétude des métadonnées est l’une des caractéristiques les plus importantes de leur qualité. C’est également la plus facile à mesurer pour qualifier des données nombreuses et variées (Margaritopoulos, Margaritopoulos, Mavridis, & Manitsaris, 2012), comme c’est le cas dans le cadre une archive pluridisciplinaire.

9Riley (2017) définit plusieurs types de métadonnées dont :

  • les métadonnées descriptives permettant de trouver et comprendre une ressource ;

  • les métadonnées administratives qui correspondent aux données techniques permettant, par exemple, de décoder et restituer la ressource ;

  • les métadonnées structurelles qui décrivent les relations entre différentes ressources.

10Les métadonnées descriptives revêtent donc un intérêt majeur dans le cadre de ce travail. Associées à l’étude de leurs dimensions de complétude et de provenance (auteur ou méthodes automatisées), ces dernières devraient permettre d’établir une esquisse de la qualité de la description d’une ressource.

Méthodologie

11La complétude des métadonnées est une caractéristique simple à quantifier de manière automatisée. Sur la base de cette observation, la partie principale de la méthodologie consiste à définir les métadonnées d’importance significative dans le cadre de notre travail.

Sélection et pondération des champs

12L’objectif est d’attribuer un score élevé à une référence qui possède le plus de métadonnées qualitatives en vue d’un traitement automatisé ultérieur (par exemple : l’indexation ou l’exploration de texte). Dans cette optique, plusieurs métadonnées se révèlent être d’un intérêt particulier (tableau 1).

Tableau 1. Métadonnées d’importance significative

Métadonnée

Type, format

Poids

DOI

entrée, identifiant

0,6

titre *

entrée multilingue, texte

0,1

résumé

entrée multilingue, texte

0,8

mots-clés

entrée multilingue, texte

1

domaine *

entrée, texte

0,1

texte intégral

entrée, texte

0,4

date (de publication, etc.) *

entrée, date

0,1

13Nous sélectionnons des métadonnées descriptives qui permettent d’identifier une ressource lors d’une recherche élémentaire dans les archives, comme le titre, le résumé et les mots-clés. Nous sélectionnons également la métadonnée renseignant le DOI (Digital Object Identifier) : à l’aide de cet identifiant, les références conservent leur forme malgré d’éventuelles modifications des métadonnées, ce qui permet de référencer, d’identifier et de localiser la ressource sur le long terme et sur différentes plateformes. Les références sont enrichies de manière automatisée avec du vocabulaire contrôlé extrait des mots-clés, ce qui permet alors d’organiser les connaissances afin d’optimiser la recherche d’information. Nous attribuons donc un poids plus important à cette dernière métadonnée. Enfin, des recherches antérieures sur l’archive HAL montrent qu’environ 40 % des mots-clés décrivant une notice sont présents dans le résumé alors qu’environ 80 % le sont dans le texte complet de l’article (Tabariès & Reymond, 2021). Nous considérons donc qu’il est utile de prendre en compte la métadonnée du texte intégral. Nous n’étudions pas le cas particulier dans lequel un document est sous embargo de l’éditeur (soit environ 5 % des notices dans notre étude de cas ci-après).

14Le renseignement de certaines métadonnées (marquées par une « * » dans le tableau 1) est obligatoire lors du dépôt, il nous paraît important de les mentionner.

Acquisition des données

15L’acquisition des métadonnées des notices se fait en interrogeant l’interface de programmation de la plateforme HAL (API HAL | API Archive Ouverte HAL, 2022). Nous récupérons les métadonnées présentées dans le tableau 1 pour chaque notice.

Calcul de la métrique de qualité pour une référence

16En considérant les champs sélectionnés précédemment, la mesure pondérée de la complétude, inspirée par le travail de Ochoa et Duval (2009), est calculée comme suit :

N est le nombre de champs, pi le poids du i-ème champ, et Ci l’indicateur binaire de complétude du i-ème champ.

Étude de cas, objet du data paper

17L’étude de cas, présentée au travers d’un notebook (Tabariès, 2022), porte sur l’étude des dépôts HAL effectués par les enseignants-chercheurs de l’Université de Toulon à la date de septembre 2021.

Acquisition et traitement des données

18Nous appliquons la méthode précédemment décrite aux notices référencées de 113 enseignants-chercheurs issus de 15 laboratoires différents affiliés à l’Université de Toulon. La sélection comprend tous les chercheurs de l’Université de Toulon qui ont créé un identifiant HAL (soit 113 chercheurs sur 276). L’acquisition de ces données se fait en interrogeant, pour chaque entité, l’interface de programmation HAL via le champ authIdHal_s qui correspond à l’identifiant HAL de l’auteur (ou d’un co-auteur) d’une référence. Nous récupérons donc 5 881 références dont les chercheurs de l’échantillon sont auteurs (ou co-auteurs), soit environ 52 par enseignant-chercheur.

19Nous agrégeons par la suite les données par année (submittedDateY_i) puis par domaine scientifique (primaryDomain_s) afin d’obtenir résultats exploitables.

Présentation des résultats

20Le tableau 2 présente les métriques de qualité des métadonnées calculées pour les notices déposées par les enseignants-chercheurs en fonction de la discipline dont les notices relèvent. La composition des champs académiques présentés suit la classification proposée par Wikipédia (« Discipline scientifique », 2021).

Tableau 2. Score moyen obtenu selon le champ académique

Champ académique

Nombre de notices

Score moyen

Sciences sociales

3 164

0,349

Sciences de la nature

1 250

0,565

Sciences formelles

1 024

0,462

Sciences appliquées

386

0,477

Autres (ou non définies)

57

0,214

Total

5 881

0,422

21La figure 2 présente l’évolution des métriques de qualité des métadonnées dans le temps. Les quelques notices déposées avant 2011 ont été omises afin d’en faciliter la lecture.

22Figure 2. Score moyen obtenu selon l’année de soumission

23La figure 3 présente l’évolution des métriques de qualité des métadonnées dans le temps déclinée par grande catégorie scientifique (STM indiquant les sciences techniques et médicales et SHS les sciences humaines et sociales).

Figure 3. Score moyen obtenu selon l’année de soumission décliné par grandes catégories scientifiques

Figure 3. Score moyen obtenu selon l’année de soumission décliné par grandes catégories scientifiques

Interprétation des résultats

24Dans cette étude de cas, nous constatons que les scores obtenus sont hétérogènes, l’écart-type étant de 0,3. En effet, bien que les références aient un score moyen de 0,422, une proportion importante d’entre elles (31 %) sont décrites par très peu de métadonnées. Une part encore moins importante peut être qualifiée de complète selon notre définition précédemment exposée (19 %). Depuis 2016, un nombre plus conséquent de références scientifiques sont déposées sur l’archive HAL, ce qui est cohérent avec l’entrée en vigueur de la loi pour une République numérique cette même année (Article 30 - LOI n° 2016-1321 du 7 octobre 2016 pour une République numérique (1) - Légifrance, 2016). Cette augmentation se conjugue avec un appauvrissement des métadonnées décrivant les références : le score moyen des références décline de 0,616 avant 2016 à 0,398 de 2016 à 2021. Lorsque l’on étudie cette évolution par grande catégorie scientifique, on constate un écart dans le niveau de description des références comme dans le nombre de références déposées entre les sciences techniques et médicales et les sciences humaines et sociales.

Jeu de données et notebook

25Le notebook présentant l’acquisition, puis le traitement des données est mis à disposition sous licence CC BY 4.0.

26Le jeu de données, mis à disposition sous licence CC BY 4.0 prend la forme d’un fichier CSV présentant les colonnes suivantes :

  1. primaryDomain_s : correspond au domaine primaire auquel appartient le document ;

  2. doiId_s : correspond au DOI du document ;

  3. submittedDateY_i : correspond à la date de dépôt de la notice ;

  4. docType_s : correspond au type de document ;

  5. mds : correspond au résultat du calcul de la métrique.

27Ainsi, le jeu de données contient, pour chaque notice traitée, les informations listées ci-dessus dans le cas où ces dernières sont renseignées sur la notice. L’utilisation de ces données est réalisée à des fins de recherche (La fouille de textes et de données à des fins de recherche : une pratique confirmée et désormais opérationnelle en droit français, 2021).

Discussion

28Les résultats présentés dans l’étude de cas et dont il reste à étudier la représentativité à une échelle supérieure montrent qu’il est important de se saisir du problème de l’appauvrissement des métadonnées décrivant les références dans les archives ouvertes, et ce, en raison de l’adoption croissante de la science ouverte par les chercheurs. En effet, même si le niveau de description des notices en sciences techniques et médicales tend à s’améliorer, le niveau général reste peu satisfaisant et met en péril l’utilisabilité de telles archives. La mise en place d’une métrique d’évaluation des métadonnées peut constituer une réponse à cette problématique. Elle permet au chercheur de reconnaître facilement et rapidement les références pauvrement décrites. Ce problème souligne également l’utilité des plateformes adossées aux archives ouvertes (Reymond & Galliano, 2019, Robson et al., 2021) qui peuvent intégrer de telles méthodes pour guider les chercheurs vers les bonnes pratiques liées à la science ouverte. En effet, au-delà de la réutilisation du jeu de données présenté dans ce data paper, ces dernières, au même titre que les archives ouvertes, peuvent implémenter le calcul de cette métrique pour le présenter à leurs utilisateurs ou encore agréger cette métrique selon divers critères pour étudier la qualité des métadonnées d’un point de vue statistique.

Haut de page

Bibliographie

Alarcon, Nicolas, Brigitte Bidégaray-Fesquet, Nicolas Boileau, Marlène Delhaye, Celia Lentretien, Jessica Leyrit, Colette Orange, et Armelle Thomas, « Casuhal - Enquête Adhérents 2020  : synthèse des résultats », 2020. https://hal.univ-reunion.fr/hal-03263566.

« API HAL | API Archive Ouverte HAL ». [En ligne]. HAL [Page consultée le 15 janvier 2022]. Disponibilité et accès https://api.archives-ouvertes.fr/docs/search/?schema=fields\#fields.

« Article 30 - LOI n° 2016-1321 du 7 octobre 2016 pour une République numérique (1) - Légifrance ». [En ligne]. Légifrance, 8 octobre 2016 [Page consultée le 14 mai 2021]. Disponibilité et accès https://www.legifrance.gouv.fr/jorf/article_jo/JORFARTI000033202841.

Broudoux, Évelyne, et Claire Scopsi, « Introduction », Études de communication, 2011, nᵒ 36 (juin) : 9‑22. https://0-doi-org.catalogue.libraries.london.ac.uk/10.4000/edc.2513.

Bruce, Thomas, et Diane Hillmann, « The Continuum of Metadata Quality: Defining, Expressing, Exploiting », dans D. Hillmann & E. Westbrooks (dir.), Metadata in Practice. Chicago : ALA Editions, Janvier 2004. https://0-hdl-handle-net.catalogue.libraries.london.ac.uk/1813/7895.

« Discipline scientifique ». [En ligne]. Wikipédia, 13 décembre 2021 [Page consultée le 19 février 2022]. Disponibilité et accès https://fr.wikipedia.org/w/index.php?title=Discipline_scientifique.

Custard, Myra, et Tamara Sumner, « Using Machine Learning to Support Quality Judgments », D-Lib Magazine, 2005, 11 (10). https://0-doi-org.catalogue.libraries.london.ac.uk/10.1045/october2005-custard.

« La fouille de textes et de données à des fins de recherche : une pratique confirmée et désormais opérationnelle en droit français ». [En ligne]. Ouvrir la Science, 16 décembre 2021 [Page consultée le 13 janvier 2022]. Disponibilité et accès https://www.ouvrirlascience.fr/la-fouille-de-textes-et-de-donnees-a-des-fins-de-recherche-une-pratique-confirmee-et-desormais-operationnelle-en-droit-francais.

Margaritopoulos, Merkourios, Thomas Margaritopoulos, Ioannis Mavridis, et Athanasios Manitsaris, « Quantifying and Measuring Metadata Completeness », Journal of the American Society for Information Science and Technology, 2012, 63 (4) : 724 37. https://0-doi-org.catalogue.libraries.london.ac.uk/10.1002/asi.21706.

Ochoa, Xavier, et Erik Duval, « Automatic Evaluation of Metadata Quality in Digital Repositories », International Journal on Digital Libraries, 2009, 10 (2) : 67 91. https://0-doi-org.catalogue.libraries.london.ac.uk/10.1007/s00799-009-0054-4.

Reymond, David, et Clara Galliano, « Cartographie de l’expertise des chercheurs de l’Université de Toulon », 2019. https://hal.archives-ouvertes.fr/hal-02643329.

Riley, Jenn, Understanding Metadata : What Is Metadata, and What Is It For ?, 2021. http://www.niso.org/publications/understanding-metadata-riley.

Robson, Samuel G., Myriam A. Baum, Jennifer L. Beaudry, Julia Beitner, Hilmar Brohmer, Jason M. Chin, Katarzyna Jasko, et al., « Promoting Open Science : A Holistic Approach to Changing Behaviour », Collabra : Psychology, 2021, 7 (1) : 30137. https://0-doi-org.catalogue.libraries.london.ac.uk/10.1525/collabra.30137.

Sergi, Gianna, « Science ouverte et accès ouvert, petit manuel pour chercheurs et chercheuses (épisode 2) ». [En ligne]. Colligere, 18 janvier 2021 [Page consultée le 17 mars 2021]. Disponibilité et accès https://archibibscdf.hypotheses.org/9108.

Shankaranarayanan, Ganesan, Adir Even, et Stephanie Watts, « The role of process metadata and data quality perceptions in decision making : an empirical framework and investigation ». Journal of Information Technology Management, 2006, 17 (1) : 50‑67.

Tabariès, Alaric, alarictabaries/mds_hal-utln : Version initiale. Zenodo, 2022. https://0-doi-org.catalogue.libraries.london.ac.uk/10.5281/zenodo.5874602.

Tabariès, Alaric, et David Reymond, « Comparaison de méthodes d’extraction de mots-clés non supervisées », 2021. https://altab.fr/share/Paper_TextMine_TABARIES.pdf.

Haut de page

Table des illustrations

Titre Figure 1. Nombre de dépôts, par an, sur l’archive HAL
URL http://0-journals-openedition-org.catalogue.libraries.london.ac.uk/rfsic/docannexe/image/12258/img-1.jpg
Fichier image/jpeg, 96k
URL http://0-journals-openedition-org.catalogue.libraries.london.ac.uk/rfsic/docannexe/image/12258/img-2.jpg
Fichier image/jpeg, 31k
URL http://0-journals-openedition-org.catalogue.libraries.london.ac.uk/rfsic/docannexe/image/12258/img-3.jpg
Fichier image/jpeg, 105k
Titre Figure 3. Score moyen obtenu selon l’année de soumission décliné par grandes catégories scientifiques
URL http://0-journals-openedition-org.catalogue.libraries.london.ac.uk/rfsic/docannexe/image/12258/img-4.jpg
Fichier image/jpeg, 130k
Haut de page

Pour citer cet article

Référence électronique

Alaric Tabariès, « Vers une métrique pour évaluer les métadonnées de documents scientifiques »Revue française des sciences de l’information et de la communication [En ligne], 24 | 2022, mis en ligne le 24 mars 2022, consulté le 15 janvier 2025. URL : http://0-journals-openedition-org.catalogue.libraries.london.ac.uk/rfsic/12258 ; DOI : https://0-doi-org.catalogue.libraries.london.ac.uk/10.4000/rfsic.12258

Haut de page

Auteur

Alaric Tabariès

Université de Toulon, IMSIC, Toulon, France. Courriel : alaric-tabaries@etud.univ-tln.fr

Articles du même auteur

  • Extractions du message hypertextuel pour comparaisons
    Lexical analysis of a web page : verification of hypertextual communicative coherence
    Paru dans Revue française des sciences de l’information et de la communication, 24 | 2022
Haut de page

Droits d’auteur

CC-BY-NC-SA-4.0

Le texte seul est utilisable sous licence CC BY-NC-SA 4.0. Les autres éléments (illustrations, fichiers annexes importés) sont « Tous droits réservés », sauf mention contraire.

Haut de page
Rechercher dans OpenEdition Search

Vous allez être redirigé vers OpenEdition Search