Navigation – Plan du site

AccueilNuméros22Sources et documentsDes archives à la base de données...

Sources et documents

Des archives à la base de données : valeur(s) des données en épidémiologie

From archives to databases: value(s) of data in epidemiology
Magalie Moysan
p. 151-164

Résumés

Si l’épidémiologie s’inscrit dans une tradition forte de quantification et de standardisation des données, elle mobilise des sources variées et notamment des archives. Cet article s’intéresse donc à cette réutilisation méconnue en se focalisant plus particulièrement sur les études de cohorte et les registres de morbidité. Il interroge les changements de valeur et de statut des données dans la transformation des documents d’archives en bases de données, à travers quatre étapes de la recherche : l’analyse des données sources, le codage, l’évaluation de la qualité des données et, enfin, la reconstitution des données manquantes.

Haut de page

Texte intégral

  • 1 Luc Berlivet, « Déchiffrer la maladie : épidémiologie et cultures de santé publique », dans Jean-P (...)
  • 2 Les entretiens publiés sur le site Histrecmed (Histoire de la recherche médicale en santé publique (...)
  • 3 Magalie Moysan, Usages d’archives et pratiques d’archivage dans la recherche biomédicale de 1968 à (...)
  • 4 Une première étude concluante de l’équipe de Daniel Schwartz paraît en 1972 : Eveline Eschwège et (...)
  • 5 Nicolas Dodier, « L’infléchissement du travail politique autour des essais contrôlés : l’épidémie (...)

1L’épidémiologie moderne française s’inscrit dans une tradition mathématique forte, ancrée dès le début du xxe siècle en Grande Bretagne et aux États-Unis. De nouvelles pathologies (maladies cardiovasculaires, cancers) qui se développent avec l’allongement de l’espérance de vie et l’évolution des comportements font l’objet d’un intérêt croissant de la recherche en lien avec la disparition progressive des épidémies. Elles conduisent à l’émergence d’autres méthodes épidémiologiques, centrées sur l’étiologie des maladies et les facteurs de risque1. Sous l’impulsion du polytechnicien Daniel Schwartz, une nouvelle génération de chercheurs non médecins – majoritairement issus de l’École polytechnique – s’engage dans la voie de l’épidémiologie à partir des années 1960. Cette « école de Villejuif », en référence à la localisation du laboratoire de Schwartz, marque durablement l’épidémiologie française et promeut l’usage des mathématiques dans la recherche médicale, en opposition à l’épidémiologie descriptive pratiquée par la division de la recherche médico-sociale (DRMS) de l’Institut national de la santé et de la recherche médicale (Inserm)2. Après la dissolution de la DRMS, huit de ses membres créent et dirigent des unités au sein de l’organisme de recherche entre 1977 et 19963. En outre, à partir des années 1980, l’apparition du sida en France replace une épidémie au cœur des priorités sociales et scientifiques. La maladie conduit également l’État et l’industrie pharmaceutique à encourager l’usage des essais thérapeutiques randomisés, connus et promus dès les années 1970 par les épidémiologistes français comme une méthode plus objective4, mais peu mobilisés jusqu’au début des années 19905.

  • 6 Voir par exemple les travaux de Luc Berlivet et Élodie Giroux en France, ou encore l’ouvrage dirig (...)
  • 7 Selon l’arrêté du 6 novembre 1995 relatif au Comité national des registres, un registre de morbidi (...)
  • 8 Leur développement est considéré comme tardif par rapport aux pays du Nord de l’Europe, qualifiés (...)
  • 9 Un questionnaire que nous avons adressé aux responsables de registres de morbidité entre février e (...)
  • 10 Enquête par questionnaire adressée aux responsables de registres de morbidité entre février et jui (...)

2Cette objectivation des méthodes, mise en valeur par des travaux historiques récents6, se double d’un usage de sources d’archives, méconnu mais pourtant répandu en épidémiologie. C’est l’objet de notre thèse de doctorat en archivistique qui analyse les usages d’archives et les pratiques d’archivage dans la discipline en France entre 1968 et 2006. Elle montre ainsi l’affirmation d’usages de documents d’archives à grande échelle dans le cadre de deux types d’infrastructures principalement : d’une part, les registres de morbidité qui recensent l’ensemble des cas d’une pathologie dans une population (par exemple, les cas de cancer dans un département)7 ; et d’autre part, les études de cohorte rétrospectives qui consistent à suivre l’évolution de la santé d’un ensemble de personnes au cours d’une période passée, en général pour analyser les effets de l’exposition à un facteur de risque. Les premiers registres apparaissent en 1975 en France8 et nous en recensons 53 créés avant 2007, dont près de 40 % de registres départementaux de cancer. Souvent rattachés à des structures privées, ils ne disposent pas systématiquement de liens avec des unités de recherche9. La première étude de cohorte française – l’étude prospective parisienne pilotée par Pierre Ducimetière – voit le jour quant à elle en 1967. Au total, 85 études de cohortes sont lancées sur la période étudiée, auprès de patients touchés par une maladie, de salariés de grandes entreprises, ou encore de personnes âgées. Elles sont créées au sein d’organismes de recherche, d’universités, d’agences sanitaires ou de santé publique, de centres hospitalo-universitaires ou plus rarement d’associations10.

  • 11 Du nom du programme de médicalisation des systèmes d’information déployé en France à partir de 198 (...)

3Les personnels des registres se déplacent dans les hôpitaux, les cliniques ou encore les laboratoires d’anatomopathologie pour consulter les résultats d’analyses, les dossiers médicaux et les statistiques hospitalières – issues notamment du PMSI11. Ces informations sont mobilisées pour identifier les cas de la maladie et alimenter une base de données qui sert d’outil à la fois de surveillance épidémiologique et de recherche scientifique. Les personnels constituent également des dossiers individuels pour chaque cas recensé à partir de copies des dossiers médicaux et produisent des bases de données spécifiques pour des projets de recherche.

Fig. 1 : Représentation schématique du processus de collecte des données dans un registre des cancers (exemple du registre des cancers du Tarn)

Fig. 1 : Représentation schématique du processus de collecte des données dans un registre des cancers (exemple du registre des cancers du Tarn)

Crédit : Magalie Moysan.

4La nature exacte des sources des études de cohorte rétrospectives dépend quant à elle du projet scientifique. Dans une étude portant sur l’exposition à un facteur de risque dans le contexte professionnel, les épidémiologistes consultent les dossiers de personnel et les bases de données associées, ainsi que les informations relatives au suivi médical des employés le cas échéant. Ces sources leur permettent de constituer la base de données de la cohorte, qui peut être croisée avec d’autres bases de données (données hospitalières, causes de décès) pour affiner l’analyse.

Fig. 2 : Représentation schématique du processus de collecte des données dans une étude de cohorte rétrospective (exemple de la cohorte des travailleurs du nucléaire du Lepid à l’Institut de radioprotection et de sûreté nucléaire, IRSN)

Fig. 2 : Représentation schématique du processus de collecte des données dans une étude de cohorte rétrospective (exemple de la cohorte des travailleurs du nucléaire du Lepid à l’Institut de radioprotection et de sûreté nucléaire, IRSN)

Crédit : Magalie Moysan.

  • 12 Sur la méthodologie, voir par exemple Blandine Vacquier et al., « Mortality Risk in the French Coh (...)
  • 13 Sur la méthodologie, voir par exemple Maylis Telle-Lamberton et al., « External Radiation Exposure (...)

5Ces deux types de structures analysent en grand nombre des informations individuelles et personnelles et mobilisent donc des sources d’archives pour constituer une base de données, centrale dans le processus de recherche. Dans cet article, nous nous intéressons à la transformation des archives en base de données, et plus exactement aux changements de valeur induits par les transformations : quelle(s) valeur(s) les chercheurs attribuent-ils aux données issues des archives dans leur projet de recherche, jusqu’à la constitution de la base de données ? Pour répondre à cette question, nous avons interrogé les responsables et analysé les rapports d’activité (données chiffrées, méthodes de collecte) de deux registres des cancers, l’un local, l’autre national : le registre des cancers du Tarn et le registre national des hémopathies malignes de l’enfant. Nous nous sommes également intéressée aux études de cohorte rétrospectives menées par le Laboratoire d’épidémiologie des rayonnements ionisants (Lepid) de l’Institut de radioprotection et de sûreté nucléaire (IRSN), dont nous avons analysé les archives (protocoles des études, documents intermédiaires) et au sein duquel nous avons mené un entretien de type semi-directif. Deux études sont plus spécifiquement présentées ici : la cohorte française des mineurs d’uranium, mise en place au début des années 1980 pour étudier les maladies développées après une exposition aux rayonnements ionisants et qui est constituée de 5 098 personnes ayant travaillé pendant une période d’au moins un an entre 1946 et 2000 dans des mines du Commissariat à l’énergie atomique (CEA) et de sa filiale Cogema (Compagnie générale des matières atomiques)12 ; et la cohorte des travailleurs du nucléaire créée en 1991 pour suivre près de 30 000 employés du CEA et de la Cogema surveillés pour une exposition aux rayonnements ionisants et qui ont été employés pendant au moins un an entre 1950 et 199413. Pour la partie de notre recherche intéressant directement cet article, il s’agissait d’analyser les usages de sources d’archives, du recueil au codage des données, en se focalisant sur les méthodes utilisées, les acteurs mobilisés et la terminologie adoptée.

  • 14 Patrice Marcilloux, Les ego-archives : traces documentaires et recherche de soi, Rennes, Presses u (...)
  • 15 Frank Upward, « Structuring the Records Continuum – Part One. Post-Custodial Principles and Proper (...)
  • 16 Anne Gilliland, Sue McKemmish, Andrew Lau (dir.), Research in the Archival Multiverse, Clayton, Mo (...)
  • 17 Selon le sociologue Bruno Latour, « les chaînes de traduction renvoient au travail par lequel les (...)
  • 18 Bruno Latour, Steve Woolgar, La vie de laboratoire : la production des faits scientifiques, Paris, (...)
  • 19 Éric Dagiral, Ashveen Peerbaye, « Voir pour savoir : concevoir et partager des “vues” à travers un (...)
  • 20 Christine Hine, « Databases as Scientific Instruments and Their Role in the Ordering of Scientific (...)

6L’analyse proposée s’inscrit dans une démarche archivistique visant – à travers l’étude des usages – à interroger les archives du point de vue de leur organisation, de leur processus et de leur inscription dans la société. Elle trouve son ancrage dans les travaux français (Patrice Marcilloux14) et internationaux (Frank Upward15, Anne Gilliland16). Elle se nourrit également des apports de la sociologie des sciences (Bruno Latour et les travaux de l’École des mines, Geoffrey Bowker) et des sciences de l’information sur l’articulation entre document, données, archives, et sur la place de l’usager dans les dispositifs (Bruno Bachimont, Jacques Perriault). Si les « chaînes de traduction17 » de la recherche scientifique ont été largement étudiées (sur la recherche biomédicale, voir par exemple Bruno Latour et Steve Woolgar18, Éric Dagiral et Ashveen Peerbaye19, Christine Hine20), les travaux se sont concentrés sur le passage de l’instrument scientifique à la publication. Nous proposons de nous intéresser ici aux réutilisations d’archives, et donc à un matériau préexistant qui se présente sous la forme de documents et données, le plus souvent non standardisés et sur support papier pour la période étudiée, afin d’analyser la manière dont l’épidémiologie s’empare d’une source a priori peu usuelle dans les sciences biomédicales – les archives – pour la transformer en données exploitables dans le processus de recherche.

7Trois étapes seront analysées ici pour interroger les changements de valeur : l’évaluation des données sources, le dispositif de codage qui s’avère central en épidémiologie, et les procédures d’évaluation de la qualité des données produites par le projet. Enfin, nous évoquerons un dispositif spécifique et original, la reconstitution des données manquantes.

Évaluer les données sources

  • 21 Nicole Gray Weiskopf, Chunhua Weng, « Methods and Dimensions of Electronic Health Record Data Qual (...)
  • 22 Entretien avec Éric Samson, 23 mai 2017.
  • 23 Sur les métiers du dépouillement, voir Magalie Moysan, « Dépouiller les archives : pratiques docum (...)

8La recherche biomédicale s’intéresse logiquement à l’évaluation des données sources. Un article portant sur la qualité des données électroniques dans un contexte de recherche clinique analyse la littérature scientifique sur le sujet et relève cinq dimensions qui reviennent fréquemment pour évaluer la qualité des données : l’exhaustivité (completeness), l’exactitude (correctness), la concordance entre les informations (concordance), la crédibilité (plausibility) et la valeur dans le temps (currency)21. Or, on remarque que les épidémiologistes prêtent une attention particulière à ces dimensions pour évaluer les sources d’archives qu’ils utilisent et décider de les intégrer ou non dans leur base de données. Un individu est intégré dans une étude de cohorte ou un registre de morbidité en fonction de son histoire personnelle ou professionnelle. Ainsi, une personne qui aura été suivie pour un cancer dans le département du Tarn intégrera la base de données du registre de morbidité. Un mineur d’uranium du CEA embauché au moins un an entre 1946 et 2000 sera intégré à la cohorte du même nom gérée par l’IRSN. Il s’agit alors de tendre vers l’exhaustivité en recensant l’ensemble des individus concernés et en collectant un maximum d’informations pour chacun. Cet objectif peut s’atteindre en dépouillant systématiquement toutes les sources d’archives disponibles et en recoupant les informations avec des bases de données existantes le cas échéant. Une fois les sources identifiées, l’analyse des documents d’archives combine méthodologie disciplinaire et réflexes archivistiques. Pour évaluer l’exactitude des informations recueillies dans les archives, un data manager du Lepid fait appel à l’analyse diplomatique : « Pour moi, dès que c’est un document officiel, donc qui est signé, validé, et la plupart sont comme ça, ça a une fiabilité […]22. » Le même témoin indique vérifier la crédibilité des informations dès qu’une valeur sort de l’ordinaire (une personne qui pèserait 500 kg ou aurait 250 ans par exemple). La prise en compte du contexte de production, nécessaire au travail archivistique ou historique, apparaît également comme essentielle en épidémiologie, puisque la discipline pratique la concordance des informations pour déterminer le niveau de fiabilité d’une nouvelle source : c’est le croisement des sources d’archives qui permet de juger de la valeur de l’information, et le document initial est toujours préféré aux sources secondaires dans les registres de morbidité. Le recueil et le codage des données sources sont réalisés par des employés aux profils variés, diplômés d’un cursus universitaire en épidémiologie comme le data manager du Lepid ou le plus souvent d’une formation médicale, comme les enquêtrices du registre des cancers du Tarn. Leur bonne formation est jugée cruciale dans le processus de recherche et fait l’objet d’une transmission de savoir-faire pour garantir une homogénéité dans la collecte entre les différentes personnes chargées du recueil. Si les employés sont expérimentés dans l’évaluation d’une donnée médicale, ils n’ont cependant jamais reçu de formation au dépouillement d’archives, ces compétences étant acquises par l’expérience23.

9L’évolution de la valeur de la donnée est aussi interrogée dans son contexte. Dans son manuel sur les méthodes quantitatives en épidémiologie, Jean Bouyer insiste sur cet aspect :

  • 24 Jean Bouyer, Denis Hémon, Sylvaine Cordier (dir.), Épidémiologie : principes et méthodes quantitat (...)

Lorsque l’étude porte sur des paramètres biologiques, il est tentant d’utiliser les valeurs de référence des laboratoires et de ne pas constituer de groupe témoin. Mais il existe une importante variabilité des mesures entre laboratoires. De plus, les normes des laboratoires ont été établies à partir d’une population de référence dont on ne connaît pas les caractéristiques et dans le but de détecter des situations clairement pathologiques24.

  • 25 Archives de l’IRSN, non coté. Boîte sur les travailleurs du nucléaire et les mineurs d’uranium, «  (...)

10Il observe donc que la donnée qui figure dans un document doit être analysée à l’aune de son contexte de production et qu’il convient d’adopter une attitude vigilante dans la comparaison des valeurs issues de sources différentes. Dans son étude sur les travailleurs du nucléaire, le Lepid retrace la carrière des employés du CEA et de la Cogema et analyse leur degré d’exposition aux rayonnements ionisants, leur suivi médical ainsi que leurs éventuelles causes de décès, dans l’objectif d’évaluer l’évolution de leur état de santé après exposition. Conscients de l’évolution des pratiques de mesure de l’exposition, les chercheurs mènent une étude sur les expositions et la validation de la dosimétrie en retraçant l’historique d’usage des appareils de mesure au CEA. Ce groupe analyse les pratiques métrologiques, les méthodes d’enregistrement ainsi que les critères d’attribution des dosimètres. Il conclut à une « surestimation des doses provenant de rayons peu pénétrants comme le sont les rayons X mous » en l’absence d’écran sur les films photographiques et préconise d’effectuer un lissage sur les doses anormalement élevées25. Ainsi, l’évaluation conduit à une correction de certaines informations conservées dans les archives, au regard de ce que les chercheurs ont appris des pratiques antérieures. La valeur indiquée dans la base de données n’est plus celle qui figurait dans les archives.

11Les documents d’archives, sources de la recherche épidémiologique, n’ont donc pas tous la même valeur dans le processus scientifique. Tout comme en histoire, les épidémiologistes portent un regard critique sur le document et s’interrogent sur la valeur des données collectées par le passé. La sincérité et l’exactitude de l’information sont examinées par une analyse diplomatique qui n’en porte pas le nom et par une étude des contextes de production, d’autant plus nécessaires que le processus d’abstraction va de pair avec un éloignement de la source qui peut passer par une modification des valeurs, éloignement renforcé par le dispositif de codage.

L’abstraction par le codage

  • 26 Jérôme Denis, Le travail invisible des données : éléments pour une sociologie des infrastructures (...)
  • 27 Sur les pratiques de codage, voir dans ce numéro l’article d’Émilie Bovet, « “Un plus un, ça ne fa (...)
  • 28 Jack Goody, La raison graphique : la domestication de la pensée sauvage, Paris, Éditions de Minuit (...)
  • 29 Geoffrey Bowker, Susan Leigh Star, Sorting Things Out. Classification and its Consequences, Cambri (...)
  • 30 Voir dans ce numéro l’article d’Aude-Marie Lalanne Berdouticq, « La politique des indicateurs : us (...)

12Le codage, qui a pour objectif de transcrire une information en un code, concentre une grande partie des efforts dans les structures épidémiologiques. Il parachève la transformation du document d’archives en un ensemble de données standardisées, autrement dit ce que Jérôme Denis qualifie de travail d’articulation et de « lubrification26 ». Il constitue également l’ultime opération d’abstraction de la source d’archives, par laquelle l’information extraite du document est associée à une valeur issue d’un thésaurus ou d’une classification. Il s’agit donc d’établir une équivalence entre l’information et un vocabulaire27. Pour autant, résumer le réel par une liste de mots s’avère toujours limitant28 et crée une inertie en fixant la donnée dans une catégorie29. L’une des grandes difficultés du codage est d’exprimer une réalité parfois complexe en un code, synonyme de certitude30.

  • 31 April Fritz et al., Classification internationale des maladies pour l’oncologie, 3e édition, Genèv (...)

13Dans les registres de morbidité étudiés, le codage est réalisé par des employés qualifiés et formés aux pratiques internes, chargés d’analyser le dossier médical du patient et d’attribuer un code à sa maladie, sur la base de la classification internationale des maladies (CIM) qui est la plus couramment employée dans le domaine. Il répond à deux finalités : d’une part, il facilite l’analyse statistique tout en garantissant une forme d’interopérabilité pour réaliser des études croisées lorsque la classification est partagée par des acteurs ; d’autre part, il localise l’information et offre une aide à la recherche. Cette dernière finalité est bien identifiée et assimilée à une forme d’archivage par les chercheurs. Ainsi, l’introduction de la troisième édition de la CIM-O, adaptation de la CIM spécialisée dans l’oncologie, indique que « la CIM est finalement utilisée pour le codage et le classement des données diagnostiques issues des dossiers médicaux à des fins d’archivage et d’exploitation31 ».

  • 32 Geoffroy Bowker, Susan Leigh Star, Sorting things out…, op. cit., p. 45. Le texte anglais dit : «  (...)

14Le dispositif de codage achève ce que nous pourrions qualifier de double abstraction. L’histoire de l’individu est synthétisée par un code : un dossier hospitalier du malade analysé par l’épidémiologiste devient le code associé à sa maladie. S’il ne s’agit pas de la seule information extraite du dossier, c’est la plus importante du point de vue des registres de morbidité. De plus, ce code est le fruit d’une succession de choix remontant à l’élaboration des classifications elles-mêmes et que les utilisateurs ignorent. Geoffrey Bowker remarque ainsi que toutes les décisions qui ont conduit à l’élaboration de la première CIM sont « littéralement enterrées dans les archives (lorsque ces archives sont conservées)32 ».

15Le codage positionne donc l’information à l’intersection de deux réalités exprimées pour l’une d’elles dans la source d’archives et pour l’autre dans la classification. Il se conjugue avec une perte de spatialité et de temporalité tout en favorisant l’interopérabilité, mais il inscrit la donnée dans un nouveau cadre, lui confère une autre valeur.

Contrôler la qualité de la production scientifique

  • 33 Voir par exemple le guide générique de Jonathan Barbier et Antoine Mandret-Degeilh, Le travail sur (...)

16L’épidémiologie montre une acculturation précoce à la qualité – l’étude des biais statistiques est très présente dans la littérature de la discipline –, mais elle ne développe pas pour autant de méthodologie spécifique pour le contrôle de l’utilisation d’archives, à l’image des manuels existant en histoire ou plus largement dans les sciences humaines et sociales33.

  • 34 Jean Bouyer, Denis Hémon, Sylvaine Cordier (dir.), Épidémiologie : principes et méthodes quantitat (...)

17Plusieurs procédures de contrôle sont mises en place par les structures étudiées ici : certaines équipes pratiquent la double saisie des données qui vise à détecter les erreurs, méthodologie jugée efficace mais coûteuse34. Un contrôle visuel minimal se conjugue parfois avec une vérification par fourchette, privilégiée par nos témoins et qui consiste à repérer les données aberrantes en définissant des valeurs minimales et maximales acceptables pour chaque variable. Au Lepid, cette vérification par fourchette est croisée avec un échantillonnage statistique :

  • 35 Entretien avec Éric Samson, 23 mai 2017.

On fait ça de deux manières différentes. Tu prends ta colonne et tu la tries, et tu vas avoir des valeurs qui restent groupées dans un intervalle et puis tu as des trucs avec des sauts : quelqu’un qui pèse 20 kg ou quelqu’un qui pèse 150 kg, on se pose une question. Donc à partir de là, on regarde individuellement si ces valeurs-là sont bonnes ou pas bonnes, et on les valide. […] Donc ça, c’est tout ce qui est systématique par rapport à un minimum/maximum qui sont des normes, et après il y a tout ce qui va être pris au hasard. C’est-à-dire qu’on va prendre entre 5 et 10 % des données selon la quantité qu’on a et puis on va les reprendre un à un [sic ] toutes les données. Et là on va voir... et tu peux t’apercevoir d’une erreur systématique. Par exemple, on nous avait dit dans les prises de sang que l’APO A c’est pareil que le HDL, sauf que du coup, on a fait un champ commun HDL et APO A. Oui effectivement, ça signifie la même chose, mais les valeurs sont différentes. Donc après, on a vu que la saisie n’était pas bonne du coup, puisque tout était dans le même champ, il a fallu reprendre les dossiers pour différencier ce qui était HDL de ce qui était APO A. On a refait deux champs35.

  • 36 Entretien avec Jacqueline Clavel, 21 décembre 2017.

18Les registres de morbidité, quant à eux, croisent leur base de données avec celle d’autres registres lorsque c’est possible. Ainsi, le registre national des hémopathies malignes de l’enfant recoupe ses informations avec celles des registres départementaux36.

19Pour autant, l’usage d’archives amène plusieurs spécificités dans l’évaluation de la qualité des données. Les archives sont inévitablement lacunaires, avec des documents incomplets, manquants ou difficilement interprétables, a fortiori pour les époques les plus anciennes. Les études de cohorte rétrospectives qui exploitent les archives conduisent à la constitution de petites bases de données si on les compare à celles qui sont produites par les grandes études de cohorte prospectives. Ainsi, là où les secondes peuvent exclure les données qui posent problème sans incidence pour les résultats de l’étude, les premières s’attachent davantage à les corriger si le problème concerne un nombre significatif d’individus.

  • 37 Entretien avec Éric Samson, 23 mai 2017.

20Parmi les structures épidémiologiques étudiées, deux types de pratiques sont observées. La première consiste à revenir à la source pour vérifier l’information (études de cohorte rétrospectives du Lepid), voire à consulter la source primaire si une source secondaire a été exploitée dans la base de données (registre national des hémopathies malignes de l’enfant). La seconde vise à remplacer la donnée par une autre en établissant des règles de décision ou en réalisant des enquêtes cas-témoins nichées, qui ont pour objectif d’interroger un panel de personnes issues de la cohorte et permettent d’évaluer le niveau de lacune des archives. Cette méthode est utilisée dans le cadre de l’étude sur les mineurs d’uranium37. Ainsi, là où la première pratique revient à vérifier l’exactitude de la donnée source, la seconde vise à corriger les données par équivalence. L’échantillonnage comme les vérifications automatiques révèlent un rapport éloigné à la source d’archives. Ce n’est plus l’information issue des archives qui se trouve dans la base de données, mais une valeur dans un champ que l’on peut compléter ou corriger par extrapolation. La fiabilité est jugée à l’aune du volume total, et le document n’a qu’une maigre importance d’un point de vue statistique.

Reconstituer des données manquantes

21Nous terminerons cette analyse en mettant l’accent sur une pratique originale, la reconstitution de données manquantes qui vise à pallier le manque d’informations recueillies dans les archives concernant l’exposition aux facteurs de risque

  • 38 Shelia K. Hoar, Alan Morrison, Philipp Cole, Debra Silverman, « An Occupation and Exposure Linkage (...)
  • 39 Claire Habert, Matrice emploi-exposition au chrome, au nickel et au berylium : application à une é (...)
  • 40 Jean Bouyer, Denis Hémon, « Studying the performance of a Job Exposure Matrix », International Jou (...)
  • 41 Margot Tirmarche, « Épidémiologie et risque de cancer après exposition au radon », Annales de l’As (...)
  • 42 Cette dernière constitue une sous-cohorte des travailleurs du nucléaire, autre cohorte de l’IRSN.

22L’exposition aux facteurs de risque est rarement connue avec précision, car le matériau incriminé n’était pas considéré comme dangereux à l’époque concernée, les instruments de mesure n’existaient pas, ou les rapports d’hygiène produits et utilisés alors pour la surveillance ne conviennent pas aux besoins de la recherche épidémiologique. Pour reconstituer les données manquantes, certaines équipes de recherche ont donc recours aux matrices emplois-expositions, qui établissent une correspondance entre le travail d’une personne et ses expositions potentielles, et dont l’usage se développe à partir des années 198038. Les matrices peuvent être élaborées sur la seule base de la description des emplois ou plus fréquemment après interrogation des individus qui les occupent39, et sont le plus souvent couplées à une analyse par des experts qui évaluent l’exposition. Une fois la matrice réalisée, une exposition est attribuée à chaque individu en fonction de ce que l’on a pu établir de son histoire professionnelle40. Dès 1980, l’Institut de protection et de sureté nucléaire (IPSN), ancêtre de l’IRSN, met en place des comités pour évaluer les doses reçues par les mineurs d’uranium du CEA et constitue un groupe de travail composé d’anciens mineurs et d’experts en dosimétrie. En effet, l’exposition aux poussières d’uranium et aux rayonnements n’est mesurée qu’à partir de 1955 et l’étude commence en 1946. Il faut donc la reconstituer pour la période 1946-1955. Le groupe attribue à chaque site d’extraction de l’uranium une note entre 1 et 10 qui correspond à l’exposition moyenne mensuelle estimée, puis cette note est associée à chaque individu de la cohorte pour évaluer son exposition au fil de sa carrière41. La méthode est également reprise dans la cohorte Tracy et dans celle des travailleurs à risque d’incorporation d’uranium42, toujours à l’IRSN.

  • 43 Marcel Goldberg et al., « Job Exposure Matrices in Industry », International Journal of Epidemiolo (...)
  • 44 Jean Bouyer, Denis Hémon, Sylvaine Cordier (dir.), Épidémiologie : principes et méthodes quantitat (...)

23Mais les matrices emplois-expositions manquent de précision : c’est l’emploi qui détermine le niveau d’exposition attribué ; or un emploi cache souvent des tâches multiples43. La littérature épidémiologique recommande donc de s’appuyer sur des documents d’archives : rapports d’hygiène industrielle, historique des installations, rapports d’incidents ou d’accidents, etc.44, qui ne résolvent que partiellement le problème. Ainsi, l’utilisation de documents d’archives permet de pallier, en partie seulement, le manque de sources initiales. Mais ce n’est pas la valeur indiquée dans les archives qui est reportée dans la base de données. C’est au contraire l’ensemble des informations issues des archives et des analyses des experts qui est transformé en une valeur. Les archives servent alors à assigner une valeur et, là encore, à remplacer une donnée manquante par un équivalent.

*

  • 45 Claire Lemercier, Claire Zalc, Méthodes quantitatives pour l’historien, Paris, La Découverte, 2008 (...)

24Les usages d’archives en épidémiologie se situent à l’intersection entre les méthodes mathématiques qui dominent la discipline et celles du dépouillement d’archives qui ont cours dans les sciences humaines et sociales et plus particulièrement en histoire. On retrouve des étapes similaires à celles de la recherche quantitative en histoire dans le passage des archives à la base de données45. Les épidémiologistes conjuguent donc de faibles volumes de données issues de documents non standardisés avec des pratiques conçues pour les grandes bases de données. Car, du point de vue des méthodes, l’épidémiologie penche clairement du côté de la recherche biomédicale et affirme sa filiation mathématique. Si les usages ressemblent par certains aspects à ceux des historiens, aucun lien entre les deux disciplines n’apparaît dans la littérature que nous avons consultée ou dans les entretiens menés. Les emprunts méthodologiques sont donc inexistants ou tacites.

25Sur la période étudiée, de 1968 à 2006, les usages ponctuels d’archives pour répondre à de petites études en épidémiologie descriptive et analytique laissent progressivement la place à de grandes structures qui normalisent et contrôlent la donnée en masse tout en assurant une collecte d’informations longue et minutieuse. C’est le cas des registres de morbidité, créés à partir de 1975 sur tout le territoire, et des grandes études de cohorte rétrospectives présentées ici. Le développement de l’informatique n’entraîne pas une rupture importante jusqu’en 2006 : les sources dématérialisées restent encore peu fiabilisées et sont systématiquement recoupées avec des archives sur support papier lorsque c’est possible.

26Dans notre analyse, la transformation du document brut en informations quantitatives ne constitue pas simplement un transfert de support pour la donnée. Le codage, la mise en qualité et la reconstitution impliquent un glissement de valeur : la donnée qui est inscrite dans la base n’est pas toujours strictement la même que celle qui figurait dans les archives ; elle peut être remplacée par un équivalent pour des besoins de standardisation, voire corrigée si l’on estime que la valeur figurant dans les archives est erronée. Ces pratiques, peu communes dans les disciplines qui mobilisent traditionnellement des archives, visent à rendre la donnée malléable, mobile, interopérable, à l’inscrire dans un système avec sa propre documentation, sa propre historicité. Seule, la donnée a peu de valeur, elle fait sens au sein du système, et plus les données sont nombreuses, plus leur valeur croît. De fait, la valeur scientifique des publications d’un registre ou d’une cohorte augmente d’année en année.

27À la fin du processus, que reste-il de la source d’archives ? Elle constitue une trace de la recherche et le lien avec la base de données est brouillé, sans jamais toutefois être effacé grâce aux retours fréquents pour vérifier la qualité des données et à la documentation réalisée. Dans les études de cohorte, les archives ont en effet un statut classique de sources qui deviennent des traces une fois le processus scientifique achevé. À l’inverse, les registres de morbidité mènent ce que nous pourrions appeler une « recherche-conservation », totalement originale. La conservation constitue dans ces structures un cœur de métier, au même titre que la recherche puisque leur mission de surveillance suppose le recensement de l’ensemble des cas d’une pathologie et que l’exigence de traçabilité comme le lancement fréquent de nouveaux projets de recherche requièrent la conservation de la source brute. Les registres trouvent alors des similitudes avec des centres de documentation, dont ils seraient le seul usager, puisque chaque nouveau document est soigneusement classé dans la pochette consacrée à l’individu et que la mise en archives n’est jamais envisagée avant la cessation de l’activité. Dans les études de cohorte rétrospectives, la bases de données constitue un aboutissement du travail et les archives perdent de leur valeur au profit des données, quand les dossiers des malades demeurent essentiels aux registres de morbidité.

Haut de page

Notes

1 Luc Berlivet, « Déchiffrer la maladie : épidémiologie et cultures de santé publique », dans Jean-Pierre Dozon, Didier Fassin (dir.), Critique de la santé publique : une approche anthropologique, Paris, Balland, 2001, p. 75-102.

2 Les entretiens publiés sur le site Histrecmed (Histoire de la recherche médicale en santé publique dans la France du xx siècle) rendent bien compte de cette opposition : https://www.histrecmed.fr/ (consulté le 21 juin 2022).

3 Magalie Moysan, Usages d’archives et pratiques d’archivage dans la recherche biomédicale de 1968 à 2006 : l’exemple de l’épidémiologie et de la génétique, thèse de doctorat en archivistique, université d’Angers, 2019, p. 51.

4 Une première étude concluante de l’équipe de Daniel Schwartz paraît en 1972 : Eveline Eschwège et al., « Résultats après cinq ans d’un essai thérapeutique sur l’angiome tubéreux cutané », Archives françaises de pédiatrie, 29, 1972, p. 49-65.

5 Nicolas Dodier, « L’infléchissement du travail politique autour des essais contrôlés : l’épidémie de sida à la fin du xxe siècle », dans Gérard Jorland, Annick Opinel, George Weisz (dir.), Body Counts. Medical Quantification in Historical and Sociological Perspectives, Montréal, McGill-Queen’s University Press, 2005, p. 359-374.

6 Voir par exemple les travaux de Luc Berlivet et Élodie Giroux en France, ou encore l’ouvrage dirigé par Alain Leplège, Philippe Bizouarn et Joël Coste, De Galton à Rothman : les grands textes de l’épidémiologie au xxe siècle, Paris, Hermann, 2011.

7 Selon l’arrêté du 6 novembre 1995 relatif au Comité national des registres, un registre de morbidité est « défini comme un recueil continu et exhaustif de données nominatives intéressant un ou plusieurs événements de santé dans une population géographiquement définie, à des fins de recherche et de santé publique, par une équipe ayant les compétences appropriées ».

8 Leur développement est considéré comme tardif par rapport aux pays du Nord de l’Europe, qualifiés de « pays à registres ». Voir Antoine Bozio, Pierre-Yves Geoffard, L’accès des chercheurs aux données administratives : état des lieux et propositions d’actions, rapport du groupe de travail du Conseil national de l’information statistique, mars 2017, p. 10.

9 Un questionnaire que nous avons adressé aux responsables de registres de morbidité entre février et juin 2016 nous montre que parmi les 17 répondants, 6 ont plusieurs tutelles et 9 ont un organisme privé (association ou fondation) dans leurs tutelles.

10 Enquête par questionnaire adressée aux responsables de registres de morbidité entre février et juin 2016.

11 Du nom du programme de médicalisation des systèmes d’information déployé en France à partir de 1983 et rendu obligatoire en 1989 pour la production d’informations statistiques sur l’activité des hôpitaux.

12 Sur la méthodologie, voir par exemple Blandine Vacquier et al., « Mortality Risk in the French Cohort of Uranium Miners. Extended Follow-Up 1946-1999 », Occupational and Environmental Medicine, 65 (9), 2008, p. 597-604.

13 Sur la méthodologie, voir par exemple Maylis Telle-Lamberton et al., « External Radiation Exposure and Mortality in a Cohort of French Nuclear Workers », Occupational and environmental Medicine, 64 (10), 2007, p. 694-700.

14 Patrice Marcilloux, Les ego-archives : traces documentaires et recherche de soi, Rennes, Presses universitaires de Rennes, 2013.

15 Frank Upward, « Structuring the Records Continuum – Part One. Post-Custodial Principles and Properties », Archives & manuscripts, 24 (2), 1996, p. 268-285.

16 Anne Gilliland, Sue McKemmish, Andrew Lau (dir.), Research in the Archival Multiverse, Clayton, Monash University Publishing, 2017.

17 Selon le sociologue Bruno Latour, « les chaînes de traduction renvoient au travail par lequel les acteurs modifient, déplacent et traduisent leurs intérêts variés et contradictoires » (Bruno Latour, L’espoir de Pandore : pour une version réaliste de l’activité scientifique, Paris, La Découverte, 2001, p. 333). Le concept traduit les transformations successives du travail scientifique en prêtant une attention particulière aux instruments, données, articles, etc.

18 Bruno Latour, Steve Woolgar, La vie de laboratoire : la production des faits scientifiques, Paris, La Découverte, 2006 [1988].

19 Éric Dagiral, Ashveen Peerbaye, « Voir pour savoir : concevoir et partager des “vues” à travers une base de données biomédicale », Réseaux, 178-179, 2013, p. 163-196.

20 Christine Hine, « Databases as Scientific Instruments and Their Role in the Ordering of Scientific Work », Social Studies of Science, 36 (2), 2006, p. 269-298.

21 Nicole Gray Weiskopf, Chunhua Weng, « Methods and Dimensions of Electronic Health Record Data Quality Assessment. Enabling Reuse for Clinical Research », Journal of the American Medical Informatics Association, 20 (1), 2013, p. 144.

22 Entretien avec Éric Samson, 23 mai 2017.

23 Sur les métiers du dépouillement, voir Magalie Moysan, « Dépouiller les archives : pratiques documentaires en épidémiologie », La Gazette des archives, 257, 2020, p. 179-190.

24 Jean Bouyer, Denis Hémon, Sylvaine Cordier (dir.), Épidémiologie : principes et méthodes quantitatives, Paris, Inserm, 1993, p. 411-412.

25 Archives de l’IRSN, non coté. Boîte sur les travailleurs du nucléaire et les mineurs d’uranium, « Historique des pratiques de dosimétrie au CEA. Métrologie, enregistrement des doses et critères de surveillance. Groupe de travail no 2 : expositions et validations de la dosimétrie », sans date [1993-1994].

26 Jérôme Denis, Le travail invisible des données : éléments pour une sociologie des infrastructures scripturales, Paris, Presses des Mines/Transvalor, 2018, p. 144-145.

27 Sur les pratiques de codage, voir dans ce numéro l’article d’Émilie Bovet, « “Un plus un, ça ne fait pas toujours deux” : les coulisses du codage médical ».

28 Jack Goody, La raison graphique : la domestication de la pensée sauvage, Paris, Éditions de Minuit, 1978, p. 169.

29 Geoffrey Bowker, Susan Leigh Star, Sorting Things Out. Classification and its Consequences, Cambridge, MIT Press, 1999, p. 129-130.

30 Voir dans ce numéro l’article d’Aude-Marie Lalanne Berdouticq, « La politique des indicateurs : usages politiques et scientifiques des indices d’aptitude militaire (France – Grande-Bretagne , 1914-1923) ».

31 April Fritz et al., Classification internationale des maladies pour l’oncologie, 3e édition, Genève, Organisation mondiale de la santé, 2008, p. 11.

32 Geoffroy Bowker, Susan Leigh Star, Sorting things out…, op. cit., p. 45. Le texte anglais dit : « […] are literally buried in archives (when records are kept at all) ».

33 Voir par exemple le guide générique de Jonathan Barbier et Antoine Mandret-Degeilh, Le travail sur archives : guide pratique, Paris, Armand Colin, 2018 ; ou Liora Israël, « L’usage des archives en sociologie », dans Serge Paugam (dir.), L’enquête sociologique, Paris, Presses universitaires de France, 2010, p. 167-185.

34 Jean Bouyer, Denis Hémon, Sylvaine Cordier (dir.), Épidémiologie : principes et méthodes quantitatives, op. cit., p. 323.

35 Entretien avec Éric Samson, 23 mai 2017.

36 Entretien avec Jacqueline Clavel, 21 décembre 2017.

37 Entretien avec Éric Samson, 23 mai 2017.

38 Shelia K. Hoar, Alan Morrison, Philipp Cole, Debra Silverman, « An Occupation and Exposure Linkage System for the Study of Occupational Carcinogenesis », Journal of Occupational Medicine, 22, 1980, p. 722-726.

39 Claire Habert, Matrice emploi-exposition au chrome, au nickel et au berylium : application à une étude cas-témoins sur le mésothéliome pleural, thèse d’exercice en médecine, sous la dir. de Yuriko Iwatsubo, Université Pierre et Marie Curie, 1995, p. 8.

40 Jean Bouyer, Denis Hémon, « Studying the performance of a Job Exposure Matrix », International Journal of Epidemiology, 22 (suppl. 2), 1993, p. S65-S71.

41 Margot Tirmarche, « Épidémiologie et risque de cancer après exposition au radon », Annales de l’Association belge de radioprotection, 19, 1994, p. 87-112.

42 Cette dernière constitue une sous-cohorte des travailleurs du nucléaire, autre cohorte de l’IRSN.

43 Marcel Goldberg et al., « Job Exposure Matrices in Industry », International Journal of Epidemiology, 22 (suppl. 2), 1993, p. S11.

44 Jean Bouyer, Denis Hémon, Sylvaine Cordier (dir.), Épidémiologie : principes et méthodes quantitatives, op. cit., p. 351.

45 Claire Lemercier, Claire Zalc, Méthodes quantitatives pour l’historien, Paris, La Découverte, 2008, p. 35-37.

Haut de page

Table des illustrations

Titre Fig. 1 : Représentation schématique du processus de collecte des données dans un registre des cancers (exemple du registre des cancers du Tarn)
Crédits Crédit : Magalie Moysan.
URL http://0-journals-openedition-org.catalogue.libraries.london.ac.uk/hms/docannexe/image/6274/img-1.jpg
Fichier image/jpeg, 171k
Titre Fig. 2 : Représentation schématique du processus de collecte des données dans une étude de cohorte rétrospective (exemple de la cohorte des travailleurs du nucléaire du Lepid à l’Institut de radioprotection et de sûreté nucléaire, IRSN)
Crédits Crédit : Magalie Moysan.
URL http://0-journals-openedition-org.catalogue.libraries.london.ac.uk/hms/docannexe/image/6274/img-2.jpg
Fichier image/jpeg, 233k
Haut de page

Pour citer cet article

Référence papier

Magalie Moysan, « Des archives à la base de données : valeur(s) des données en épidémiologie »Histoire, médecine et santé, 22 | 2022, 151-164.

Référence électronique

Magalie Moysan, « Des archives à la base de données : valeur(s) des données en épidémiologie »Histoire, médecine et santé [En ligne], 22 | hiver 2022, mis en ligne le 15 décembre 2022, consulté le 24 janvier 2025. URL : http://0-journals-openedition-org.catalogue.libraries.london.ac.uk/hms/6274 ; DOI : https://0-doi-org.catalogue.libraries.london.ac.uk/10.4000/hms.6274

Haut de page

Auteur

Magalie Moysan

Laboratoire Temps, Mondes, Sociétés (TEMOS, UMR 9016), université d’Angers

Haut de page

Droits d’auteur

CC-BY-NC-ND-4.0

Le texte seul est utilisable sous licence CC BY-NC-ND 4.0. Les autres éléments (illustrations, fichiers annexes importés) sont « Tous droits réservés », sauf mention contraire.

Haut de page
Rechercher dans OpenEdition Search

Vous allez être redirigé vers OpenEdition Search