1Depuis son émergence dans la seconde moitié du vingtième siècle, la génétique moléculaire a nourri un ensemble de promesses technoscientifiques et de transformations des formes de production des savoirs, fondées sur sa capacité d’analyse et de modification des processus fondamentaux du vivant au niveau des acides nucléiques (Gaudillière, 2002), qui ont largement diffusé. Ainsi, après le premier séquençage du génome humain au tournant des années 2000 a commencé une période qualifiée par les praticiens du domaine et les analystes de sciences sociales d’ère postgénomique. Sans constituer une rupture nette avec les pratiques antérieures, cette dernière est marquée par le développement de technologies plus rapides, plus puissantes et moins coûteuses, déployées dans de nombreux domaines des sciences du vivant et arènes sociales (Richardson & Stevens, 2015). Qu’il soit de nouvelle génération (next generation sequencing) ou à haut débit (high throughput sequencing), le séquençage semble ainsi être devenu une pure opération technique, parfaitement maîtrisée, pouvant servir différents buts : enquêtes médico-légales, identification de pathogènes, diagnostic et dépistage de maladies, prédiction de risques, ou encore génétique récréative. Depuis 2019 et la mise en place du plan France Médecine Génomique 2025 (Aviesan, 2016), le séquençage du génome entier des patients est désormais proposé dans le parcours standard de soins. Les promesses technoscientifiques de la génétique moléculaire, devenue génomique de pointe, performante et fiable, semblent renouvelées par le séquençage à haut débit.
2La diversité des acteurs, des contextes et des pratiques conférant à l’ADN des rôles de généalogiste, de médecin ou de détective (Bourgain & Darlu, 2013), invite toutefois à interroger cette image de pure technicité et de standardisation dans la production des données. La génomique contemporaine regroupe diverses manières d’exploiter une même espèce chimique, qui par sa transversalité masque l’hétérogénéité des situations. Des études d’anthropologie des sciences ont mis en évidence des mécanismes de négociation, d’ajustement ou de réinvention des pratiques au sein même de laboratoires de génétique des populations (M’Charek, 2005, pp. 21-55). À côté d’usages techniques, industrialisés et sous-traités à des entreprises privées, se développent encore des formes de travail plus créatives autour de nouveaux contextes d’usage, comme l’analyse d’ADN ancien, retrouvés sur des restes humains (Mittnik et al., 2019). Finalement en observant de près « le » séquençage, « la » génomique contemporaine ne serait-elle pas davantage plurielle et empirique qu’il n’y paraît ?
3Une série de travaux d’études sociales, de philosophie et d’histoire des sciences s’est intéressée au tournant postgénomique, à ses effets sur les façons d’interroger le vivant et les formes des savoirs produits et sur les modalités d’organisation et de travail de la recherche (Hine, 2006 ; Hilgartner, 1995 ; Leonelli, 2012). Ils ont analysé l’importance des données, la constitution de grandes bases, le développement et les tensions autour de la standardisation de pratiques de mise en circulation des données. McKenzie (2016) a étudié les bases de données génétiques développées à la faveur des technologies de séquençage à très haut débit, d’une génomique en gros (bulk genomics). Il montre que la valeur des bases de données est indexée sur la quantité de séquences disponibles, plus que sur leur qualité, rendant les questions logistiques associées à l’organisation et à la maintenance cruciales. La production et la circulation se doivent d’être rapides et massives. En s’intéressant aux algorithmes les plus utilisés pour le traitement des séquences génétiques, Stevens (2016) montre qu’il s’agit d’adaptations d’algorithmes d’analyse textuelle pour les recherches d’information sur Internet. La domination de ce cadrage textuel va de pair avec le besoin d’accumuler toujours plus de données pour nourrir les algorithmes ; en conséquence le travail de collecte et de traitement des données gagne en importance sur les approches expérimentales historiquement développées en génétique. Ces travaux proposent des analyses stimulantes sur les transformations du travail et des normes autour des données génétiques, mais dans des contextes où ces données ont déjà été produites de façon automatisée ; ils ne permettent pas d’interroger les évolutions du travail de production de ces données et leurs effets sur les étapes ultérieures d’exploitation.
4Le présent article repose sur l’étude socio-ethnographique d’un projet de recherche associant production, mise en banque et analyse de données génétiques produites à partir d’échantillons de personnes vivantes (ADN actuel) et de restes humains prélevés dans des cimetières du Moyen-Âge (ADN ancien). Rassemblant des acteurs aux questionnements et ancrages disciplinaires variés (génétique des populations humaines, génétique médicale, bioinformatique, paléogénomique, archéologie…), il permet l’analyse comparative de deux contextes hétérogènes de production et de traitement de données génétiques. Il interroge la distinction entre activités créatives et activités techniques autour du séquençage, à partir de l’étude de ce qui constitue pour les acteurs le cœur de la valeur épistémique de leurs activités et la division du travail qui en découle. Distinguer un travail de recherche d’un travail technique renvoie à la nature du travail accompli. Dans ses travaux fondés sur des ethnographies de laboratoire, hospitalière et en entreprise, Barley (1996) fait ainsi du technicien un intermédiaire entre l’empirie et le concept, dont le travail consiste à gérer les incertitudes pratiques de l’expérimentation. En laboratoire, il a les mains dans l’expérience, le cas échéant en contact direct avec le vivant. Barley oppose cette figure du technicien à celle de l’expert (chercheur, médecin), dont le travail, situé à une étape amont ou aval, consiste à interpréter les signes et produire des concepts.
5Cette question de la place du travail technique autour des données scientifiques traverse une série de travaux de sciences sociales. Autour des questions de construction et d’entretien des bases de données, Millerand (2012) a investigué le travail concret de fabrication des infrastructures numériques, à partir de l’étude d’une base de données au sein d’un réseau américain de chercheurs en écologie. Montrant l’importance du travail des techniciens impliqués dans la documentation des données scientifiques, elle analyse les processus qui conduisent à son invisibilisation, insistant sur leur position stratégique vis-à-vis de la matérialité des infrastructures et sur les tâches d’articulation dont ils s’acquittent. Dans une enquête sur une base de données médicales, Dagiral et Peerbaye (2012) s’intéressent également aux conditions de l’invisibilisation du travail de production d’information. Partant de l’analyse des situations dans lesquelles cette invisibilisation pose problèmes, ils soulignent l’importance des questions de division du travail, d’accès aux ressources économiques et symboliques et de reconnaissance institutionnelle. Enfin, Denis (2018) s’intéresse à ce qu’il nomme le « travail invisible des données » dans une diversité de contextes. Plus le travail permettant leur exploitation est important et plus ce dernier est invisibilisé dans une évidence d’usage trompeuse. Dans ces contextes, l’invisibilisation du travail va de pair avec la faible valeur épistémique conférée à ces étapes par les communautés scientifiques étudiées.
6En effet, distinguer ce qui relève de la recherche et de la technique renvoie également à la distinction épistémologique entre choses épistémiques et choses techniques introduite par Rheinberger (1997). Les choses épistémiques sont les objets de recherche, les entités matérielles ou les procédés qui sont l’objet de l’investigation. Elles incarnent ce que l’on ne sait pas encore et produisent de l’imprévisibilité, qui fonde la production de nouvelles connaissances. Les choses ou conditions techniques sont les moyens de manipuler les choses épistémiques, la partie prévisible, connue, du système expérimental, sous forme d’outils de mesures, de réactifs ou encore de modèles animaux. L’approche d’épistémologie historique vient ainsi compléter l’analyse par le travail de Barley, la distinction entre choses épistémiques et techniques recouvrant en partie celle entre domaine de l’expert et domaine du technicien. Mais, comme le souligne Rheinberger, définis à l’avance, et considérés comme stables, les objets techniques délimitent l’espace dans lequel les objets de recherche peuvent se mouvoir. Objets techniques et épistémiques interagissent de façon complexe de sorte que la distinction entre les deux est toujours dépendante du contexte. Elle est fonctionnelle et non pas structurelle : ainsi, le séquençage de l’ADN a constitué, au milieu des années 70, un objet épistémique par excellence dans les laboratoires de génétique moléculaire, puis s’est peu à peu mué en objet technique à mesure que son usage s’est généralisé et routinisé. La distinction mouvante entre choses épistémiques-conditions techniques révèle alors des processus de valorisation épistémique ou technique propres à des domaines de recherche ; à ce titre, elle peut être mobilisée comme un outil d’analyse sensible à l’hétérogénéité des disciplines scientifiques, ouvrant à l’exploration de processus en cours et capable d’opérer sur des domaines très récents, sur lesquels il existe encore peu de recul historique.
7En permettant de dresser une analyse comparative de deux domaines de recherche de génomique contemporaine, le projet de recherche que nous étudions ici invite à rester attentives aux spécificités de contexte dans la recherche de statuts épistémiques ou techniques des formes de travail autour du séquençage, et aux effets propres de la massification de production des données. Nous montrons que l’appréciation de ce qui fait la qualité de données génétiques n’est pas la même pour l’ADN actuel et l’ADN ancien. Alors que chaque échantillon source d’ADN ancien fait l’objet d’une attention décuplée liée à sa fragilité et aux difficultés de sa conservation, c’est dans la capacité à produire des séquences exhaustives (longueur et précision) pour un nombre important d’échantillons que réside la qualité des données d’ADN actuel. Cette appréciation différentielle de la qualité révèle une hétérogénéité de distribution de la valeur épistémique le long de la chaîne de production des données. Dans le cas de l’ADN ancien, l’échantillon s’apparente à une archive historique dont l’analyse doit nourrir directement le travail de reconstruction historique des dynamiques de populations. Dans le cas de l’ADN actuel, les échantillons biologiques sont le plus souvent interchangeables. C’est leur nombre qui importe, ainsi que les formes de traitements statistiques et de modélisation qui seront appliquées aux données. La division du travail entre ce qui relève des prérogatives des techniciens et des chercheurs est en conséquence différente. Alors que le travail des chercheurs de l’ADN actuel se concentre sur les stratégies d’échantillonnage, le traitement et la protection des données – les étapes de production des séquences étant réalisées par les techniciens –, celui des chercheurs de l’ADN ancien s’intéresse directement aux étapes d’extraction et de séquençage et au contrôle du risque de contamination, identifié comme un défi scientifique majeur.
8De façon déjà bien décrite dans d’autres contextes interdisciplinaire (Vinck, 2007 ; Downey et al., 2016), des frictions émergent de la collaboration entre acteurs aux pratiques divergentes. Elles portent sur les différentes étapes de production des données génétiques – depuis l’échantillon biologique jusqu’au traitement statistique des données de séquences numérisées- et s’actualisent autour du partage et la mise en commun des données numériques, de la reconnaissance du travail accompli et des conditions de son invisibilisation ou encore sur les formes de la responsabilité scientifique associée à ces productions de connaissance.
9L’étude socio-ethnographique que nous avons menée a porté sur un projet que nous dénommerons ORSaGéF, acronyme de « Origines Régionales dans la Santé et la Génétique en France ». En 2016, à l’occasion d’une demande de financement à l’Agence Nationale de la Recherche, un généticien travaillant dans un institut biomédical constitue un consortium interdisciplinaire en fusionnant deux lignes de recherche distinctes. L’une étudie la composition génétique de la population française pour améliorer les recherches biomédicales en créant des bases de données de plus en plus riches en donneurs et en proportion de génome séquencé. L’autre s’intéresse à l’histoire de la population sur le territoire français dans le temps long. Retenu, le projet ORSaGéF organise donc une collaboration relativement novatrice pour explorer l’impact de la génétique et des origines régionales dans la santé des populations en France : des généticiens des populations humaines, des généticiens médicaux, des bioinformaticiens, des paléogénomiciens et, comme collaborateurs hors projet, des archéologues, des chimistes et physiciens.
10Le premier objectif est de produire une base de données génétiques populationnelles sur personnes vivantes, qui puisse servir de panel de référence pour de futures études médicales. La recherche d’une structure de population, c’est-à-dire des répartitions régionales de variations génétiques, doit permettre de distinguer les variations populationnelles des variations pathologiques, au croisement de la génétique des populations et de la génétique médicale. Ce travail est assuré par deux équipes de recherche en génétique rattachées chacune à un Centre Hospitalo-Universitaire de taille moyenne. Ces équipes comprennent des chercheurs (titulaires, post-doctorants), des doctorants, des ingénieurs et des techniciens de génétique humaine, biostatistiques et bioinformatique. Trois personnes sont impliquées dans le projet pour l’équipe 1 et sept pour l’équipe 2. Par la suite, ces personnes seront désignées par [discipline][numéro d’équipe]*[numéro] pour les distinguer de façon anonyme et significative. Au moment où commence le projet ORSaGéF, 856 échantillons biologiques ont déjà été collectés et les ADN extraits et séquencés avec le concours de l’Établissement français du sang et du Centre national de génotypage (CNG). Ils sont issus de donneurs de sang et de participants à des protocoles de recherche en bonne santé, dont les quatre grands-parents sont nés dans un rayon de 30 km, au sein d’une zone géographique couvrant neuf départements contigus. Ce critère géo-génétique vise à constituer une base pouvant être considérée comme représentative d’une population ancrée sur ce territoire depuis plusieurs générations. Pendant le temps du projet, ces deux équipes travaillent à la constitution d’une base de données et l’analyse des données de séquençage.
11L’autre partie du projet s’inscrit dans une approche biohistorique (Sommer, 2016). Il s’agit en effet de reconstruire l’histoire de la population à partir d’une étude paléogénomique de restes humains issus de cimetières urbains du Moyen-Âge de cette même région. Ce travail est assuré par une équipe d’un centre de recherche universitaire parisien – l’équipe 3 – impliquant deux chercheurs titulaires et un doctorant. La collecte d’échantillons est effectuée en collaboration avec trois archéologues identifiés par la suite comme l’équipe 4 (universitaires et/ou employés à l’INRAP). Le CNG doit assurer le séquençage à haut débit des ADN extraits.
12La structure génétique de la population actuelle peut également contribuer à la reconstruction historique, puisqu’elle est en effet considérée comme le produit d’une histoire démographique que l’on peut reconstituer en utilisant des approches d’inférence statistique, fondées sur des modèles de génétique des populations. Chose rare, ORSaGéF prévoit la synthèse des données d’ADN ancien et d’ADN actuel, dans l’espoir de comparer, voire d’éclairer la structure de population actuelle par une histoire génétique des populations de la région. Cette possibilité de synthèse fait du projet un terrain de choix pour explorer comment la production et l’exploitation des données génétiques est négociée entre les deux groupes de recherche en génétique, ancienne et actuelle. Il permet de comparer dans le détail deux disciplines en plein essor et d’observer comment elles négocient ou affirment leurs pratiques.
13L’enquête que nous avons menée s’est déroulée entre le 1er novembre 2019 et le 31 avril 2020, alors que le projet ORSaGéF était déjà lancé depuis près de deux années. Seize acteurs (chercheurs, doctorants, post-doctorants, ingénieurs…) se sont prêtés à des entretiens semi-dirigés d’une durée d’une à deux heures, sur les lieux de travail visités durant des séjours d’observation non participante (visites des locaux, participation aux réunions d’équipe hebdomadaire, observations au poste de travail). Lors de ces entretiens, l’accent a été mis sur le témoignage des transformations disciplinaires, la matérialité des pratiques et les circulations autour des différents acteurs, en se concentrant sur les données génétiques dans ce qu’elles ont de mouvant et de malléable. Une posture d’apprenant (jeu de rôle : nouveau membre à former) a été adoptée pour favoriser l’expression des savoir-faire et tours de main à l’oral. La collecte d’information a aussi bénéficié de documents transmis par les acteurs eux-mêmes, dont une vidéo d’un site inaccessible (le laboratoire confiné de paléogénomique), des photographies qui n’avaient pu être prises lors de la visite et enfin des publications et documents administratifs relatifs au projet.
14La conception informationnelle du vivant (Kay, 2000 ; Fox Keller, 2000) qui fonde le processus de production de données génétiques lui confère une structure particulière au regard d’autres types de données. Produire des données génétiques à partir d’un échantillon biologique n’implique pas d’opérations de réduction ou de simplification d’informations. C’est une démarche de purification visant à isoler l’ADN d’un tissu biologique, pour caractériser le plus précisément possible sa séquence moléculaire, et accéder à l’information complète recherchée. Nous avons exploré en parallèle la production de données génétiques à partir d’échantillons actuels et à partir de restes archéologiques. Nous avons été attentives à chacune des étapes du processus, en considérant le contenu du travail réalisé, son rapport à la matérialité biologique ou numérique et le statut professionnel des acteurs impliqués. Mais nous avons également interrogé les relations de dépendance entre les étapes, les conditions de passage de l’une à l’autre. Pour guider cette caractérisation des pratiques et la recherche des processus de valorisation épistémique ou technique, nous nous appuyons sur les notions épistémologiques de Rheinberger. Elles permettent de ne pas prendre pour donné le statut épistémique ou technique de ces étapes mais de caractériser comment dans deux systèmes expérimentaux, celui de génétique des populations humaines à visée médicale et celui de paléogénomique populationnelle, ces statuts sont construits par des acteurs qui valorisent et fabriquent différemment des données génétiques à première vue très similaires. Nous avons enfin été attentives aux formes que prennent pour les acteurs les questions de responsabilité vis-à-vis des données, qu’elles soient juridiques, éthiques ou politiques, et identifié les étapes concernées.
15Les échantillons d’ADN ancien sont caractérisés par leur rareté, leur fragilité et une dispersion temporelle forte. Exposé dans le sol à divers phénomènes, l’ADN endogène est fortement fragmenté et contaminé par d’autres ADN. Les paléogénomiciens collaborent avec des partenaires hors du projet ORSaGéF, dont le rôle est indispensable, les archéologues et les laboratoires d’analyse physico-chimique. Les premiers localisent les cimetières d’intérêt et prélèvent des échantillons anciens, d’os et de sol. Ils ont un double rôle de pourvoi des échantillons et du savoir archéologique sur les sites de collecte. Les seconds analysent des échantillons de sol et les données physico-chimiques ainsi produites déterminent le choix de protocoles d’extraction d’ADN. Des analyses complémentaires peuvent être demandées par les paléogénomiciens, créant alors une boucle entre acteurs dans et hors projet. L’interprétation des données de séquençage doit réunir paléogénomiciens et archéologues pour une compréhension fine, contextualisée géographiquement et historiquement.
16La collecte d'échantillons est compliquée par la difficulté d’accès aux populations visées. Il s'agit de restes d'individus inhumés dans des cimetières avec une dispersion temporelle forte. Un travail d'identification et d’évaluation de sites candidats, l’obtention d'autorisation de fouilles ou de prélèvements sont nécessaires. Ces sites sont rares et moins riches en donneurs potentiels que les structures médicales ou de santé publique actuelles. Un site livre une cinquantaine de restes humains, dont l’exploitabilité paléogénétique n’est pas garantie : le séjour prolongé des ossements dans le sol, les divers phénomènes post-mortem et l’acidité des sols dégradent l’ADN ancien, amenant parfois à sa totale disparition. Sur les conseils des paléogénimiciens, les archéologues sélectionnent des os aptes à mieux conserver l’ADN endogène : l’os pétreux, situé dans le crâne et assez dense pour limiter les possibilités de contaminations, ou des dents. Les os sont acheminés vers des lieux où ils pourront être nettoyés et préparés pour l’envoi à l'institut de paléogénomique, comme la grande salle d’un laboratoire d’archéologie universitaire, dotée de longues tables pour déposer et trier les objets, d'éviers larges pour le nettoyage et d'étagères de stockage temporaire. Les os sont glissés dans des pochettes transparentes en plastique, étiquetées et expédiées. Aux côtés de ces restes osseux potentiellement riches en ADN endogène, les archéologues préparent des échantillons de sols et d’autres os (côtes, os longs), qu’ils envoient au laboratoire de physique chimie pour fournir des éléments de datation, des mesures d’acidité et autres informations complémentaires. Ces éléments sont renvoyés sous forme de données physico-chimiques aux archéologues qui les relaient aux paléogénomiciens pour l’adaptation des protocoles d’extraction ADN.
17Un très gros travail est nécessaire pour isoler et purifier l’ADN contenu dans ces os et pour le séquencer, que les paléogénomiciens réalisent avec l’aide de robots et en zone de confinement strict et inversé. Pensée pour prévenir les contaminations par de l’ADN récent ou exogène, la zone est organisée pour limiter les entrées de matière dans le laboratoire plutôt que leur sortie. Aux mesures anti-contamination s’ajoutent des procédures visant à distinguer les ADN anciens et récents sur la base de paramètres moléculaires. L’ADN ancien étant plus dégradé, les fragments extraits sont plus courts que ceux obtenus pour l’ADN actuel. De même des altérations chimiques de la séquence, dont certaines qualifiées de « mutations post-mortem », accumulées dans le temps long, peuvent être identifiées et distinguées des variations génétiques avec lesquelles la personne a vécu. Un pré-séquençage permet de déterminer le taux d’ADN endogène présent sur les échantillons et son état de dégradation. Les procédures d’extraction et de pré-séquençage peuvent être répétées plusieurs fois, tant que l’ADN purifié n’est pas composé d’au moins 90 % d’ADN endogène. Le travail sur l’échantillon est de ce fait en partie itératif, difficile à standardiser et automatiser. Un chercheur parle de protocoles « haute-couture » à propos d’échantillons anciens et précieux, par opposition au « prêt-à-porter » du haut débit sur l’ADN actuel [paléogénomicien 3*1]. Un degré de standardisation reste toutefois recherché pour analyser la double centaine d’échantillons disponibles. Pour cela, les paléogénomiciens concentrent leurs efforts autour d’une poignée de protocoles :
On essaie de faire évoluer les protocoles, tout le temps, mais ça a toujours été une approche assez frustrante. Mais petit à petit, et en rajoutant une couche d’interprétations et d’observations poussées, on est arrivés à des choses qui marchent de mieux en mieux. [...] maintenant, on a deux protocoles, avec un qui marche mieux dans certains cas et l’autre qui marche mieux dans d’autres. [paléogénomicien 3*1]
18Il s’agit notamment d’éviter la contamination par l’ADN actuel des archéologues ou paléogénomiciens, en s’inspirant de démarches développées pour la génétique judiciaire par [paléogénomicien [3*2]] : manipulations limitées, zone de confinement strict, protections du manipulateur, désinfection à la javel, extraction sous hotte d’air pulsé, flux d’ozone et rayonnement UV, gradient de pression... Comme expliqué par le groupe dans une publication scientifique :
- 1 « Since individual contamination prevention strategies vary in efficiency, and contamination source (...)
Puisque les stratégies individuelles de prévention de la contamination varient en efficacité, et que les sources de contamination fluctuent, une procédure robuste de prévention de la contamination devrait utiliser plusieurs stratégies redondantes. Il est irréaliste de s’attendre à ce qu’une seule procédure suffise dans toutes les situations. (notre traduction de l’anglais1).
19Les ADN anciens ne sont donc pas « nus ». Le terrain archéologique est nécessaire pour contextualiser et assurer la fiabilité, la traçabilité et la reproductibilité des données génétiques et enfin guider le travail expert d’interprétation des signes. Lui seul « ne ment pas » [archéologue 4*1] quand toutes les manipulations ultérieures sont sources potentielles de contamination ou de biais d’interprétation.
20Le travail de séquençage du génome ancien est avant tout un défi de pureté endogène, par sélection et purification chimique. La caractérisation de cette pureté fonde la qualité des données, devant d’autres critères comme la précision du séquençage. Des valeurs relativement faibles de couverture de séquençage (discutée ci-après) – 10 X– sont classiquement utilisées sans faire l’objet de critiques. Le protocole variant selon les os et les données de sites, la créativité et la rigueur expérimentales prennent le pas sur la rapidité de protocoles standardisés. Certaines étapes peuvent être répétées pour améliorer la qualité des données, créant un flux d’objets matériels et de données numériques qui boucle voire reboucle entre paléogénomiciens, archéologues, chimistes et physiciens. Atteindre une masse statistique suffisante pour une époque ancienne est très laborieux et compliqué et l'approche, jusque récemment, a été peu développée. L’exploitation de l’ADN ancien se caractérise alors par la circulation de ce flux mixte et de bas débit, itératif.
21En comparaison, les séquences d’ADN actuels issus de donneurs vivants paraissent plus faciles à produire – collecte en masse facilitée par des institutions de santé publique ; faible risque de dégradation et de contamination des ADN lors des étapes d’extraction ; extraction et séquençage standardisés et linéaires. Dans ORSaGéF, la production d’ADN actuels résulte de précédents projets mais il faut en rappeler quelques étapes. Elle a débuté dans les locaux du CHU qui abritent le laboratoire des généticiens des populations et des unités comme le centre d’investigations cliniques, sous la forme de biocollections. Il s’agit de boîtes de dizaines de prélèvements sanguins ou salivaires, collectés par des professionnels de santé dans des conditions contrôlées et conservés localement en chambre froide. Dans le projet, les ADN sont accompagnés d’une information unique, l’origine géo-génétique des donneurs, grâce à la standardisation des modalités de recueil de cette information (critère de naissances des quatre grands-parents) et de l’ADN lui-même (dont la pureté est contrôlée par le protocole unique de prélèvement). Elle permet de construire une indépendance vis-à-vis de l’origine des donneurs et des conditions de recueil des échantillons. Le terrain, entendu ici comme le corps et les origines des donneurs, disparaît donc du processus de production des données numériques, à la fois par antériorité au travail de production des données numériques et du fait des modalités conceptuelles choisies pour ce travail.
22De ces biocollections ont été localement extraits les ADN, séquencés ensuite par la plate-forme à haut débit du CNG, au sein des installations du Commissariat à l’énergie Atomique (CEA) de Saclay. L’étape suivante, pour traiter les signaux de sortie des séquenceurs et produire les séquences numérisées d’ADN, prend une importance particulière. Dans les technologies de séquençage à très haut débit l’ADN est successivement dupliqué, fragmenté, séquencé puis les fragments sont réassemblés pour produire la séquence globale (méthode shotgun ou à l’aveugle). Plus les segments sont séquencés un nombre élevé de fois, plus leurs séquences sont précisément décrites, plus ils sont correctement réassemblés, et plus la séquence globale est jugée de bonne qualité. La couverture de séquençage –qui mesure le nombre moyen de séquençages réalisés pour chaque segment- est ainsi un indicateur clé de qualité. Dans ORSaGéF, les 856 génomes entiers sont ainsi séquencés avec une couverture de 30 X, qui doit permettre de faire la distinction entre les variations de séquence et les erreurs, ou bruits, liés au processus de séquençage. À la quantité d’échantillons analysés vient donc s’ajouter une quantité de séquences produites pour chaque échantillon. Lorsque la qualité de séquençage d’un échantillon est jugée insuffisante, ce dernier est simplement éliminé. Le surcoût d’un nouveau séquençage est en effet jugé trop élevé au regard de ses effets sur les résultats des analyses à l’échelle populationnelle.
23Le projet ORSaGéF proprement dit intervient à partir de l’étape suivante de traitement de ces données. La taille (65 Go) et le format (binaire, 0/1) des fichiers générés lors du séquençage à haut débit posent des problèmes spécifiques. Leur manipulation requiert une puissance informatique particulière. Pour des raisons techniques (volume de données) et de sécurité des installations du CEA, un premier traitement numérique est réalisé sur les serveurs du CEA, selon des modalités transmises par les chercheurs, permettant in fine la mise à disposition des données numériques de séquençage hors du CNG. Ce traitement de très nombreuses séquences est rendu possible par une série de développements bio-informatiques. L’assemblage des fragments séquencés repose ainsi sur des algorithmes inspirés de ceux développés pour les recherches textuelles sur Internet (Stevens, 2016), qui assurent une rapidité de traitement. Il est associé à un contrôle de qualité des séquences, puis à un mapping : les séquences sont comparées entre elles avant d’être alignées sur des génomes complets de référence, ici le HG 37, de plus en plus enrichi de séquences associées à des populations localisées. On procède ensuite à la fusion et à l’annotation (repérage des variants) des séquences, pour obtenir un fichier texte dit Variant Calling File (VCF), ne contenant que les variations relevées entre les génomes étudiés. À chaque étape, un tri est réalisé entre signal et bruit de traitement. Les données jugées non fiables ou erronées (comme les « outlier », anomalies ou extrêmes de distribution) sont simplement éliminées :
… Je me souviens d’un truc où on avait regardé le nombre de génotypes pour chaque individu, combien étaient hétérozygotes, combien étaient homozygotes sur la référence, combien étaient homozygotes sur l’alternatif. On s’était aperçu qu’il y en avait 2-3 qui avaient un nombre de variants qui sortaient complètement des autres, des « outliers », et qui avaient des nombres de variants un peu bizarres, donc on les a virés. Ça peut être un contrôle qualité qu’on peut faire a posteriori du séquençage. Je ne me souviens pas qu’on soit allé retourner, au séquençage, pour voir s’il y avait quelque chose qui avait… qui avait foiré. [Bio-informaticien 1*1]
24L’élimination plutôt que la vérification par reséquençage est typique de cette génétique en gros de l’ADN actuel ; la quantité des échantillons permet un mode de qualification par sélection des éléments autour d’une moyenne choisie pour construire une population de référence. Au-delà de critères quantitatifs, comme la couverture de séquençage, la qualité des données produites repose également sur ce travail d’organisation et de tri des données réalisé par les bioinformaticiens. À l'issue, les généticiens des équipes *1 et *2 accèdent aux fichiers VCF localisés sur des terminaux de travail distants et sécurisés (logins et mots de passe), dont l’accès est négocié par les directeurs de laboratoire. Le travail d’analyse des données ne porte ainsi que sur les variations de génome choisies. Les données (le fichier VCF, des éléments d'analyse) circulent entre équipes, à une vitesse élevée définie par la puissance de calcul « haut débit » et la connexion informatique, de sorte que cette étape se caractérise par un flux informatique à haut débit.
25Le travail de production de données génétiques est donc spécifique au type d’échantillon considéré. L’appréciation de ce qui fait la qualité des données est tournée vers les étapes amont pour les analyses de restes humains, quand les étapes aval de production et de traitement des séquences sont centrales pour les analyses d’ADN actuel. Dans le premier cas, chaque échantillon fait l’objet, du fait de sa rareté, d’investissements importants pour isoler l’ADN endogène. Dans le second, l’effort est tourné avant tout vers la massification et la précision de la description de variations de séquence, au prix de l’élimination des séquences jugées trop peu informatives.
26Nous analysons ces différences de pratiques sous l’angle de la valeur épistémique, au sens de Rheinberger (1997), du travail, le long de la chaîne de production des données génétiques : une valeur en matière de création de nouvelles connaissances. La divergence d’appréciation de ce qui fait la qualité des données révèle alors une distribution distincte de cette valeur entre généticiens de l’ADN actuel et généticiens de l’ADN ancien. Elle correspond aussi à une division spécifique entre travail épistémique et travail technique. Les étapes à valeur épistémique, créatrices de nouveauté, d’où procèdent de nouvelles connaissances, sont mieux caractérisées par l’implication directe des chercheurs pour en modifier des paramètres. Les étapes techniques, partageant avec les conditions techniques le fait de voir leurs paramètres bien définis et figés, sont plus volontiers déléguées à des techniciens ou des ingénieurs.
27Avec l’ADN actuel, la qualité des données renvoie au nombre d’échantillons séquencés, à la taille et à la précision des séquences, à la fiabilité des informations géo-génétiques des donneurs. Ces paramètres ne sont pas renégociés durant le processus de traitement des données. Les échantillons de trop basse qualité sont éliminés de la chaîne de production selon des critères fixés en amont par les chercheurs. Borné et défini, le travail de recrutement, collecte, extraction et séquençage est confié à des techniciens ou des ingénieurs. Il définit les conditions techniques du travail épistémique des chercheurs : la protection et l’analyse statistique et modélisatrice des données produites. Si la dépendance des généticiens envers ce travail technique, en particulier bioinformatique, est forte –les conditions techniques occupent une large part des publications, dont elles conditionnent la recevabilité-, les travailleurs techniques, maintenus dans un statut d’ingénieur, ne sont pas directement associés à la production de sens et de symboles. Ils réalisent des transformations des données, mais pas d’interprétation. Le monopole de production de sens historique, populationnel ou biomédical, est laissé aux chercheurs, généticiens.
28La situation est quasi inverse pour l’ADN ancien. L’échantillon, de l’os à l’ADN, a une valeur épistémique forte et est traité en archive historique. Tout est mis en œuvre pour éviter de le rejeter et pour tenir compte des données de terrain. Les paléogénomiciens décident directement des protocoles d’extraction et de séquençage. Ils usent, en revanche, d’outils existants pour l’analyse des données produites. L’interprétation des séquences d’ADN ancien est très dépendante des informations disponibles sur les séquences d’ADN actuel, car elle requiert une quantité de données comparables qui n’existe encore que rarement :
On ne peut analyser uniquement que ce qui est très bien analysé chez les [humains] actuels. Parce que sinon on ne sait pas ce qu’on doit chercher. On ne peut pas faire ça sur les anciens. […] On croit que c’est assez bien décrit, la couleur des yeux, la peau, les cheveux. Mais là aussi, je sais que c’est pas complet. Ce qu’on sait, c’est le lactase, un marqueur physiologique. […] Donc on a quelques marqueurs mais c’est pas encore énorme. [Paléogénomicien 3*1]
29Les paléogénomiciens cultivent en revanche des liens étroits avec les archéologues, au travers d’allers et retours entre terrain archéologique et laboratoire, de l’importance accordée au terrain archéologique « qui ne ment pas » et de la méfiance méthodique autour des manipulations d’échantillons. Les archéologues sont valorisés comme pourvoyeurs des échantillons anciens et du contexte historique. De ce fait, à l’inverse du personnel de collecte des échantillons biologiques sur donneurs vivants, ils sont susceptibles de participer activement à l’interprétation des données pour produire des résultats pouvant, parfois, amener à réviser des conceptions de l’histoire des populations et de la structure des sociétés (Mittnik et al., 2019).
30La distribution de la valeur épistémique sur la chaîne des données génétiques est ainsi distincte et marquée par le statut des acteurs impliqués, chercheurs ou techniciens/ingénieurs. Concentrée au début du processus autour du terrain et de l’échantillon pour les paléogénomiciens, elle est en revanche attachée aux étapes finales de traitement simultané de grandes quantités de séquences dans le cas de l’ADN actuel. Elle fait de la qualité des données une catégorie épistémologique pertinente, en amont du cadre relationnel de leurs circulations et des perceptions des acteurs (Leonelli 2015).
31Au cours de notre enquête, nous avons identifié une série de difficultés dans la collaboration entre les équipes du projet, plus précisément entre les équipes travaillant sur l’ADN actuel et les ADN anciens. Nous discutons ci-après des trois principaux types de tensions identifiées.
32Le partage des données de séquençage est apparu comme un premier sujet de tensions fortes entre généticiens de l’ADN actuel et paléogénomiciens. Pour les premiers, le partage de ces données n’est pas jugé nécessaire au travail d’analyse de la structure de population. Pour une ancienne doctorante de l’équipe 1*, l’ADN ancien « [...] ne va pas apporter quelque chose de nouveau [aux] analyses et à la question [...] posée ». D’un point de vue épistémique, le partage des données lui apparaît non indispensable à la bonne réalisation de son travail.
33De plus, l’accès à des données génétiques personnelles et identifiantes est très encadré par la loi. Les équipes développent en conséquence des procédures très sécurisées.
On est très très dépendant de toutes les entités impliquées, parce qu’il faut par exemple, ne serait-ce qu’au niveau informatique… vérifier les serveurs, les antivirus, les réseaux, les mots de passe, la validité des mots de passe, s’ils sont assez robustes, qui a accès à quoi, qui donne les autorisations à quoi, qui restreint quoi, les accès… [cheffe de projet, 2*2].
34Les données sont aussi tatouées pour permettre leur traçabilité en cas de vol. Enfin, si le projet prévoit un accès au futur panel de référence, ce sera à travers une plateforme d’association qui procédera à des calculs entièrement cryptés pour délivrer des résultats différentiels. Cette solution radicale de contrôle de la circulation des données pousse la définition informatique de la base de données à son paroxysme : elle ne peut être qu’interrogée, jamais téléchargée ou publiée. Le choix de ces mesures est antérieur à ORSaGéF et les décisionnaires de l’accès aux données ne sont pas contraints par les nécessités et objectifs du projet. Le porteur du projet lui-même n’a pas voix au chapitre en la matière, pas plus que les paléogénomiciens. Ici se découvre un autre écart temporel qui joue sur le partage des données : l’antériorité de la production des données d’ADN actuel sur celles d’ADN ancien amène une indépendance des décisions de l’accès aux données par rapport aux besoins de la collaboration.
35Au contraire, les données d’ADN ancien issues de restes humains de plusieurs siècles ne sont pas concernées par ces régulations parce que les donneurs ne sont pas identifiables. Les pratiques professionnelles de partage des données paléogénomiques sont donc plus libres et la circulation des données est une condition essentielle de leur valorisation scientifique. Publier la séquence intégrale d’un génome entier ou de portions renfermant des informations sensibles (couleur de peau, des yeux, etc.) est même hautement valorisé, au vu de la rareté des échantillons, des difficultés de production des séquences d’ADN endogène, et de la contribution scientifique directe qu’une telle séquence est susceptible de constituer en soi. Toutefois, de par leur expertise d’analyse des ADN dégradés pour le monde judiciaire ou médical, les paléogénomiciens ne sont ni étrangers ni insensibles aux contraintes légales de l’ADN actuel.
36Ainsi, s’il est important pour les généticiens des populations d’associer maîtrise technique et conformité légale dans des stratégies fortes, pour un des paléogénomiciens, elles compliquent les conditions pratiques du partage de données de manière critique :
L’absence de perspective sur la possibilité de pouvoir intégrer efficacement les données anciennes avec les données modernes ne nous a pas motivés pour investir massivement sur la production de données anciennes. Parce que les produire pour ne pas les intégrer, ce n’est pas rentable pour nous. C'est-à-dire si on doit produire et après, c’est ceux qui ont les données qui se les gardent jalousement, ce n’est pas motivant [paléogénomicien 3*1].
37Mettre en commun et articuler les séquences d’ADN actuel et ancien est, pour lui, un élément clé d’ORSaGéF. Les étapes d’intégration des données sont complexes et il considère que l’efficacité scientifique impose qu’il puisse y prendre part. Pour lui, la situation de blocage serait due au fait que
Ce projet a été fait avec une logique biomédicale clairement affichée et n’a pas intégré le partage avec la partie paléo du projet [paléogénomicien 3*1].
38Elle découle notamment du fait que le projet est construit à partir de deux lignes de recherche distinctes, rassemblant des équipes aux moyens et aux objectifs très différents – la promesse biomédicale est le principal attracteur financier d’ORSaGéF –, avec peu de discussions en amont sur les modalités précises de collaboration. La conséquente subordination de l’objectif biohistorique à l’objectif biomédical par les généticiens de l’ADN actuel, en position de relative indépendance voire de force par rapport à leurs collaborateurs paléogénomiciens, serait ainsi la source des divergences en matière de partage des données.
39La seconde tension se matérialise dans le regret des paléogénomiciens que leur travail soit perçu comme relevant d’une plateforme « technique » ou « de techniciens ». Une différence importante entre les équipes de génétique de l’ADN actuel et ancien tient au fait que la production des séquences génétiques n’est pas confiée aux mêmes acteurs. Pour l’ADN actuel, elle a été confiée à des ingénieurs et techniciens (de culture cellulaire, de biologie moléculaire, de séquençage) au sein des CHU puis du CNG. Les généticiens chercheurs ne manipulent pas l’ADN ou les échantillons directement. Ils travaillent au traitement et à l’analyse des séquences, en lien étroit avec des ingénieurs bioinformaticiens. Les étapes de production des séquences sont donc perçues comme techniques, délégables à un personnel appliquant des protocoles standardisés. Inversement, les chercheurs sont présents à toutes les étapes d’extraction et de séquençage de l’ADN ancien car ils en élaborent et raffinent les protocoles. La production des séquences requiert une forme de créativité qui justifie une implication proche du « sur-mesure » [paléogénomicien 3*1] laborieuse, mais payante :
Maintenant dans le labo, on ne séquence pas en dessous de 50 % d’ADN endogène. Mais là maintenant on a entre 50 et 100 %, on peut arriver à avoir beaucoup d’échantillons qui se font dans ces conditions-là, avec les améliorations méthodologiques qu’on a fait, je dirais, dans les deux dernières années, là. On a vraiment fait beaucoup bouger les choses, en fait parce que [paléogénomicien 3*1] et moi on s’est remis à la paillasse à ce moment-là. [Paléogénomicien 3*2]
40Ce « retour à la paillasse » est finalement emblématique de la créativité des paléogénomiciens. C’est un mode expérimental traditionnellement reconnu comme tel dans les sciences du vivant, qui contraste avec les approches plus récentes et largement informatisées de sciences du vivant de plus en plus centrées sur des données manipulées in silico (Strasser, 2019 ; Leonelli, 2012).
41La comparaison avec le traitement bioinformatique offre une perspective intéressante sur ce qui relève ou non du travail de technicien. L’ingénieur en bio-informatique de l’équipe 1* se revendique, par exemple, expert technique et développeur Java « au service d’une équipe de recherche ». Il assure la liaison technique avec le CNG pour les transferts des fichiers sensibles et volumineux issus des séquenceurs et conçoit des programmes à façon pour les rendre exploitables par les chercheurs. La qualité de son travail se mesure, pour lui, à sa capacité d’accompagnement des chercheurs.
Je ne suis pas sectaire : si on me demande de donner un coup de main, je le ferai sans problème. Si on ne me demande pas un coup de main, je ne suis pas du tout vexé, enfin, je veux dire, c’est mon taff, quoi. [bio-informaticien 1*1].
42Dans ce contexte, le travail bioinformatique même créatif est cadré comme une activité de développement et de maintenance au service des chercheurs, de nature technique en dépit de sa complexité et de son impact sur les étapes d’analyse. Il est habituel dans la recherche biomédicale, interdisciplinaire, de fonctionner en équipes hétérogènes de personnes de statuts et de disciplines différentes. L’expertise technique, devenue incontournable, est organisée et valorisée en interne via les stratégies de recrutement et les postes proposés. Rodée sur de précédents projets, la collaboration est aisée entre les généticiens des populations, les bio-informaticiens et les autres spécialités des CHU.
43Les paléogénomiciens revendiquent au contraire une créativité de nature proprement scientifique dans leur travail. En tant que chercheurs, ils manifestent de très fortes attentes quant à la reconnaissance sociale de la propriété intellectuelle et du caractère créatif de leur travail, jusqu’à l’intérieur du projet. Cette préoccupation est partagée par les généticiens de l’ADN actuel mais plutôt que d’agir comme un catalyseur de négociations, elle pousse à retenir l’accès aux données produites et génère la critique de la réduction en plateforme « technique ». L’absence de partage nourrit la crainte de se voir déqualifiés en un rôle « technique » dans la production de données d’ADN ancien, de se voir dépossédés de l’originalité du travail produit, par l’invisibilisation de ce travail. La situation est aggravée par une certaine expérience des frictions collaboratives ;
On a demandé depuis longtemps d’avoir accès aux données modernes, et ça c’est pas fait. Ça c’est étrange. Maintenant il faut que je vous dise : je dirais, 90 % des collaborations marchent mal, de manière générale. Pas avec les archéologues, mais avec les autres généticiens, dans des réseaux, de manière générale c’est plutôt l’exception que ça marche bien de manière générale. [Palégénomicien 3*1]
44Pour les paléogénomiciens, donc, la possible qualification ingénieuriale ou technique de leur travail s’apparente à un manque de reconnaissance de leur contribution scientifique qui malmène le sens de leur implication dans le projet ORSaGéF. Cette qualification ou déqualification leur est d’autant plus étrangère qu’ils valorisent fortement leurs collaborateurs pourvoyeurs d’échantillons et prévoient de les impliquer dans l’interprétation des données.
45C’est enfin à distance de la démarche de recherche que se joue une troisième forme de tensions entre généticiens de l’ADN actuel et ancien, celle des formes de leur responsabilité de scientifiques autour des données et savoirs produits.
46Les paléogénomiciens sont de fréquents communicants hors du monde scientifique. Ils vulgarisent leur travail lors de conférences et dans des médias généralistes pour combattre un mésusage ou « dual use » [archéologue 4*1] de leurs travaux par des groupes racistes ou identitaires, friands des données sensibles (couleur de peau, d’yeux, et marqueurs d’origine géographique ou ethnique ancienne), en montrant ou en corrigeant des histoires de peuplement.
« On est tous des Africains, on est tous des métis, on est tous des migrants » C’est fort, comme message. [...] Parce qu’on est sur l’historique. Je commence à parler du Néandertalien, du Denisovien, de Sapiens qui vient d’Afrique. Je montre le peuplement de l’Eurasie, je montre que c’est un aller-retour, dans tous les sens, tout le temps. Il y a tout le temps eu des métissages entre Sapiens et Néandertal, Néandertal avec Denisovien et Denisovien avec Sapiens. [Palégénomicien 3*1]
47« On est tous des Africains, on est tous des métisses, on est tous des migrants » est un leitmotiv et une devise qui ponctue leurs prises de parole publique. Ils donnent à ces interventions un caractère résolument politique et en font un devoir moral dans un contexte de résurgence du racisme qui se nourrit de génétique des populations. À leurs yeux, la valeur directement historique des savoirs qu’ils produisent, par la nature des matériaux analysés, confère à leurs analyses une base solide pour motiver des prises de position fortes. Cette responsabilité morale quant aux conséquences sociales des savoirs qu’ils produisent impose enfin un effort de transparence passant par la publication des données produites.
48Comparativement, les généticiens de l’ADN actuel s’expriment rarement hors des cercles scientifiques et médicaux, en partie pour les mêmes raisons :
C’est vrai que les gens du groupe ont dit : « Ce serait super de leur montrer les différences de fréquence entre les gens de différents pays en Europe ». C’est vrai que j’ai une animation avec la carte qui tourne. Moi j’ai refusé, j’ai dit non, parce qu’on va les voir cinq minutes et ils vont ressortir en disant : « ils étudient les différences qu’il y a entre différents pays » et c’est plutôt ça qui va ressortir. Ça, il faut le présenter différemment. […] Il faut faire très attention, des fois je refuse des interviews, quand je vois que c’est un peu trop centré… J’ai des demandes… la dernière fois c’était Paris Match, pour une interview sur l’ADN ethnique. D’ailleurs ils ont fait leur papier, mais moi j’ai refusé parce que je me suis dit : il faut faire attention dans la manière de présenter les choses. [Généticienne 2*1]
49Lorsqu’ils choisissent de répondre à des sollicitations, ils le font avec beaucoup de prudence et de retenue, manipulant les données génétiques comme un potentiel d’interprétations possibles. Le message à destination du grand public est réduit à une explication des formulations scientifiques. Leur responsabilité est directement engagée par les lois de protection de la vie privée et par les consentements signés par les donneurs vivants d’ADN. De plus, l’exhaustivité des séquences produites les rend largement identifiantes non seulement pour les donneurs mais aussi pour leurs proches, qui partagent leur ADN :
Est-ce que tout le monde se rend compte de ce que ça représente, que ce n’est pas que soi-même mais également sa parenté qui sont concernés ? [généticienne 2*1]
50Ces tensions font ainsi entrevoir des pratiques différentes de la génétique. L’analyse comparative du travail sur les échantillons a révélé des flux d’objets de nature et de débit différents, une qualification des données génétiques propre à chaque spécialité. La production des données est aussi production de valeurs, dont les formes de responsabilité morale associées révèlent une dimension supplémentaire. Ces différences requièrent une négociation active des contraintes et des prérogatives des acteurs pour maintenir contacts et circulations entre eux, mais la synthèse ADN actuel-ADN ancien apparaît comme un angle mort de la collaboration. In fine, ces tensions professionnelles révèlent un faible degré d’interdisciplinarité entre génétique de l’ADN actuel et génétique de l’ADN ancien, plus proche de la juxtaposition que de l’intégration, avec le risque de l’invisibilisation de l’une par l’autre. Ces zones limites de collaboration révèlent alors le noyau des pratiques, d’autant plus distinctes qu’elles sont en plein développement par des domaines de recherche en situation d’affirmation disciplinaire : la génétique des populations à visée médicale, et la paléogénomique à échelle populationnelle.
51Le développement du séquençage haut débit a facilité la mise en équivalence de contextes hétérogènes de production de données génétiques, dès lors que les mêmes machines étaient susceptibles d’analyser des échantillons variés. Ce faisant, la représentation dominante est celle de données « nues », réduites à une information de séquence moléculaire, produites de façon automatisée, circulant en gros, manipulées par des savoirs informatiques (production et contrôle qualité, logistique des circulations, protection des informations au caractère sensible), statistiques ou bioinformatiques (analyse des données). Décontextualisées et dématérialisées, elles seraient émancipées des contraintes et savoirs expérimentaux. Le projet interdisciplinaire associant des généticiens travaillant sur ADN actuel et ADN ancien que nous avons étudié permet de nuancer cette représentation : il conduit en effet à visibiliser des étapes épistémiques autour des échantillons et leur rôle dans la construction différentielle d’une qualité de données. Des conceptions très différentes du travail des données génétiques et de ce qui en fait la valeur se font jour.
52Elles intègrent pour l’ADN ancien une attention forte au contrôle de la contamination et de la dégradation d’un matériau fragile. Le travail de purification de l’ADN réintroduit alors une dimension épistémique dans les formes de travail autour de la matérialité biologique et physico-chimique des échantillons anciens. Si la faible automatisation de ces étapes s’explique en partie par l’histoire récente de pratiques encore évolutives, elle reflète également l’importance d’un « terrain » difficile à standardiser pour construire la qualité des données. Les données de caractérisation du contexte d’origine des échantillons sont mobilisées dès les premières étapes de la fabrique des données d’ADN, qui suppose ainsi une intrication fine entre informations génétiques, archéologiques et physico-chimiques. En retour, les étapes d’interprétation des données apparaissent moins élaborées, mobilisant peu de modélisation ou d’inférences statistiques. Au contraire déconnectées du terrain lors de phases de production hautement standardisées, les données génétiques d’ADN actuel requièrent un intense travail d’analyse qui peut s’assimiler, à l’instar de ce qui a été décrit en contexte clinique (Bourgain & Beaudevin, 2020 ; Turrini & Bourgain, 2021), à des efforts pour réencastrer l’information moléculaire dans son contexte.
53Pour l’ADN ancien comme actuel, l’articulation de l’information moléculaire avec les informations « de terrain » est complexe et concentre le travail de production de la valeur épistémique. Mais la différence de localisation de ce travail, en amont ou en aval du séquençage, nourrit des attentes différentes entre professionnels, voire des frictions lorsque ces attentes touchent à la reconnaissance du travail accompli. Les différences de distribution de la valeur épistémique et de division du travail peuvent donner lieu à une invisibilisation de ce travail jusqu’entre acteurs de même statut professionnel. Elle est vécue par les acteurs invisibilisés comme une superposition tacite d’un autre modèle de production au leur, d’une manière qui nourrit le sentiment que leur qualité de chercheurs n’est plus reconnue. La division du travail est ainsi un moment axiologique fort de la collaboration interdisciplinaire, qui requiert une négociation dans le détail autour des valeurs et des attentes des collaborateurs. Sans quoi les différences de pratiques de production des données génétiques créent des écarts d’appréciation du travail (temps comparativement plus long de production des données d’ADN ancien, qualification épistémique ou technique) qui aboutissent à des tensions de valeurs et de normes (reconnaissance et responsabilité scientifiques).
54Ces écarts illustrent également le fait que si le travail de gestion, de mise en circulation et d’analyse des données est une caractéristique centrale de l’ère post-génomique, le travail de la matérialité d’échantillons biologiques n’en a pas pour autant totalement disparu. Une forme de résurgence de l’expérimental s’opère dans les marges de la génomique dominante, révélée à l’interface de pratiques disciplinaires. Elle est liée à la nature des matériaux à travailler – des restes humains plutôt que des échantillons collectés sur des vivants – mais également aux questions de recherche pour lesquelles la génétique est mobilisée. Dans le cas de la paléogénomique, l’analyse vient s’inscrire en complément d’approches disciplinaires relevant de l’archéologie, de la paléoanthropologie ou de l’histoire, dont l’antériorité et la légitimité sont fortes. Sa contribution à la production de savoirs, difficilement réductible à une opération autonomisable, est même fortement dépendante de traces collectées dans le cadre d’autres champs disciplinaires.
55Ainsi, l’extension des champs d’application de la génomique fait émerger de nouvelles formes de pratiques, qui déplacent à leur tour un équilibre entre empiricité et traitement de données, dont les évolutions jalonnent l’histoire de la biologie et de la génétique depuis le XIXème siècle (Strasser, 2019 ; Müller-Wille & Rheinberger, 2012). Ces évolutions peuvent être interprétées comme des marqueurs de la complexité et de la créativité d’un champ, qui trouveront aussi place dans des débats plus généraux sur l’évolution des sciences à l’heure de l’émergence de pratiques dirigées par les données (data driven science), où l’automatisation et la massification des données sont de plus en plus centrales.
Nous remercions les membres du projet étudié (désigné ORSaGéF) pour leur accueil et pour leur participation enthousiaste à notre enquête. Nous remercions également les relecteurs de cet article dont les retours critiques constructifs nous ont permis d'en améliorer grandement le contenu. Cet article a été rendu possible grâce à un financement de l’Agence Nationale de la Recherche.