Collecter et gérer les données : réflexions à l’heure du big data
Mélanie Millette, Florence Millerand, David Myles, Guillaume Latzko-Toth (dir.). Méthodes de recherche en contexte numérique. Une orientation qualitative. Montréal : Presses de l’Université de Montréal. ISBN 9782760642492
Plan
Haut de pageTexte intégral
1Les presses universitaires de Montréal nous proposent une réflexion sur les méthodes de recherche en sciences sociales en contexte numérique, faite de doutes, d’essais, de limites.
2Le numérique, s’il a largement bouleversé la vie sociale, s’impose aujourd’hui comme une évidence dont on doit tenir compte dans les méthodes de recherche.
3Aux méthodes traditionnelles, faites d’enquêtes, d’échantillonnage, de représentativité, on juxtapose aujourd’hui les techniques dérivées du big data, établissant le volume des données et leur immédiateté comme des vertus cardinales.
Comment concilier et conjuguer des approches qui semblent si contradictoires ?
4L’opposition entre enquêtes traditionnelles et big data est certes caricaturale, mais elle met en évidence à la fois l’importance et la difficulté d’intégrer le contexte numérique dans les travaux de recherche.
5L’ouvrage nous propose « d’ouvrir la boîte noire » de la méthodologie, en recherchant derrière le « comment faire » des aspects épistémologiques et axiologiques.
Méthodes en contexte numérique
6Si le numérique apporte de considérables mutations dans les sciences humaines et sociales, il entraîne aussi un concert de résistances. Cette situation n’est pas nouvelle, et fait suite aux travaux conduits dans les années quatre-vingt en matière de sociologie des médias et des usages des technologies.
7Pour les auteurs, la notion de « contexte numérique » vise tout particulièrement à dépasser un clivage factice entre numérique et non numérique, pour prendre pleinement en compte l’imbrication et l’enchevêtrement d’une réalité « mixte, subtile et texturée ». Opposer Internet aux médias traditionnels, ou le « cyber » à la vraie vie ne permettra pas de prendre mieux en compte les dynamiques fortes observées les vingt dernières années.
8Qualitatives, quantitatives, mixtes ou nativement numériques… La richesse et la pertinence des méthodes s’inscrivent « dans une programmation empirique de recherche soucieuse de jeter un éclairage rigoureux sur les pratiques, objets et terrains numériques […] ». Mais il s’agit sans doute moins de méthodes nouvelles que d’une redistribution issue de l’adaptation de l’existant aux caractéristiques du numérique.
9On parlait, dans les années quatre-vingt, de « tournant computationnel », fortement marqué d’une dimension d’innovation, avec des implications ontologiques et épistémologiques. Les méthodes computationnelles, déjà qualifiées de « big method », s’opposaient alors aux méthodes traditionnelles (methods as usual), mais les travaux de l’époque leur associent aussi les méthodes virtuelles et numériques.
10Les méthodes dites traditionnelles ne sont pourtant pas exemptes de numérique, mais elles l’utilisent pour faciliter le recueil traditionnel de données (entrevues, groupes de discussion, enquêtes, etc.). Le terme de computationnel évoque en revanche une mise en œuvre à grande échelle des outils issus de l’informatique et des mathématiques, avec notamment des analyses textuelles automatisées sur de larges corpus de données. On ne parlait alors pas encore de big data, mais les principes en étaient déjà présents.
11En complément des méthodes traditionnelles et computationnelles, les méthodes virtuelles s’appuient sur des approches davantage ethnographiques ou socio-anthropologiques, adaptant les approches qualitatives classiques de ces disciplines aux environnements numériques en ligne. Mais leurs origines épistémologiques sont rapidement jugées insuffisantes pour embrasser la réalité de l’univers numérique émergeant. Les méthodes dites numériques visent alors à appréhender les phénomènes socio-culturels qui se manifestent en ligne en mobilisant des outils nativement numériques, pour une recherche « sur et avec » le numérique.
12Pour autant, cette typologie (méthodes traditionnelles, computationnelles, virtuelles et numériques) ne se traduit pas dans les usages, bien souvent mixtes ou hybrides, conjuguant des approches qualitatives et quantitatives. Et l’intrusion dans les pratiques d’outils techniques lourds et complexes conduit aussi à des formes de division du travail qui donnent une « forme de préséance de la technique sur les sujets ».
13Les traces numériques occupent désormais une large place dans les travaux de recherche, mais le caractère massif des données s’accompagne d’un effacement progressif des critères traditionnels de qualité. « L’exhaustivité et la représentativité ont été remplacés par le volume et la variété […] ».
14Volume, Variété, Vélocité : ce sont les critères vedettes de la massification des données, quelquefois dits des « 3V ». Mais le volume ne remplace pas l’exhaustivité, pas plus qua variété ne remplace la représentativité, ou que la vélocité ne remplace pas la traçabilité.
15Les différentes approches de la sociologie des usages viennent compléter ces approches, avec la volonté d’embrasser la multiplicité des dimensions des phénomènes, tant dans une approche contemporaine qu’historique. Toute recherche sur les usages s’inscrit alors dans une dimension de complexité, prenant en compte l’objet d’étude « au sein d’une pratique sociale dépassant le simple usage hic et nunc d’un dispositif […] ».
L’approche ethnographique
16La deuxième partie de l’ouvrage s’intéresse aux méthodes ethnographiques. L’émergence de l’Internet et des réseaux sociaux vient modifier de façon radicale l’étude des pratiques sociales, soulevant des enjeux méthodologiques spécifiques. Le passage à une ethnographie en ligne pose la question de la relation entre les espaces virtuels et des formes de réalité, jusqu’à la définition d’une forme d’ « ethnographie virtuelle ». L’ethnographie en ligne s’accompagne de la définition de nouvelles méthodes, et de la nécessité d’une posture éthique, notamment dans la recherche de représentations de l’authenticité et de la pertinence dans l’espace virtuel des réseaux sociaux.
17Les méthodes d’enquêtes se conjuguent le plus souvent entre une partie en ligne et une partie hors ligne. Les approches multimodales et multi-sites en ligne apportent une représentation de la complexité des domaines observés, alors que les entretiens traditionnels permettent de contextualiser les phénomènes et de leur appliquer des approches quantitatives qualifiées. En ligne, multimodale, multi-site, combinée, en réseau, connective… Autant d’approches qui se juxtaposent et souvent se chevauchent dans les pratiques ethnographiques récentes.
18L’ethnographie du web s’inscrit avant tout dans des démarches qualitatives, conjuguant l’observation ethnographique et l’analyse du discours, permettant en particulier de rendre compte de la « constitution et du reflet d’une culture donnée […] ». Le point de vue de l’individu, ou de la communauté, devient une « clé interprétative pour analyser les données d’observation », ce qui constitue une perspective pour articuler les approches traditionnelles et les observations en ligne. Les technologies et médias numériques offrent des possibilités nouvelles, tout en imposant de nouvelles contraintes.
19Mais le croisement et la juxtaposition des méthodes, souvent revendiquées comme des formes de « bricolage », conduisent à un besoin de structuration spécifique, qui s’organise autour du concept de « triangulation des méthodes » : observation, participation, entretien…
20Les outils traditionnels s’accompagnent d’une nécessaire prise en compte des données en ligne, produisant des corpus de données fondamentalement hétérogènes : données d’observation terrain, retranscriptions d’entretiens, produits d’observation en ligne, données textuelles extraites automatiquement des réseaux sociaux, données documentaires et de presse sont autant de sources qui ont leurs propres règles et leur propre organisation, et nécessitent de nouvelles démarches d’organisation et de structuration.
21Mise en données, mise en ordre, mise à plat, mise en lien, mise en écriture ; autant d’opérations qui permettent d’assembler des contenus par nature disparates dans une « création » que l’auteur de l’article qualifie de « complexe, dense, réflexive ». L’objectif est de produire des données « épaisses, détaillées et denses, interconnectées, riches et contextualisées ».
22Les derniers chapitres de cette partie permettent d’illustrer l’enrichissement réciproque des méthodes traditionnelles et virtuelles dans quelques exemples : analyse des pratiques de visionnement connecté des jeunes, usages numériques des adolescents, représentations adolescentes de l’intimité sur YouTube. Les études s’appuient sur un large éventail de techniques de collecte, tant qualitatives que quantitatives, accompagnées de triangulation des résultats. Cette approche composite permet de cerner la diversité des contenus et la pluralité des contextes du visionnement connecté.
Méthodes sur traces
23La troisième partie s’intéresse aux méthodes sur traces. Le « tournant computationnel », matérialisé en particulier par le big data et les données massives, interroge sur la valeur de qualité qui doit être associée à la nature massive des données. L’abondance ne constitue pas un gage d’accès objectif à une réalité sociale ; c'est davantage un contexte qui nécessité de définir des modélisations pour interpréter les traces numériques : like, épingles, snaps… notamment, produisent un volume considérable de traces, pour lesquelles il est nécessaire de cerner les conditions de leur utilisation.
24Réduire l’étendue des données, tout en améliorant leur profondeur ou leur densité, c'est le moyen de la recherche d'une meilleure compréhension du corpus de données et pas seulement de sa simple représentativité.
25Cette démarche conduit à formaliser la distinction entre « données denses » et « données massives » : les données denses concernent des petits ensembles de données, permettant d’échapper à l’utilisation massive d’algorithmes et autres outils de modélisation utilisées avec les données massives. Mais cette distinction doit être appréciée au cas par cas, en tenant notamment compte des critères de représentativité applicables dans les méthodes traditionnelles.
26Une autre distinction entre données denses et massives réside dans les questions qu’elles permettent d’analyser : les données massives permettent d’approcher les liens entre individus, là où les données denses permettent de mieux analyser la spécificité des usages. Les premières permettent d’appliquer des méthodes plutôt quantitatives, a posteriori, sur la base de statistiques et de chiffres, avec des interrogations sur la validité et la représentativité des données collectées ; les secondes interrogent avant tout la construction du sens dans une perspective qualitative.
27La densification des données est notamment liée à leur contextualisation, leur description et l’analyse de leur signification au regard de l’expérience et de la pratique des usagers.
28La « visite commentée » constitue un exemple d’enrichissement et de densification, en articulant les traces d’activité sur un ou plusieurs sites Internet, en les enrichissant d’explications verbales liées au contexte de production de la trace. La trace est alors « épaissie » par sa représentation au moment où l’usager la produit. L’auto-confrontation est une autre illustration de la densification : l’usager est confronté au déroulement de sa propre pratique, qu’il est appelé à commenter (auto-confrontation simple). L’usager est confronté à un enregistrement vidéo de sa pratique, et il détaille et explicite sa navigation. Une variante consiste à croiser les regards, en demandant à chaque participant de commenter la pratique d’un autre. Un troisième exemple se fonde sur l'analyse de « mots clics » (hashtags) à la recherche de représentations de l'expérience vécue en milieu professionnel. Les médias sociaux grand public deviennent un lieu d’expression des réalités vécues, mettant en œuvre le partage de fragments du quotidien au-delà de leur contexte natif, et ce dans des pratiques informelles. Appliquée aux organisations professionnelles, l’exemple proposé ici vise à collecter « toute publication permettant de visualiser les aspects liés au travail et à l’expérience vécue au travail […] », en s’appuyant sur l’analyse des « mots-clics » (ou hashtags). C’est alors une collecte manuelle de données qualitatives qui vient enrichir l’exploitation des algorithmes de la plate-forme permettant d’identifier les mots clés pertinents.
Analyser l'image et les dispositifs vidéo
29La quatrième partie de l’ouvrage met un focus particulier sur les méthodes d’analyse d’images et les dispositifs vidéo. Il nous propose d'abord un focus particulier sur les métadonnées d’image, en illustrant le propos avec l’anecdote de l’identification par la police du lieu de résidence de John McAfee, alors recherché, via une métadonnée de géolocalisation d’un restaurant guatémaltèque intégrée aux métadonnées d'une l’image publiée par la presse.
30En enrichissant les images de d’informations sur leur production, leur traitement ou leur circulation, les métadonnées sont des opérateurs de fonctionnement des systèmes informatiques qui les exploitent. Ensemble d’informations descriptives, techniques et administratives conservées dans les fichiers d’images (ou plus généralement les fichiers médias), les métadonnées font partie de la structure même du fichier. Elles voyagent avec le fichier lui-même, et peuvent s’enrichir au fil des déplacements sur l’une ou l’autre plate-forme. Elles constituent un ensemble de traces de prise de vue, de traitements et d’usage, comme une forme de biographie du média.
31L’auteur mobilise l’approche forensique (notion utilisée notamment en criminologie désignant les moyens scientifiques et techniques permettant de révéler des indices), qui contribue à mettre l’accent sur la matérialité des objets numériques, face au propos ambiant de dématérialisation. L’analyse ethnographique des images se conjugue ici avec une approche sociotechnique. Le statut de l’image est notamment interrogé, la surface visuelle étant à présent enrichie par l’enregistrement de traces d’activités. À la captation d’une scène on associe des éléments non visibles qui accumulent des indices d’activité et témoignent du cycle de vie du média, et ce en général sans intention ou manipulation spécifique de l'opérateur.
32En marge de leur cadre d’usage premier, lié aux fonctionnements des médias numériques et notamment des réseaux sociaux, les métadonnées deviennent un substrat exploitable pour l’analyse ethnographique. Cette approche est notamment utilisée pour l’étude des transformations des usages de l’image via les pratiques de partage dans les réseaux sociaux, et ce dans les domaines artistique, journalistique ou amateur.
33Mais la nature « embarquée », sans visibilité immédiate ni intention manifestée par l'utilisateur, des métadonnées permet aussi d’ouvrir le champ de l’analyse des régimes de visibilité numérique, porteurs d’enjeux considérables pour les rapports de production, de propriété et de pouvoir dans les médias numériques.
34La non visibilité première des métadonnées conduit notamment à s’interroger sur les droits et responsabilités liées à leur production, leur détention et leur usage : les balises de localisation, par exemple, constituent des données à caractère personnel, pour lesquelles l’utilisateur pourrait (devrait) être interrogé sur sa volonté de les conserver ; les pratiques des réseaux sociaux qui utilisent les métadonnées natives du média pour composer leur propre jeu de métadonnées qui vient remplacer celles existantes interroge sur la propriété intellectuelle du média au long de son cycle de vie.
35Les métadonnées d’image constituent donc un terreau riche pour les travaux ethnographiques, mais qui imposent une attention particulière sur les conditions de consentement de l’internaute au partage d’une information avant tout visuelle, mais qui embarque avec elle un ensemble d’informations cachées, dont le cycle de vie est largement inconnu de l’usager.
36Plus prosaïquement, les articles suivants présentent des analyses d'environnements quotidiens et de leurs usages, avec notamment la pratique d'enregistrement vidéo par le téléphone mobile et l'usage de Netflix.
37La téléphonie mobile, et notamment la pratique devenue courante de l’enregistrement vidéo et du partage, et un autre domaine d’analyse privilégié des répercussions sociales et culturelles liées aux usages des plates-formes d’échanges. Les pratiques relationnelles médiatisées sont en développement rapide, et viennent recomposer les pratiques culturelles et médiatiques. L'étude est ici conduite au travers de l'enregistrement simultané des données contextuelles de l’usage (une caméra filme les interactions de l'usager, mais le situe aussi dans son environnement) et l'enregistrement de l’activité d’écran ; les deux enregistrements sont ensuite synchronisés pour décrire le détail des utilisations et la manière dont elles sont organisées en contexte. En associant ces enregistrements et des entretiens avec leurs auteurs, il devient possible de mobiliser la réflexivité des individus par rapport à leurs propres pratiques.
38La plate-forme de vidéo à la demande Netflix permet quant à elle d’illustrer l’importance des algorithmes embarqués pour intervenir dans les processus de décision de l’utilisateur, en tentant de représenter les goûts des personnes, réduits à « un système de valeurs numériques ». La pratique de la recommandation s’appuie sur la confiance des usagers pour orienter des choix de consommation. Encore largement obscurs, les algorithmes sont omniprésents et interviennent de façon importante dans nos choix, voire dans notre construction culturelle. C'est un champ de recherche encore peu exploré qui apparaît essentiel, chargé notamment des enjeux socio-politiques.
39Dans une perspective sociotechnique, les éléments inclus et non inclus lors de l’élaboration des dispositifs « mettent en évidence l’intervention sémantique et politique des algorithmes ».
Nouvelles données, nouvelles méthodes
40Serge Proulx signe la postface de l’ouvrage, véritable kaléidoscope des approches méthodologiques mobilisées pour les analyses impliquant des systèmes d’information et de communication, dans une perspective de transition numérique. « Les plates-formes numériques et machines informationnelles deviennent le passage obligé de toutes les transactions interhumaines ». Fort de ce constat, le chercheur en sciences sociales doit tenir compte de l’émergence d’un nouveau type de données sociales qui conduit à une inévitable recomposition du champ des méthodes en sciences sociales.
41L’accroissement considérable des volumes de données disponibles va de pair avec la nécessité de s’interroger sur leur qualité, et notamment sur leur hétérogénéité, leur richesse/pauvreté conceptuelle, les risques liés à la présence permanente de données personnelles, etc.
Un ouvrage qui concerne l’ensemble des sciences sociales
42Si l’ouvrage est centré sur les pratiques ethnographiques, ses considérations sur les méthodes de collecte et d’analyse de données s’appliquent à l’ensemble des domaines des études sociales.
43L’arrivée du big data et des données massives, si elle apporte un regard complémentaire aux techniques statistiques traditionnelles, vient aussi apporter un cortège d’interrogations sur leur validité et leur valeur sémantique.
44Le développement considérable d’algorithmes présentés comme neutres doit être interrogé. On regrette ici que la perspective sociotechnique n'ait pas été davantage poussée, avec par exemple une analyse sur les effets des compétences embarquées dans leur conception, et les représentations que cela peut induire chez les usagers.
45Les réflexions présentées par cet ouvrage dans un domaine ethnologique/ethnographique peuvent largement être mis à profit par l’ensemble des acteurs des sciences sociales.
46On soulignera aussi la présence permanente, dans les différents articles qui composent l’ouvrage, des approches et enjeux éthiques, tant pour la collecte que pour le traitement, la conservation et l’exploitation des données. La prise en compte des risques, entre des formes d’objectivité liées notamment au volume et à la représentativité, et à l’enrichissement et la densification des données constitue sans nul doute un point focal pour toute initiative impliquant une analyse de données d’usage.
Pour citer cet article
Référence électronique
Gérard Puimatto, « Collecter et gérer les données : réflexions à l’heure du big data », Distances et médiations des savoirs [En ligne], 32 | 2020, mis en ligne le 12 décembre 2020, consulté le 05 décembre 2024. URL : http://0-journals-openedition-org.catalogue.libraries.london.ac.uk/dms/5873 ; DOI : https://0-doi-org.catalogue.libraries.london.ac.uk/10.4000/dms.5873
Haut de pageDroits d’auteur
Le texte seul est utilisable sous licence CC BY-SA 4.0. Les autres éléments (illustrations, fichiers annexes importés) sont « Tous droits réservés », sauf mention contraire.
Haut de page