Navigation – Plan du site

AccueilNumérosN° 2, vol. 9Théories et MéthodesÉchantillonner des populations raresAnnexe électronique de l’article « É(…)

Annexe électronique de l’article « Échantillonner des populations rares. Une expérimentation du Respondent Driven Sampling en milieu musical »

Pierre Bataille, Marc Perrenoud et Karen Brändle

Texte intégral

Les estimateurs du RDS

1Le but de la présente annexe est d’expliciter les formules utilisées pour les estimations présentées dans notre article. Aussi, il ne s’agit pas ici de présenter la totalité des outils statistiques qui ont été proposés dans le sillage des travaux sur le RDS, mais d’aider le lecteur à comprendre, à partir d’une analyse relativement détaillée des trois techniques les plus utilisées dans les travaux disponibles pour produire des estimations (les « estimateurs » RDS I, RDS II et RDS SS), les enjeux techniques et sociologiques que cristallisent de telles tentatives de formalisation.

1. Les conditions de possibilité d’une estimation « naïve » : le recrutement RDS comme chaîne de Markov

2Dans les premiers travaux présentant le mode de recrutement RDS, la ligne argumentative principale suivie par D. Heckathorn a été d’essayer de démontrer qu’un recrutement par vagues successives était assimilable à un processus de Markov (Heckathorn, 1997, 2002). Cette hypothèse impliquerait qu’un recrutement de type RDS devrait logiquement déboucher, à partir d’un certain développement du processus, sur un état stationnaire à partir duquel les nouveaux recruté.e.s n’auraient plus aucun lien avec les graines initiales et seraient donc sélectionnés aléatoirement. Et l’échantillon ainsi constitué de tendre idéalement asymptotiquement vers les « vraies » proportions de la population. Soit N une population visée par une enquête et A une caractéristique de certains individus au sein de cette population, selon ces premiers articles, passé un certain nombre k de vagues de recrutement, on peut considérer qu’au sein de l’échantillon n ainsi constitué :

3PA est la proportion réelle d’individus présentant le caractère A au sein de la population N. Cette première manière de calculer PA est qualifiée de « naïve » dans le sens où elle est tirée des données brutes de l’échantillon RDS.

4Une fois posée cette hypothèse d’un recrutement non biaisé si l’on multiplie les intermédiaires et les vagues, un épineux problème se pose alors : comment connaître a priori le nombre d’étape nécessaire pour atteindre l’equilibrium (soit le moment à partir duquel la proportion d’individus A au sein de l’échantillon n est la même que dans la population totale N) ? Par ailleurs, il paraît assez probable que la structure du réseau qui lie les membres de l’échantillon entre-eux et au reste de la population puisse orienter en priorité le recrutement vers certaines sous-parties de la population entretenant des liens nombreux les uns avec les autres membres et laisser durablement les groupes les moins connectés à l’écart. L’enjeu statistique s’est alors très vite fixé sur la recherche de techniques visant à compenser cette potentielle sous-représentation des groupes sociaux plus faiblement connectés – soit potentiellement les plus vulnérables des populations visées initialement par les enquêtes par RDS (usagers de drogues injectables, personnes atteintes du VIH…) – sans avoir besoin de multiplier les vagues de recrutement ad vitam æternam.

2. Partir des données réseaux pour construire une estimation : l’estimateur RDS I

5Un premier modèle « d’estimateur » est formalisé en 2004, généralement désigné par la suite sous l’appellation « estimateur RDS I » (Salganik & Heckathorn, 2004). L’idée qui oriente la stratégie analytique empruntée pour mettre en place cet estimateur est de faire des estimations de la structure du réseau global de la population à partir des données RDS et de déduire de ces estimations les proportions des différents sous-groupes d’individus qui composent la population visée. Ici l’hypothèse du recrutement RDS comme chaîne de Markov n’est pas mobilisée. Même si la robustesse de cet estimateur a été largement surpassée par les estimateurs apparus par la suite (de fait, nous ne l’utilisons pas dans notre article), il est intéressant à présenter tant sa formalisation révèle les fondements de l’outillage statistique RDS. Pour les besoins de la présentation, considérons le réseau social fictif représenté dans la Figure 1.

Figure 1 : Réseau social fictif

Figure 1 : Réseau social fictif

Lecture : Exemple d’un réseau reliant deux types d’individus (les « ronds » et les « triangles », figurés par la forme des nœuds). Les liens entre individus appartenant à deux types différents sont figurés en trait plein, les liens entre individus du même type étant en pointillés.

6Il apparaît ici premièrement que les « ronds » ont en moyenne plus de liens avec d’autres individus que les « triangles » – i.e. leur degré est en moyenne plus important. Deuxièmement, entre les individus du groupe des « ronds » les liens sont fréquents alors que c’est moins le cas pour le groupe des «triangles». En d’autres termes, l’homophilie des « ronds » apparaît ici beaucoup plus prononcée que l’homophilie des « triangles ». De ce fait, les chances de compter un individu de type « rond » parmi les contacts des « triangles » (soit le nombre total de lien divisé par le nombre de ponts) sont plus élevés que les chances de trouver un « triangles » parmi les contacts des « ronds ». Le Tableau 1 résume les informations relatives au réseau et aux liens qu’entretiennent les deux sous-groupes considérés.

Tableau 1 : Données « réseau » fictives

Nombre moyen de degrés (D)

Nombre total des liens

Nombre de ponts

Probabilités de liens inter-groupe (C)

Triangles

3

12

6

0.5

Ronds

6

36

6

0.16

Lecture : Les « triangles » ont en moyenne 3 connexions avec d’autres individus. Tous les individus « triangles » comptabilisent au total 12 connexions et ont une chance sur deux (probabilité de liens inter-groupe= 0.5) de compter parmi leurs contacts des individus « ronds ».

7Le cœur de la démonstration menée par M. Salganick et D. Heckathorn est de montrer que l’on peut donner une estimation juste des proportions des différents types d’individus dès lors que l’on dispose des quelques données « réseaux » présentées dans le Tableau 1, et plus particulièrement, le nombre moyen de degré au sein des différentes sous-populations d’individus visées par l’enquête (noté D) et une estimation du ratio de chance de compter parmi ses contacts des individus appartenant à un groupe différent du sien (noté C), soit une mesure qui renseigne l’homophilie relative des différentes sous-populations. L’équation 2 montre comment obtenir la proportion des individus de type A et/ou B au sein de la population visée en disposant uniquement de ces données relative aux liens qu’entretiennent ces individus entre eux et avec les membres de l’autre type.

8 PA désigne la proportion réelle d’individu de type A. En reprenant les données relative au réseau présenté dans la Figure 1 entre individus « ronds » (R) et individus « triangles » (T) – soit DT=3, DR=6, CTR=0.5, CRT=0.16 – on peut ainsi retrouver les proportions de PR (0.6) et de PT (0.4) dans la population initiale sans nécessairement avoir d’informations sur le nombre exact d’individus composant ces deux types.

9Reste alors aux deux auteurs à déterminer dans quelle mesure les données récoltées par RDS peuvent être utilisées dans ce cadre. Les données « réseaux » issues d’une enquête RDS sont de deux ordres. D’une part, on demande à chaque enquêté.e.s d’estimer la taille de son réseau personnel au sein de la population cible. D’autre part, les profils des personnes qu’un.e enquêté.e.s recrute permette de donner des renseignements sur la plus ou moins forte homophilie des différentes sous-population en présence. Par exemple, au sein d’une population où elles sont minoritaires comme celle des musicien.ne.s professionnel.le.s, si les femmes recrutent plus de femmes au cours des vagues successives, on pourra en conclure que le groupe des femmes musiciennes est relativement « homophile ».

10Des données sur le recrutement, on peut déduire la valeur de C si l’on part de l’hypothèse que les enquêté.e.s choisissent aléatoirement dans leur réseau personnel les personnes à recruter. Pour estimer le degré moyen (D), il paraît difficile de se baser sur la moyenne simple des degrés individuels recueillis via le RDS tant la probabilité que ce mode de recrutement favorise les personnes les mieux connectées est importante. Aussi, les auteurs conseillent de se baser sur la moyenne harmonique des degrés individuels de l’échantillon RDS – soit un type de moyenne qui permet de donner un appréciation plus lissée de la connectivité des individus interrogés. Pour l’ensemble des individus i de type A au sein de l’échantillon RDS n (c’est à dire les individus composant l’ensemble SA), ce « degré moyen » se calcule comme suit :

11DA désigne donc une approximation du degré moyen des individus A appartenant à la population visée.

12Si l’on désigne également par C l’approximation de la probabilité des liens inter-groupes calculé sur la base des recrutements opérés durant la procédure RDS, à partir de l’équation (2), on obtient donc l’équation 4 suivante :

13PARDS I désigne une approximation de la proportion d’individus A au sein de la population visées obtenue via un estimateur de type « RDS I ».

14L’un des principaux problèmes que soulève cet estimateur est la nature relativement irréaliste des hypothèses sur lesquelles il se base. D’un point de vue analytique, pour que la valeur de PARDS I corresponde à la « vraie » estimation de A, on suppose i) que le recrutement est fait avec remplacement ; ii) que le réseau que forme la population visée est à une seule composante ; iii) que les recruteurs choisissent aléatoirement leurs recrutés ; iv) que les recruteurs ne recrutent qu’une personne à la fois ; v) que les recruteurs sont à même de donner avec précision l’étendue de leurs réseaux personnels ; vi) que les liens signalés par les individus soient réciproques. Si les estimateurs formalisés par la suite ont permis de s’affranchir de certaines de ces hypothèses de base comme nous le verrons (notamment celle du recrutement avec remplacement), pour la majeure partie d’entre elles, elles conditionnent également leurs validité.

15Les autres problèmes que pose ce premier estimateur sont d’ordre plus pratique. Par exemple, dès lors qu’il s’agit de calculer des estimations pour une variable à plus de deux modalités, les calculs deviennent très vite compliqués. Ensuite, l’estimateur « RDS I » fonctionne uniquement pour des variables catégorielles. Et enfin, il ne permet pas – ou au risque de calculs et de conjectures assez complexes – de calculer une variance et un écart de confiance.

3. Pondérer à partir des probabilités d’inclusion : l’estimateur RDS II

16Ces importantes limitations ont poussé D. Heckathorn et ses collaborateurs à approfondir l’outillage statistique du RDS. Dans un article de 2008 (Volz & Heckathorn, 2008) est ainsi formalisé un deuxième type d’estimateur, l’estimateur RDS II, qui a permis de dépasser certains des problèmes posé par son prédécesseur et qui est aujourd’hui l’estimateur le plus souvent utilisé dans les études mobilisant une méthodologie de type RDS.

17La stratégie empruntée ici est radicalement différente. L’idée n’est pas de tenter de reconstituer la structure du réseau complet de la population visée mais de repartir de l’hypothèse que l’échantillon recruté par RDS est un échantillon potentiellement non biaisé, ou, plus précisément, qu’on pourrait « redresser » grâce à certaines techniques statistiques spécifiques issues de la théorie des sondages – et notamment les travaux de Morris Hansen et Thomas Hurwitz (1943). Nous ne détaillerons pas ici tout le processus suivi par E. Volz et D. Heckathorn dans leur article. Nous nous conterons de dire qu’à partir de l’estimateur « Hansen-Hurvitz » – généralement utilisé pour calculer la taille des différentes composantes d’une population finie au moyen d’un plan de sondage avec remise – les deux auteurs déduisent que l’on peut, sous certaines conditions, considérer que la proportion d’une sous-population d’individus i présentant le caractère A (regroupés au sein d’un ensemble SA) peut être calculée comme suit :

18PARDS II représente la valeur de l’estimation de la proportion des individus A calculé grâce à l’estimateur RDS II, S représente l’ensemble de tous les individus i de la population ciblée par l’enquête et di représente l’estimation du degré moyen des individus i au sein de l’ensemble considéré, calculé à partir du même principe que l’équation (3).

19De manière à favoriser une lecture plus intuitive de la manière dont fonctionne cet estimateur, on peut opérer quelques simplifications sur l’équation (4) pour obtenir l’équation suivante (Volz & Heckathorn, 2008) :

20n représente la taille de l’échantillon recruté par RDS, nA le nombre d’individus présentant le caractère A au sein de cet échantillon, d représente le degrés moyen au sein de l’échantillon n et dA le degré moyen des individus appartenant à nA. Dans l’équation (5), on voit donc clairement qu’il s’agit ici d’opérer une pondération sur les estimations tirées des données brutes (nA/n) grâce à un indicateur d’inclusion potentielle des catégories d’individus A établi grâce aux données réseaux (d/dA).

21Cet estimateur, beaucoup plus simple à calculer que le précédant, présente l’avantage d’être adapté à tout type de variable (catégorielles à plus de deux modalités et continues). Grâce aux travaux de M. Hansen et W. Hurwits, il permet également de calculer une variance, bien que celle-ci s’avère souvent assez approximative (Goel & Salganik, 2010). Pour le détail des calculs de cette variance, nous renvoyons à l’article original (Volz & Heckathorn, 2008, pp. 89-91).

22Néanmoins, la validité analytique de cet estimateur repose sur les mêmes hypothèses que l’estimateur RDS I quand à la structure du réseau de la population cible et au comportement des graines et de leurs germes. Les études comparatives menées sur la base simulation montrent néanmoins que les estimations produites par l’estimateur RDS II sont largement plus robuste au non respects de ces différentes hypothèses que celles calculées via l’estimateur RDS I (Lu et al., 2012 ; Tomas & Gile, 2011 ; Volz & Heckathorn, 2008 ; Wilhelm, 2014).

4. Prendre en compte le non-remplacement : l’estimateur RDS SS

  • 1 Une fonction permettant de le calculer est néanmoins disponible dans le package RDS de R (Handcock (...)

23Basé sur les travaux de Krista Gile (Gile, 2011 ; Gile & Handcock, 2010), ce dernier estimateur est assez récent et encore peu utilisé dans les recherches1. Parce qu’il pointe une limite essentielle de l’estimateur RDS II il nous a néanmoins semblé intéressant de l’utiliser dans notre article et donc de le présenter ici.

24La critique principale formulée par K. Gile à l’encontre des travaux de E. Volz et D. Heckathorn est relativement simple à comprendre. En fonctionnant comme si la taille de la population finale visée par l’enquête était infinie (parce que fonctionnant sous la condition que l’échantillonnage est avec remise), l’estimateur « RDS II » peut amener à donner des estimations trop élevées, surtout dans les cas où la taille de l’échantillon est importante ou dans les cas où la population visée est très petite.

25Pour contre-balancer cette tendance, K. Gile propose ainsi d’inclure dans le calcul de l’estimateur une fonction de l’approximation de la taille de la population ciblée et de la probabilité d’inclusion des individus échantillonné au relativement au moment où ils sont recruté. En effet, si on se situe dans le cadre d’un échantillonnage sans remplacement au sein d’une population de taille finie, un individu recruté lors de la première vague a des probabilité de recrutement plus faible qu’un individu recruté en vague huit ou neuf. C’est cette donnée que permet de prendre en compte l’estimateur formalisé par K. Gile. Parce qu’il amène à considérer le recrutement RDS comme une suite d’échantillonnage successif, ce dernier estimateur est appelé RDS SS pour « successive-sampling ». Il se calcul comme suit :

26PARDS SS représente la valeur de l’estimation de la proportion des individus A calculé grâce à l’estimateur RDS SS et où πi représente une constante calculée grâce à l’algorithme mis au point par K. Gile, prenant en compte donc la taille de l’échantillon, la taille probable de la population et les probabilités d’inclusion de l’individu i étant donné l’étape du processus de sampling à laquelle il a été recruté – pour plus de détail, nous renvoyons à son article (Gile, 2011). En comparant les équation (6) et (4), on voit assez clairement ici que l’estimateur RDS SS reprend dans les grandes lignes les fondement de l’estimateur RDS II, en ajustant donc la pondération au regard des probabilités de recrutement des individus au moment de leur recrutement dans le cadre d’un échantillonnage avec remise.

  • 2 Un package R dédié à ce type de calcul a été également développé (Handcock & Gile, 2015).

27Cet indicateur permet de garantir que l’hypothèse du non-remplacement est vérifiée. Il est néanmoins dépendant des autres hypothèses que sous-tend la validité des estimateurs RDS I et RDS II. L’autre problème important est que son calcul nécessite de disposer d’une estimation de la taille de la population cible – par nature difficilement accessible dès lors que l’on s’intéresse à des populations « cachées ». Ce problème a été partiellement résolu grâce à certains outils récemment mis au point permettant d’estimer la taille des populations à partir de données RDS (Handcock et al., 2014)2 ou lorsque l’on dispose de données plus complète sur le réseau des personnes recrutées (Dombrowski et al., 2012). Les simulations menées par K. Gile dans son article originel indiquent par ailleurs que cette estimation n’a pas besoin d’être très précise, et qu’il s’agit davantage de donner un ordre de grandeur. Et ces mêmes simulations montrent une robustesse plus importante de ce dernier estimateur au regard des deux autres, en particulier dans les situations où l’homophilie est élevée au sein de la population cible.

Haut de page

Bibliographie

Dombrowski K. Khan B. Wendel T. McLean K. Misshula E. & Curtis R. (2012), « Estimating the Size of the Methamphetamine-Using Population in New York City Using Network Sampling Techniques », Advances in Applied Sociology, vol. 2, n° 4, pp. 245-252.

Gile K.J. (2011), « Improved Inference for Respondent-driven Sampling Data with Application to HIV Prevalence Estimation », Journal of the American Statistical Association, vol. 106, n° 493, pp. 135-146.

Gile K.J. & Handcock M.S. (2010), « Respondent-driven Sampling: An Assessment of Current Methodology », Sociological Methodology, vol. 40, n° 1, pp. 285-327.

Goel S. & Salganik M.J. (2010), « Assessing Respondent-driven Sampling », Proceedings of the National Academy of Sciences, vol. 107, n° 15, pp. 6743-6747.

Handcock M.S., Fellows I. & Gile K. (2016), RDS: Respondent-Driven Sampling, Los Angeles, CA, CRAN.

Handcock M.S. & Gile K.J. (2015), sspse: Estimating Hidden Population Size using Respondent Driven Sampling Data, Los Angeles, CA, CRAN.

Handcock M.S., Gile K.J. & Mar C.M. (2014), « Estimating Hidden Population Size Using Respondent-driven Sampling Data », Electronic Journal of statistics, vol. 8, n° 1, pp. 1491-1521.

Hansen M.H. & Hurwitz W.N. (1943), « On the Theory of Sampling from Finite Populations », The Annals of Mathematical Statistics, vol. 14, n° 4, pp. 333-362.

Heckathorn D.D. (1997), « Respondent-driven Sampling: A New Approach to the Study of Hidden Populations », Social Problems, vol. 44, n° 2, pp. 174-199.

Heckathorn D.D. (2002), « Respondent-driven Sampling II: Deriving Valid Population Estimates from Chain-referral Samples of Hidden Populations », Social Problems, vol. 49, n° 1, pp. 11-34.

Lu X., Bengtsson L., Britton T., Camitz M., Kim B.J., Thorson A. & Liljeros F. (2012), « The Sensitivity of Respondent-driven Sampling », Journal of the Royal Statistical Society: Series A (Statistics in Society), vol. 175, n° 1, pp. 191-216.

Salganik M.J. & Heckathorn D.D. (2004), « Sampling and Estimation in Hidden Populations Using Respondent Driven Sampling », Sociological Methodology, vol. 34, n° 1, pp. 193-240.

Tomas A. & Gile K.J. (2011), « The Effect of Differential Recruitment, Non-response and Non-recruitment on Estimators for Respondent-driven Sampling », Electronic Journal of Statistics, vol. 5, pp. 899-934.

Volz E. & Heckathorn D.D. (2008), « Probability Based Estimation Theory for Respondent Driven Sampling », Journal of Official Statistics, vol. 24, n° 1, pp. 79-97.

Wilhelm M. (2014), « Échantillonnage boule de neige : La méthode de sondage déterminé par les répondants », Rapport de méthodes, Neuchâtel, Office fédérale de la statistique.

Haut de page

Notes

1 Une fonction permettant de le calculer est néanmoins disponible dans le package RDS de R (Handcock et al., 2016).

2 Un package R dédié à ce type de calcul a été également développé (Handcock & Gile, 2015).

Haut de page

Table des illustrations

Titre Équation 1
URL http://0-journals-openedition-org.catalogue.libraries.london.ac.uk/sociologie/docannexe/image/3342/img-1.png
Fichier image/png, 6,8k
Titre Figure 1 : Réseau social fictif
Légende Lecture : Exemple d’un réseau reliant deux types d’individus (les « ronds » et les « triangles », figurés par la forme des nœuds). Les liens entre individus appartenant à deux types différents sont figurés en trait plein, les liens entre individus du même type étant en pointillés.
URL http://0-journals-openedition-org.catalogue.libraries.london.ac.uk/sociologie/docannexe/image/3342/img-2.png
Fichier image/png, 39k
Titre Équation 2
URL http://0-journals-openedition-org.catalogue.libraries.london.ac.uk/sociologie/docannexe/image/3342/img-3.png
Fichier image/png, 8,8k
Titre Équation 3
URL http://0-journals-openedition-org.catalogue.libraries.london.ac.uk/sociologie/docannexe/image/3342/img-4.png
Fichier image/png, 7,1k
Titre Équation 4a
URL http://0-journals-openedition-org.catalogue.libraries.london.ac.uk/sociologie/docannexe/image/3342/img-5.png
Fichier image/png, 9,7k
Titre Équation 4b
URL http://0-journals-openedition-org.catalogue.libraries.london.ac.uk/sociologie/docannexe/image/3342/img-6.png
Fichier image/png, 11k
Titre Équation 5
URL http://0-journals-openedition-org.catalogue.libraries.london.ac.uk/sociologie/docannexe/image/3342/img-7.png
Fichier image/png, 10k
Titre Équation 6
URL http://0-journals-openedition-org.catalogue.libraries.london.ac.uk/sociologie/docannexe/image/3342/img-8.png
Fichier image/png, 14k
Haut de page

Pour citer cet article

Référence électronique

Pierre Bataille, Marc Perrenoud et Karen Brändle, « Annexe électronique de l’article « Échantillonner des populations rares. Une expérimentation du Respondent Driven Sampling en milieu musical » », Sociologie [En ligne], N° 2, vol. 9 |  2018, mis en ligne le 22 juillet 2018, consulté le 23 janvier 2025. URL : http://0-journals-openedition-org.catalogue.libraries.london.ac.uk/sociologie/3342

Haut de page

Auteurs

Pierre Bataille

Pierre.bataille@ulb.ac.be
Post‐doctorant FNS, sociologue, ULB - Centre METICES, Université Libre de Bruxelles, Institut de Sociologie, 44 avenue Jeanne, 1050 Bruxelles, Belgique

Articles du même auteur

Marc Perrenoud

Marc.Perrenoud@unil.ch
Maître d’enseignement et de recherche, sociologue, UNIL
LACCUS, UNIL, Quartier UNIL‐Mouline, Bâtiment Géopolis, 1015 Lausanne, Suisse

Articles du même auteur

Karen Brändle

karen.brandle@unil.ch
Doctorante, psychologue sociale, UNIL - LINES, UNIL, Quartier UNIL‐Mouline, Bâtiment Géopolis, 1015 Lausanne, Suisse

Haut de page

Droits d’auteur

Le texte et les autres éléments (illustrations, fichiers annexes importés), sont « Tous droits réservés », sauf mention contraire.

Haut de page

Rechercher dans OpenEdition Search

Vous allez être redirigé vers OpenEdition Search