Annexes de l’article « Les influenceurs de la Silicon Valley. Entreprendre, promouvoir et guider la révolution numérique »
Plan
Haut de pageTexte intégral
1En complément des analyses présentées dans l’article, nous avons souhaité mettre à la disposition des lecteurs un certain nombre de documents supplémentaires qui ne pouvaient pas être intégrés ou joints à sa version papier.
Annexe 1. Production des données Twitter
2L’extraction des données a eu lieu en juin 2017. Après avoir déterminé la liste des personnalités suivies et identifié leur nom d’usager sur Twitter, nous avons lancé pour chacun d’entre eux une série de requêtes GET statuses/user_timeline, chacune étant limitée à 3200 réponses, à l’API pour extraire leurs « statuts », c’est-à-dire leurs tweets, les messages envoyés par les usagers. Les retweets (circulation du message d’un autre usager) étaient inclus dans la demande, mais pas les reply (messages envoyés en réponse à un autre usager). Ces requêtes renvoient le texte des messages, ainsi qu’une série de métadonnées. La première requête demandait les 3200 statuts les plus récents, puis la requête n demandait les 3200 statuts plus anciens que le statut le plus ancien récolté par la requête n-1, jusqu’à ce que la répétition de cette boucle ne collecte plus de statuts nouveaux. A posteriori, les statuts antérieurs à 2013 ont été supprimés de la base. Le fonctionnement précis de l’API de Twitter demeure opaque, et nous ne pouvons avoir la certitude d’avoir aspiré exhaustivement la production des usagers de notre échantillon. Par exemple, la visualisation du nombre de messages par mois montre notamment une distribution asymétrique – les messages récents sont beaucoup plus nombreux. Il est possible que cela soit due à une croissance de l’utilisation du réseau, mais plus probable que l’API favorise les statuts les plus récents.
Annexe 2. Popularité
Annexe 3. Méthodologie de l’analyse lexicométrique
3L’analyse lexicométrique par topic model a été menée sur le corpus de tweets, à l’exclusion des retweets. Pour construire ce corpus, nous avons cherché à limiter l’effet des disparités d’intensité d’activité entre les influenceurs. En moyenne, les influenceurs de notre échantillon ont envoyé 1 340 messages durant la période d’extraction, mais la dispersion est élevée (écart-type de 742). En les incluant tous, les usagers les plus actifs auraient contribué jusqu’à 8 fois plus que les moins actifs à la détermination des thèmes (l’activité maximale est à 3 225 tweets), et trois fois plus en moyenne. Nous avons opté pour un corpus constitué d’un échantillon aléatoire de 370 tweets par influenceur. Avant de faire cette sélection, nous avons supprimé du corpus :
– Les messages en doublon, le plus souvent des retweets mal catégorisés dans nos données ;
– Les messages automatiques, produits par des applications, qui surdéterminaient les résultats des premières analyses (par exemple, les messages de la forme « My best RTs this week came from: ») ;
– Les messages dans des langues autres que l’anglais (environ 550 messages),
4Le corpus a été nettoyé pour les besoins de l’analyse lexicométrique, notamment en supprimant les signes et la syntaxe propre à Twitter (les signes dièse, mentions employées pour indexer les messages), ainsi que les liens url, qui font l’objet d’une analyse à part. Les nombres ainsi que certains stopwords (termes peu discriminants, mais présents en nombre dans le corpus) ont également été supprimés. Nous avons consolidé quelques-uns des noms propres et des expressions revenant très souvent dans le corpus (fusion de « Donald Trump », « Trump », « D. Trump »).
5Pour classifier les textes, nous avons recouru à un topic model, en employant la Latent Dirichlet Allocation proposée par David Blei (Blei D. M. & Lafferty J. D. (2009), « Topic models », in Srivastava A. N. & Sahami M. (dir.), Text Mining. Classification, Clustering and Applications, Boca Raton, Chapman and Hall, p. 71-94). Le tableau de donnée sur lequel portait l’analyse, une matrice terme-document (les tweets en ligne, les mots en colonne, et à l’intersection d’une ligne et d’une colonne le nombre d’occurence du mot dans le tweet) a été restreint aux mots apparaissant au moins 4 fois dans l’échantillon de tweets, afin d’accélerer l’analyse sans perdre d’information. Le paramètre K, le nombre de thèmes, a été fixé à 60 à partir de la convergence des indicateurs standards de robustesse du modèle (Griffiths T. & Steyvers M. (2004), « Finding scientific topics », Proceedings of the National Academy of Sciences, no 101, p. 5228-5235 ; Cao et al. (2009), « A density-based method for adaptive LDA model selection », Neurocomputing, vol. 72, no 7-9, p. 1775-1781 ; Arum et al., 2010), après avoir testé plusieurs modèles de 10 à 100 thèmes (nous avons employé le code de David Blei pour réaliser le modèle, à partir du package R topic models ; le diagnostic a été réalisé avec le package ldatuning). Une première analyse à 40 thèmes donnait des résultats très similaires à ceux présentés ici. Dans la mesure où il s’agissait de classifier des textes courts, de moins de 140 caractères, nous avons fixé α à 0,05, une valeur plus faible que celle habituellement recommandée (50/K, soit dans notre cas 0,83). De cette manière, nous indiquions au modèle que les documents classifiés étaient plus susceptibles d’appartenir à un seul thème plutôt que d’être constitué d’un mélange de plusieurs thèmes. Cette solution était également celle qui donnait les meilleurs résultats en termes de robustesse de l’analyse. De ce fait, la valeur moyenne de la probabilité a posteriori du thème dominant est de 0,36, soit une valeur bien supérieure à ce que l’on attendrait si ces thèmes étaient déterminés aléatoirement (1/60, soit 0,016).
6L’algorithme de Latent Dirichlet Allocation inclut une part d’aléatoire (les groupes sont d’abord définis aléatoirement, puis ajustés à chaque itération), de sorte que chaque implémentation produit des résultats différents. Nous avons interprété les résultats de plusieurs modèles, en faisant varier l’échantillon de tweets, le paramètre K, ou simplement la seed déterminant le départ aléatoire du modèle. Malgré des différences marginales, l’interprétation des différents modèles nous a toujours conduits à repérer les mêmes grandes thématiques, ce qui signale la robustesse du modèle.
7Pour valider le topic model, nous avons également veillé à étudier les associations privilégiées entre des thèmes et des personnes. En effet, le risque existe que, du fait de la particularité du vocabulaire de certains usagers, certains thèmes soient surdéterminés par eux. Les premières implémentations du modèle contenaient ainsi un thème dédié aux termes espagnol, lié à un seul influenceur hispanophone. Dans le modèle retenu, la plus forte contribution d’un usager à un thème est de 17,2% (la somme des probabilités postérieures d’association au thème des tweets de l’usager est égal à 17,2% de la somme des probabilités postérieures d’association au thème de tous les messages du corpus), pour l’association de l’usager LouA au thème 16 « Business : Human resources », lié au fort nombre de liens postés par cet usager vers son site, dédié à la question. Seules 8 associations thème-usager dépasse le seuil de 10%. Aucun thème n’est donc entièrement capturé par un seul usager. De même, quelques usagers voient leur production largement concentrée dans un thème. Le même LouA poste des messages consacrés en moyenne à 46,3% au même thème 16, mais il s’agit d’une exception. Seuls 10 autres usagers voient plus de 20% de leur production concentrée dans un thème.
Annexe 4. Analyse de sentiment
8Afin d’étudier le rapport à la critique dans le discours des influenceurs, nous avons procédé à une analyse de sentiment du corpus. Ce type d’analyse consiste à accorder une valence, positive ou négative, à certains termes, en fonction de leur sens. Nous avons employé le dictionnaire « Lexicoder Sentiment Dictionary » construit par Lori Young et Stuart Soroka pour l’analyse de textes médiatiques (Young L. & Soroka S. (2012), « Affective News: The Automated Coding of Sentiment in Political Texts », Political Communication, vol. 29, no 2, p. 205-231). Nous avons ainsi produit une métrique de valence d’un document, égale à la différence entre nombre de termes positifs et nombre de termes négatifs. Un tel outil d’analyse est évidemment grossier et demande, pour pouvoir être interprété, de revenir au corpus et de regarder les textes classés comme positifs ou négatifs.
Annexe 5. Élements d’interprétation du topic model
9L’interprétation d’un topic model consiste à donner un titre, ou plutôt un sujet, à chaque thème produit. Pour cela, nous avons employé deux méthodes. D’abord, nous examinons la distribution des termes dans les thèmes. Ensuite, pour interpréter les thèmes, nous examinons les documents les plus fortement associés à chaque thème.
10Nous présentons dans le fichier pdf joint la méthode utilisée et la liste détaillée des 60 thèmes avec leurs interprétations.
11Télécharger le fichier pdf : https://0-journals-openedition-org.catalogue.libraries.london.ac.uk/sociologie/9184
Documents annexes
-
Texte intégral disponible sur le portail Cairn (Lien externe)
-
Annexe 5. Élements d’interprétation du topic model (application/pdf – 475k)
Table des illustrations
Titre | Figure 1. Popularité (nombre d'abonnés) des influenceurs suivis |
---|---|
URL | http://0-journals-openedition-org.catalogue.libraries.london.ac.uk/sociologie/docannexe/image/8445/img-1.jpg |
Fichier | image/jpeg, 101k |
Titre | Figure 2. Valence des documents |
URL | http://0-journals-openedition-org.catalogue.libraries.london.ac.uk/sociologie/docannexe/image/8445/img-2.jpg |
Fichier | image/jpeg, 176k |
Titre | Figure 3. Valence moyenne des documents par usager |
URL | http://0-journals-openedition-org.catalogue.libraries.london.ac.uk/sociologie/docannexe/image/8445/img-3.png |
Fichier | image/png, 215k |
Pour citer cet article
Référence électronique
Olivier Alexandre et Samuel Coavoux, « Annexes de l’article « Les influenceurs de la Silicon Valley. Entreprendre, promouvoir et guider la révolution numérique » », Sociologie [En ligne], N° 2, vol. 12 | 2021, mis en ligne le 13 juillet 2021, consulté le 24 janvier 2025. URL : http://0-journals-openedition-org.catalogue.libraries.london.ac.uk/sociologie/8445
Haut de pageDroits d’auteur
Le texte et les autres éléments (illustrations, fichiers annexes importés), sont « Tous droits réservés », sauf mention contraire.
Haut de page