Navigation – Plan du site

AccueilNumérosN° 2, vol. 12EnquêtesLes influenceurs de la Silicon Valle(…)Annexes de l’article « Les influence(…)

Les influenceurs de la Silicon Valley

Annexes de l’article « Les influenceurs de la Silicon Valley. Entreprendre, promouvoir et guider la révolution numérique »

Olivier Alexandre et Samuel Coavoux

Texte intégral

1En complément des analyses présentées dans l’article, nous avons souhaité mettre à la disposition des lecteurs un certain nombre de documents supplémentaires qui ne pouvaient pas être intégrés ou joints à sa version papier.

Annexe 1. Production des données Twitter

2L’extraction des données a eu lieu en juin 2017. Après avoir déterminé la liste des personnalités suivies et identifié leur nom d’usager sur Twitter, nous avons lancé pour chacun d’entre eux une série de requêtes GET statuses/user_timeline, chacune étant limitée à 3200 réponses, à l’API pour extraire leurs « statuts », c’est-à-dire leurs tweets, les messages envoyés par les usagers. Les retweets (circulation du message d’un autre usager) étaient inclus dans la demande, mais pas les reply (messages envoyés en réponse à un autre usager). Ces requêtes renvoient le texte des messages, ainsi qu’une série de métadonnées. La première requête demandait les 3200 statuts les plus récents, puis la requête n demandait les 3200 statuts plus anciens que le statut le plus ancien récolté par la requête n-1, jusqu’à ce que la répétition de cette boucle ne collecte plus de statuts nouveaux. A posteriori, les statuts antérieurs à 2013 ont été supprimés de la base. Le fonctionnement précis de l’API de Twitter demeure opaque, et nous ne pouvons avoir la certitude d’avoir aspiré exhaustivement la production des usagers de notre échantillon. Par exemple, la visualisation du nombre de messages par mois montre notamment une distribution asymétrique – les messages récents sont beaucoup plus nombreux. Il est possible que cela soit due à une croissance de l’utilisation du réseau, mais plus probable que l’API favorise les statuts les plus récents.

Annexe 2. Popularité

Figure 1. Popularité (nombre d'abonnés) des influenceurs suivis

Figure 1. Popularité (nombre d'abonnés) des influenceurs suivis

Annexe 3. Méthodologie de l’analyse lexicométrique

3L’analyse lexicométrique par topic model a été menée sur le corpus de tweets, à l’exclusion des retweets. Pour construire ce corpus, nous avons cherché à limiter l’effet des disparités d’intensité d’activité entre les influenceurs. En moyenne, les influenceurs de notre échantillon ont envoyé 1 340 messages durant la période d’extraction, mais la dispersion est élevée (écart-type de 742). En les incluant tous, les usagers les plus actifs auraient contribué jusqu’à 8 fois plus que les moins actifs à la détermination des thèmes (l’activité maximale est à 3 225 tweets), et trois fois plus en moyenne. Nous avons opté pour un corpus constitué d’un échantillon aléatoire de 370 tweets par influenceur. Avant de faire cette sélection, nous avons supprimé du corpus :

– Les messages en doublon, le plus souvent des retweets mal catégorisés dans nos données ;
– Les messages automatiques, produits par des applications, qui surdéterminaient les résultats des premières analyses (par exemple, les messages de la forme « My best RTs this week came from: ») ;
– Les messages dans des langues autres que l’anglais (environ 550 messages),

4Le corpus a été nettoyé pour les besoins de l’analyse lexicométrique, notamment en supprimant les signes et la syntaxe propre à Twitter (les signes dièse, mentions employées pour indexer les messages), ainsi que les liens url, qui font l’objet d’une analyse à part. Les nombres ainsi que certains stopwords (termes peu discriminants, mais présents en nombre dans le corpus) ont également été supprimés. Nous avons consolidé quelques-uns des noms propres et des expressions revenant très souvent dans le corpus (fusion de « Donald Trump », « Trump », « D. Trump »).

5Pour classifier les textes, nous avons recouru à un topic model, en employant la Latent Dirichlet Allocation proposée par David Blei (Blei D. M. & Lafferty J. D. (2009), « Topic models », in Srivastava A. N. & Sahami M. (dir.), Text Mining. Classification, Clustering and Applications, Boca Raton, Chapman and Hall, p. 71-94). Le tableau de donnée sur lequel portait l’analyse, une matrice terme-document (les tweets en ligne, les mots en colonne, et à l’intersection d’une ligne et d’une colonne le nombre d’occurence du mot dans le tweet) a été restreint aux mots apparaissant au moins 4 fois dans l’échantillon de tweets, afin d’accélerer l’analyse sans perdre d’information. Le paramètre K, le nombre de thèmes, a été fixé à 60 à partir de la convergence des indicateurs standards de robustesse du modèle (Griffiths T. & Steyvers M. (2004), « Finding scientific topics », Proceedings of the National Academy of Sciences, no 101, p. 5228-5235 ; Cao et al. (2009), « A density-based method for adaptive LDA model selection », Neurocomputing, vol. 72, no 7-9, p. 1775-1781 ; Arum et al., 2010), après avoir testé plusieurs modèles de 10 à 100 thèmes (nous avons employé le code de David Blei pour réaliser le modèle, à partir du package R topic models ; le diagnostic a été réalisé avec le package ldatuning). Une première analyse à 40 thèmes donnait des résultats très similaires à ceux présentés ici. Dans la mesure où il s’agissait de classifier des textes courts, de moins de 140 caractères, nous avons fixé α à 0,05, une valeur plus faible que celle habituellement recommandée (50/K, soit dans notre cas 0,83). De cette manière, nous indiquions au modèle que les documents classifiés étaient plus susceptibles d’appartenir à un seul thème plutôt que d’être constitué d’un mélange de plusieurs thèmes. Cette solution était également celle qui donnait les meilleurs résultats en termes de robustesse de l’analyse. De ce fait, la valeur moyenne de la probabilité a posteriori du thème dominant est de 0,36, soit une valeur bien supérieure à ce que l’on attendrait si ces thèmes étaient déterminés aléatoirement (1/60, soit 0,016).

6L’algorithme de Latent Dirichlet Allocation inclut une part d’aléatoire (les groupes sont d’abord définis aléatoirement, puis ajustés à chaque itération), de sorte que chaque implémentation produit des résultats différents. Nous avons interprété les résultats de plusieurs modèles, en faisant varier l’échantillon de tweets, le paramètre K, ou simplement la seed déterminant le départ aléatoire du modèle. Malgré des différences marginales, l’interprétation des différents modèles nous a toujours conduits à repérer les mêmes grandes thématiques, ce qui signale la robustesse du modèle.

7Pour valider le topic model, nous avons également veillé à étudier les associations privilégiées entre des thèmes et des personnes. En effet, le risque existe que, du fait de la particularité du vocabulaire de certains usagers, certains thèmes soient surdéterminés par eux. Les premières implémentations du modèle contenaient ainsi un thème dédié aux termes espagnol, lié à un seul influenceur hispanophone. Dans le modèle retenu, la plus forte contribution d’un usager à un thème est de 17,2% (la somme des probabilités postérieures d’association au thème des tweets de l’usager est égal à 17,2% de la somme des probabilités postérieures d’association au thème de tous les messages du corpus), pour l’association de l’usager LouA au thème 16 « Business : Human resources », lié au fort nombre de liens postés par cet usager vers son site, dédié à la question. Seules 8 associations thème-usager dépasse le seuil de 10%. Aucun thème n’est donc entièrement capturé par un seul usager. De même, quelques usagers voient leur production largement concentrée dans un thème. Le même LouA poste des messages consacrés en moyenne à 46,3% au même thème 16, mais il s’agit d’une exception. Seuls 10 autres usagers voient plus de 20% de leur production concentrée dans un thème.

Annexe 4. Analyse de sentiment

8Afin d’étudier le rapport à la critique dans le discours des influenceurs, nous avons procédé à une analyse de sentiment du corpus. Ce type d’analyse consiste à accorder une valence, positive ou négative, à certains termes, en fonction de leur sens. Nous avons employé le dictionnaire « Lexicoder Sentiment Dictionary » construit par Lori Young et Stuart Soroka pour l’analyse de textes médiatiques (Young L. & Soroka S. (2012), « Affective News: The Automated Coding of Sentiment in Political Texts », Political Communication, vol. 29, no 2, p. 205-231). Nous avons ainsi produit une métrique de valence d’un document, égale à la différence entre nombre de termes positifs et nombre de termes négatifs. Un tel outil d’analyse est évidemment grossier et demande, pour pouvoir être interprété, de revenir au corpus et de regarder les textes classés comme positifs ou négatifs.

Figure 2. Valence des documents

Figure 2. Valence des documents

Figure 3. Valence moyenne des documents par usager

Figure 3. Valence moyenne des documents par usager

Annexe 5. Élements d’interprétation du topic model

9L’interprétation d’un topic model consiste à donner un titre, ou plutôt un sujet, à chaque thème produit. Pour cela, nous avons employé deux méthodes. D’abord, nous examinons la distribution des termes dans les thèmes. Ensuite, pour interpréter les thèmes, nous examinons les documents les plus fortement associés à chaque thème.

10Nous présentons dans le fichier pdf joint la méthode utilisée et la liste détaillée des 60 thèmes avec leurs interprétations.

11Télécharger le fichier pdf : https://0-journals-openedition-org.catalogue.libraries.london.ac.uk/​sociologie/​9184

Haut de page

Table des illustrations

Titre Figure 1. Popularité (nombre d'abonnés) des influenceurs suivis
URL http://0-journals-openedition-org.catalogue.libraries.london.ac.uk/sociologie/docannexe/image/8445/img-1.jpg
Fichier image/jpeg, 101k
Titre Figure 2. Valence des documents
URL http://0-journals-openedition-org.catalogue.libraries.london.ac.uk/sociologie/docannexe/image/8445/img-2.jpg
Fichier image/jpeg, 176k
Titre Figure 3. Valence moyenne des documents par usager
URL http://0-journals-openedition-org.catalogue.libraries.london.ac.uk/sociologie/docannexe/image/8445/img-3.png
Fichier image/png, 215k
Haut de page

Pour citer cet article

Référence électronique

Olivier Alexandre et Samuel Coavoux, « Annexes de l’article « Les influenceurs de la Silicon Valley. Entreprendre, promouvoir et guider la révolution numérique » », Sociologie [En ligne], N° 2, vol. 12 |  2021, mis en ligne le 13 juillet 2021, consulté le 24 janvier 2025. URL : http://0-journals-openedition-org.catalogue.libraries.london.ac.uk/sociologie/8445

Haut de page

Auteurs

Olivier Alexandre

olivier.alexandre@cnrs.fr
Chargé de recherche, sociologie, CNRS/Centre Internet et Société, 59/61 rue Pouchet, 75849 Paris cedex 17, France

Articles du même auteur

Samuel Coavoux

samuel.coavoux@orange.com
Chercheur, sociologie, Orange Labs/sense-Cerlis - Orange Labs/sense, 40 avenue de la République, CS 50010, 92326 Châtillon cedex, France

Articles du même auteur

Haut de page

Droits d’auteur

Le texte et les autres éléments (illustrations, fichiers annexes importés), sont « Tous droits réservés », sauf mention contraire.

Haut de page

Rechercher dans OpenEdition Search

Vous allez être redirigé vers OpenEdition Search