Update 25 avril 2023 : le site est fermé jusqu'à ce qu'il soit ouvert de nouveau.
Cliquez sur l'image suivante pour afficher la map HD :
Un chouïa de délai s'est passé depuis la dernière analyse, mais voici Canard PC Analytics, un site qui permet d'avoir quelques stats sur les canards !
Recherchez un canard en haut à droite, et cliquez sur son pseudo pour afficher les stats.
Exemple d'une page :
Données
Les données ont été extraites selon la méthode suivante : dans chaque section (sauf celles exclues), récupération de tous les sujet dans lesquels il y a eu au moins un message dans l'année précédente. Puis, dans tous les messages de ces topics, récupérer les données des messages qui ont été postés après le 1er janvier 2020. On a donc 3 ans de données sur plusieurs sections du forum (entre autres : Jeux vidéos sur PC, Jeux Online, Canard Café). Tout le scraping a été fait "manuellement", dans le sens qu'un bot a parcouru le forum comme un utilisateur pour lire les pages, sans avoir accès à la base de données source du forum. Les données sont donc toutes publiques, et il y a la liste des sujets extraits sur le site ("Corpus" dans le footer).
Graph
Le graph à l'accueil (passez votre souris dessus pour zoomer !) a été généré en fonction du nombre de quotes. L'idée était de voir quels étaient les canards les plus "influents". Les données sont pondérées, donc par exemple, si Bah, qui a un poids fort dans le graph, quote beaucoup LeLiquid, le poids de celui-ci va augmenter plus que si Awake le quotait.
Open Source
Ce projet est open source, le code peut être récupéré sur github (voir liens sur le site). En revanche, le "scraping" (les données brutes récupérées sur le forum) ne sont pas publiques, car je ne crois pas que la rédac veuille voir 10.5Go de copie de leur forum en liberté.
La suite
Il y a moyen de faire beaucoup plus de statistiques avec toutes les infos récupérées, mais j'ai fait ce projet pour me former à de nouvelles technologies et c'est maintenant chose faite, il n'est pas vraiment prévu de faire évoluer le site.
Questions/Réponses
Envoyé par
LeLiquid
C'est marrant ! A quoi correspondent les codes couleurs ? Juste un moyen de dégager plus facilement des groupes ?
Ouais, il s'agit de ceci : https://fr.m.wikipedia.org/wiki/Modu...(r%C3%A9seaux)
Les groupes sont calculés automatiquement, et leur sens reste ouvert à l'interprétation.
- - - Mise à jour - - -
Envoyé par
Ze Venerable
C'est bien qu'il y ait des couleurs par sous-communautés. Par contre pourquoi il a placé Poseidon 8500 en bas à gauche alors qu'il n'est pas en relation avec les autres canards à proximité autour de lui (comme l'indique sa couleur différente) ?
Il est possible qu'il soit associé à une communauté, mais avec un comportement assez éloigné du gros de cette communauté, par exemple en citant des "étrangers". Auquel cas il est moins proche du centre de sa communauté.
Envoyé par
Ruvon
Comment est déterminé le "sentiment" positif, négatif, neutre ?
Via cet algo : https://naturalnode.github.io/natura..._analysis.html et un corpus francais. Tous les messages ne sont pas analysés (ça serait trop long), mais un extrait de 1000 phrases aléatoires par canard. Ça devrait suffire pour faire ressortir les grandes tendances.
Envoyé par
Arthropode
Comment fonctionne la sélection des tags ? L'un de mes principaux est « parapluie », je me demande bien dans quel contexte est-ce que j'ai pu utiliser ce mot
C'est la technique tf-idf : https://fr.m.wikipedia.org/wiki/TF-IDF
En gros ce ne sont pas les mots clés que tu utilises le plus, mais ceux qui te demarquent le plus des autres canards.
================
Anciens messages :
Chère bande de canards,
J'ai attaqué récemment des cours sur l'analyse des réseaux et en cherchant des networks sur lesquels m’entraîner, j'ai remarqué que la communauté CPC pouvais former un réseau via le système d'amis du forum.
J'ai donc récupéré les profils des membres ayant plus de 3000 messages, avec au moins un ami et ayant posté durant l'année 2013.
Je m'attendais à ce que le réseau soit passionnant avec plein de sous-communautés et des groupes bien distincts . Mais non, vous êtes une grosse bande de coupains bien connectés. Se serai presque beau si ce n'était pas aussi chiant.
Sans plus attendre le graph résultant (clic pour zoomer) :
http://i.imgur.com/loDF565.jpg
b0b0 et Ragondin sont donc les deux canards les plus influents du forum. Bravo à eux.
Vous remarquerez tout de même que si il n'y a qu'un seul gros cluster, les canards sont répartis en fonction de leurs amitiés, on peut observer un regroupement de canards qui semble d'anciens de la mare en bas à gauche au centre à droite [source] ou encore des joueurs de TF2 en haut à gauche. Et que kayl257 mange à tout les râteliers .
Au fur et à mesure que les cours avanceront il y aura surement d'autres analyses idiotes à faire sur les canards. Je les posterais sur ce fil.
Update 1, 12/10/2013
Voici un autre graph, avec une fonction de topologie différente (les plus connectés vers le centre), toujours connectés via les amis, mais avec la taille des nodes en fonction du nombre total de messages postés.
On voit clairement que ceux qui n'ont aucun ami ne sont pas ceux qui postent le plus. En dehors de quelques exceptions (Maalak, Bouyi, FanDeBouvard, ...), les gros posteurs sont connectés au cluster d'amis. Intéressant aussi de noter que Cacao, le plus gros posteur du forum, est au centre du cluster d'amis !
Encore un autre vite fait. Même organisation, mais avec le nombre de mots doux laissés sur le mur de l'utilisateur à la place du nombre de messages postés.
Et c'est dingue, on voit que Kayl est à la fois pile au centre du cluster d'amis et aussi celui qui a le plus de messages sur son wall. Comme quoi tu avais raison Kayl, tu est Amour. Et suivi de près par b0b0, Angelina et le faucheur. Le reste du graph n'est pas très intéressant, les différences sont trop extrêmes pour voir les variations (il faudrait trimer mais là j'ai la flemme).
Update 2, 13/10/2013
Les critères de sélection : + de 1000 messages postés, ayant posté depuis début octobre et avec au moins quelqu'un qui correspond à ces critères ayant laissé un message sur le wall en 2013.
La taille des traits (edge) représente le nombre de messages laissé sur le wall.
Les couleurs représentent une segmentation pour mieux percevoir les sous-communautés.
La taille du texte est calculé avec l'algorithme pagerank (oui comme aux débuts de google), c'est à dire que les canards affichés en plus grands sont les plus importants du réseau. Pas seulement parce qu'ils ont beaucoup de messages sur les wall et beaucoup de personnes différentes qui leur parlent mais parce qu'ils sont placés à des endroits stratégiques du network. Par exemple Angelina utilise beaucoup les walls mais n'a pas les connexions nécessaires pour être "important". (je dis pas qu'Angelina n'est pas important dans la vraie vie hein, c'est surement quelqu'un de délicieux, juste pour le graph)
Dernier point le graph est dirigé, c'est à dire que les connexions ne sont pas bidirectionnelles, par exemple les deux lignes entre Akajouman et Kayl257 veulent dire que les deux se parlent beaucoup. En revanche entre Maderone et Lee Tchii (bas gauche), l'un laisse plus de messages que l'autre.
Willy la Lope a la place la plus importante du graph, alors qu'il ne semble pas être particulièrement populaire sur le forum. Pour comprendre il faut piger que l'algo pagerank donne plus de poids à ceux qui sont le mieux connectés (à ceux qui ont le plus de connexions à ceux qui ont le plus de connexions etc.). Être connecté aux bonnes personnes est aussi important que d'avoir beaucoup de connexions. Willy semble donner beaucoup d'importance à souhaiter de bons anniversaires aux membres populaires du forum. Il est donc a la fois connecté à beaucoup de personnes, et à des personnes "importantes" (en terme de connexion). Willy est donc le plus important. C'est là qu'on se rend compte de l'importance d'avoir un contexte pour comprendre le graph, à première vue on pourrai se dire que Willy la Lope est THE personne à qui parler pour être introduit à la communauté alors que la plupart de ses conversations se résument à "Joyeux anniversaire" "Merci"..
Sinon est-ce que le graph est plus représentatif que celui des amis.. difficile à dire. Certains gros posteurs comme Nirm sont placés de manière plus cohérente alors que d'autres (comme Chapaf) ne le sont pas. Peut-être qu'il faudrait combiner les informations "amis" et "mur" pour avoir une meilleur vue d'ensemble.
Je laisse les pros qui connaissent très bien les membres forum voir si les sous-réseaux colorés sont cohérents (par exemple le réseau Wobak - Septa - Medjes - Dyce ... ils se connaissent ? ont des intérêts communs ? sont-il en pacs polyamour ? etc.)
Update 3, 18/10/2013
Voici donc comme prévu l'analyse du topic des questions de sa création jusqu'au 18/10/2013 à 20h.
Premier graph : les canards les plus quotés.
Il s'agit d'un graph dirigé. On peut voir qu'une petite dizaine de canards sont nettement plus quotés que les autres, et aussi qu'ils s'entre-quotent (miam) à grande échelle - par exemple le couple Julizn <-> Pelomar. Il n'y a aussi pas de sous-communautés, les canards suivent tous la même discussion sans créer de conversations annexes qui ne seraient suivies que par un sous-groupe. Comme pour les amis à l'échelle de tout le forum, les canards sont plutôt soudés.
Second graph : les canards qui postent le plus
Sur cette topologie de graph les canards les plus quotés sont au centre. Pas grand chose à analyser sur celui-ci, à part qu'une dizaine de canards postent beaucoup plus que les autres. Il y a aussi une corrélation entre le nombre de fois qu'un canard est quoté et le nombre de messages qu'il poste. Mais ce graph prend tout son intérêt quand on le compare au..
Troisième graph : les canards qui postent le mieux
http://i.imgur.com/lKBv0N9.jpg
Ce graph utilise la même fonction de topologie que le second et le calcul des "meilleurs" messages est en fait le nombre moyen de mots par post. Non, il ne s'agit pas de la meilleurs manière de détécter si un message est interessant. Pour ça il faudrais traiter manuellement les messages et qu'un humain indique l'interêt de chacun (et encore quand on voit le résultat sur reddit on peut se poser des questions..).
Bref on voit qu'aucun des canards les plus quotés ne fait parti des "meilleurs" posteurs et qu'au contraire les posteurs de qualités sont plutôt en périphérie du centre. De là à dire que les canards se savent pas reconnaître les bons des mauvais messages et ont plus tendance à suivre le flux de posts rapide et simple qu'à s'attacher aux messages de qualité, il n'y a qu'un pas que je ne franchirais pas.
Pour finir sur l'analyse, quelques statistiques :
Code:
Nombre de messages postés : 7758
Nombre de canards participant : 363
Nombre de mots écrits : 213359
Nombre de messages quotés : 3802
Canards postant le plus de messages : Mdt (220), Anton (206), Pelomar (203), Ithilsul (199), Eradan (197)
Canards postant le plus de mots : Ithilsul (6122), Tomaka17 (5935), MrBeaner (5582), Altyki (5327), t4nk (4795)
Canards avec la moyenne de mots/message la plus élevée (min. 2 messages) : Kwikipedia (235.75), Deblazkez (112), malmoutt3 (100.47368421052632), Kamikaze (83.5), oui (81)
Canards les plus quotés : Pelomar (143), Mdt (128), kilfou (120), Anton (99), Ithilsul (85)
Canards quotant le plus : Pelomar (139), Ithilsul (130), Frypolar (102), smokytoks (100), Julizn (97)
On vois juste que si Mdt se fait beaucoup quoté, il ne quote pas beaucoup (tu te ferai allumé sur skyblog à pas rendre les coms' !).
Voila pour l'analyse.
Sinon j'ai automatisé le process pour scraper/faire les stats/générer les fichiers de graph, donc si vous voulez des analyses sur d'autres topics n'hésitez pas à proposer (je pourrais pas en faire 200 non plus mais si un topic est particulièrement demandé je m'en occuperais). Sinon il est aussi possible de combiner les données de plusieurs topics, je pense que se serai assez intéressant de voir ce que donne les graphs sur par exemple "tous les topics de jeu de bagnol de 2012-2013", voir si là aussi on a quelque chose d'uniforme ou si des sous-communautés émergent.
Update 4, 19/10/2013
Et voici l'analyse des topics proposés.
L'affectation d'un topic à un canard est décidé en fonction du plus fort ratio (nombre messages postés sur le topic divisé par le nombre de pages du topic). Les variations de taille représentent le nombre de messages postés. Les connexions sont réalités à partir des quotes.
http://i.imgur.com/tSXXTSA.jpg
Encore une fois un seul gros cluster, ça commence à devenir ennuyeux . Par contre les communautés générés par les topics respectent bien la topologie des quotes, c'est cool (sinon y'aurai juste un gros bordel multicolore).
Sinon l'analyse est assez simple. Intéressant de voir que le cluster GCDJ et LDJ sont très peu dissociés à droite avec une progression vers le BMDJ vers le bas. Mes condoléances à ceux qui se trouvent dans les deux premiers et je pense qu'on peut fusionner ces deux topics et renommer en "Le topic de ceux qui se plaignent" ?
Intéressant aussi de voir que le cluster du topic de l'actu est celui qui partage le plus de frontières avec les autres. Signe d'une population variée et donc plus prompt à se mettre sur la gueule (tout s'explique !).
Update 5, 20/10/2013
Analyse des smileys
Je laisse nos collègues psychologues nous donnons la signification de l'utilisation massive de , et .
Update 6, 27/10/2013
http://i.imgur.com/ffrwELB.jpg
Analyse complète du topic des montres.
Update 7, 09/11/2013
Analyse de certains gros topics jeu vidéo.
http://forum.canardpc.com/threads/83...=1#post7202570