Un chouïa de délai s'est passé depuis la dernière analyse, mais voici
Canard PC Analytics, un site qui permet d'avoir quelques stats sur les canards !
Recherchez un canard en haut à droite, et cliquez sur son pseudo pour afficher les stats.
Exemple d'une page :
Données
Les données ont été extraites selon la méthode suivante : dans chaque section (sauf celles exclues), récupération de tous les sujet dans lesquels il y a eu au moins un message dans l'année précédente. Puis, dans tous les messages de ces topics, récupérer les données des messages qui ont été postés après le 1er janvier 2020. On a donc 3 ans de données sur plusieurs sections du forum (entre autres : Jeux vidéos sur PC, Jeux Online, Canard Café). Tout le scraping a été fait "manuellement", dans le sens qu'un bot a parcouru le forum comme un utilisateur pour lire les pages, sans avoir accès à la base de données source du forum. Les données sont donc toutes publiques, et il y a la liste des sujets extraits sur le site ("Corpus" dans le footer).
Graph
Le graph à l'accueil (passez votre souris dessus pour zoomer !) a été généré en fonction du nombre de quotes. L'idée était de voir quels étaient les canards les plus "influents". Les données sont pondérées, donc par exemple, si Bah, qui a un poids fort dans le graph, quote beaucoup LeLiquid, le poids de celui-ci va augmenter plus que si Awake le quotait.
Open Source
Ce projet est open source, le code peut être récupéré sur github (voir liens sur le site). En revanche, le "scraping" (les données brutes récupérées sur le forum) ne sont pas publiques, car je ne crois pas que la rédac veuille voir 10.5Go de copie de leur forum en liberté.
La suite
Il y a moyen de faire beaucoup plus de statistiques avec toutes les infos récupérées, mais j'ai fait ce projet pour me former à de nouvelles technologies et c'est maintenant chose faite, il n'est pas vraiment prévu de faire évoluer le site.