Et non, justement ton analyse est fausse.
On voit justement le contraire. Il manque un élément capital à tes graphes et qui biaise tes analyses : le temps.
Ce qu'est ton boulot en fait ce n'est pas "une analyse de la communauté CPC", c'est "une analyse de l'histoire de la communauté CPC de ses origines à nos jours". Elle est intéressante d'un point de vue historique, et totalement fausse si tu tente de l'appliquer à ce qu'est CPC aujourd'hui. Regarde donc ton graphe, tu y verra qu'une bonne partie de ce que tu appelles le cluster d'amis n'existe tout simplement plus. Angelina, b0b0, DakuTenshi, beaucoup d'autres ne postent plus ou à peine. Pareil pour le système même d'ami, dont je suis relativement persuadé que c'est un système qu'on n'utilise qu'au début de son utilisation du forum, sa fonction sociale étant relativement inutile étant donné la structure du forum, les MP et les murs.
Bref si tu ne prends pas en compte le temps alors tu agrèges des infos qui n'ont pas forcément lieu de l’être. C'est intéressant d'un point de vue historique, on peut prendre cela comme une sorte de résumé de l’odyssée CPC si on veut être lyrique, mais c'est à peu près tout.
@Grosnours : très possible que les données seraient plus intéressantes en changeant le filtre de (posts >= 3000 && ayant posté en 2013) à (posts >= 1000 && ayant posté depuis 2 semaines). Je vais essayer de mettre à jour les données pour voir. Sinon tout le monde est d'accord pour dire que l’intérêt d'utiliser les amis est limité (mais existant). Peut-être qu'il serait plus pertinent d'utiliser les personnes qui ont postés sur le wall comme moyen de connecter les nodes ? A voir si c'est jouable de scrapper ces données de manière "éthique" (aka sans faire 200 requêtes/secondes).
Effectivement si tu pouvais faire 6 ou 7 (j'ai oublié quand e forum est né) images, une par an, ce serait déjà beaucoup plus fin comme analyse. Malheureusement je ne crois pas que tu puisses avoir accès à quand les "amitiés" sont tissées, c'est dommage.
En fait ton idée de base est superbe, les outils excellents et les résultats appétissants, mais il faudrait trouver un moyen de te fournir beaucoup plus de données.
Amis hackers, vous savez ce qu'il vous reste à faire...
Ca vaut le coup d'essayer, par curiosité, mais je pense que tu vas tomber sur le même problème : utiliser comme critère quelque chose de non-représentatif.
Par exemple, dans la section WoT du forum, il y a beaucoup d'activité d'un gros noyau dur d'utilisateurs, dont une bonne partie se connait irl, donc normalement ça devrait former un cluster, sauf que personne ne poste sur les murs des autres...
A mon avis, l'un des critères les plus représentatifs serait d'utiliser le nombre de citations de X par Y.
Mais si tu lances ce genre de requêtes sur la bdd, tu risques de rapidement recevoir la visite de doc TB, et les #tournevis ne seront pas là pour l'entretient de ton installation électrique.
RDJ: on peut avoir des amis sur le forum "CPC".
Pourquoi pas un avatar non plus...?
Maintenant, reste plus qu'à connecter le forum CPC à Twitter et Facebook pour que la boucle soit bouclée.
D'ailleurs, on devrait pas plutôt débattre de la notion "d'amis" sur un forum de gros canards ?
aka Sundstar
Ca y est j'ai mal à la tete
Ayé j'ai la bénédiction de la rédaction pour scraper le forum. Ça va chier .
Ou à parler avec les lèvres gercées.
Ou les deux en même temps.
L'innocence de la jeunesse...
Bonne nouvelle dis donc.
Par contre, pour aller dans le sens de Grosnours en incluant la donnée "Temps", plutôt que ton filtre sur (nb post et limite tps) un truc du genre (nb de post sur XX dernières semaines/mois/années) apporterait, il me semble la granularité voulue.
Sinon, tu vas te retrouver avec la même population élargie (les "gros" posteurs) amputé de ceux qui ont été occupé les 15 derniers jours (et donc pas posté).
Si tu peux (je ne sais pas si c'est très coûteux en requête et/ou temps CPU), mais un filtre (nb posts >1000 sur les 6 derniers mois) sera plus parlant dans cette optique.
Le nombre de message jour est un simple ratio nombre de message sur ancienneté.
Donc si b0b0 a posté 20 000 messages mais est inactif depuis un an, il aura toujours un très fort nb de message par jour. Même si ça diminue plus la personne est restée inactive, c'est très lent pour les gros posteurs.
C'est une bonne idée (pour quelqu'un qui "bite" tu l'as pris par le bon bout ) mais je crois qu'il est parti sur un total de posts > 3000.
Puis Grosnours a suggéré que ce n'était pas assez pertinent pour parler d'analyse de la situation actuelle.
Du coup, en reprenant ton critère, on retrouverai les canards ayant énormément posté il y a plus de 3 ans et qui ont disparu/été banni/ ne postent plus ou très peu depuis 1 an par exemple.
Au delà du temps, la question est d'avoir un "cliché" de la situation récente.
EDIT: grillé par Darkath