Analyse de la communauté CPC

**Awake** · 10/07/2014, 21h21

C'est du machine learning sémantique assez basique, probablement basé sur des tweets qui ont été catégorisés manuellement. Il doit y avoir un taux de réussite entre 70 et 85% pour la catégorisation, par exemple l'ironie n'est pas bien comprise, forcement. Donc en prenant par exemple 10000 phrases aléatoires par canard, on arrive à un résultat plutôt fiable.

**Nirm** · 10/07/2014, 21h22

Envoyé par hijopr

par exemple l'ironie n'est pas bien comprise, forcement.

Ben ça servira à rien, ici.

**DapperCloud** · 10/07/2014, 22h21

Envoyé par hijopr

C'est du machine learning sémantique assez basique, probablement basé sur des tweets qui ont été catégorisés manuellement. Il doit y avoir un taux de réussite entre 70 et 85% pour la catégorisation, par exemple l'ironie n'est pas bien comprise, forcement. Donc en prenant par exemple 10000 phrases aléatoires par canard, on arrive à un résultat plutôt fiable.

C'est marrant, c'est la première question que je me suis posée, et je me doutais de la réponse.
Même conclusion que Nirm du coup !

**Bah** · 10/07/2014, 22h25

Envoyé par Say hello

T'en fais pas, il fait un top 5 de chaque catégories, et nous on se chargera de dire si l'API est fiable.

Le test sera simple. Si le trio de tête des commentaires négatifs c'est pas Sylvine, Jolav et ERISS, le truc est pas fiable.

**Say hello** · 10/07/2014, 22h28

Ce test fonctionnel.

**kilfou** · 10/07/2014, 22h33

Envoyé par Bah

Le test sera simple. Si le trio de tête des commentaires négatifs c'est pas Sylvine, Jolav et ERISS, le truc est pas fiable.

Vuzi, noob.

**Anonyme866** · 10/07/2014, 22h35

Vivement qu'il y ait l'outil détectant la mauvaise foi, qu'on explose les stats !

**Bah** · 10/07/2014, 22h36

Envoyé par kilfou

Vuzi, noob.

Vuzi il est pas vraiment négatif, il se complaît dans le caca mais c'est pas vraiment pareil.

**Awake** · 10/07/2014, 22h38

Envoyé par Bah

Vuzi il est pas vraiment négatif, il se complaît dans le caca mais c'est pas vraiment pareil.

Les smileys

et

seront convertis et utilisés pour détecter le sentiment de la phrase, vu comment il les utilise il risque d'avoir un score de négativitude assez élevé.

**Vuzi** · 10/07/2014, 22h54

Envoyé par hijopr

Les smileys

et

seront convertis et utilisés pour détecter le sentiment de la phrase, vu comment il les utilise il risque d'avoir un score de négativitude assez élevé.

Pas tant que ça.

**Awake** · 10/07/2014, 22h58

La data parlera. La data ne ment pas.

**Vuzi** · 10/07/2014, 22h58

Justement, j'ai confiance

**ElviejoDragon** · 12/07/2014, 23h45

Envoyé par Pad Ranoïaque

Je suis particulièrement dubitatif quant à la validité de ce genre de... "machin". De fait, je suis assez curieux d'en voir un à l’œuvre.

Tu vois t'es négatif déjà.

**Awake** · 26/07/2014, 10h47

Bon finalement j'ai retrouvé du travail assez rapidement (enfin normalement), donc je n'aurai pas le temps de faire de nouvelles analyses avant un moment.

**Anonyme866** · 26/07/2014, 10h55

Ce message serait il détecté comme positif ou négatif par l'API mashape ?

**Awake** · 26/07/2014, 11h36

Envoyé par Pad Ranoïaque

Ce message serait il détecté comme positif ou négatif par l'API mashape ?

Code:

{
  "probability": {
    "neg": 0.30000000000000004,
    "neutral": 0.525,
    "pos": 0.7
  }
}

Principalement positif.

**Yuccaman** · 26/07/2014, 11h42

C'est cool pour toi

. De toute façon on ça aurait trop fait ressortir la negativité de ce forum.

**Pvpp** · 28/07/2014, 10h03

Envoyé par hijopr

Bon finalement j'ai retrouvé du travail assez rapidement

Donc tous ces sois disant chomeur qu'on voit trainé chez le boulanger Paul, ce ne sont que des parasites profiteur

Vite vite envoyer moi l'armée faire bosser ces faignéants!

GG à toi, t'en as de la chance

**Awake** · 17/02/2023, 18h04

Un chouïa de délai s'est passé depuis la dernière analyse, mais voici Canard PC Analytics, un site qui permet d'avoir quelques stats sur les canards !

Recherchez un canard en haut à droite, et cliquez sur son pseudo pour afficher les stats.

Exemple d'une page :

Spoiler Alert!

Données
Les données ont été extraites selon la méthode suivante : dans chaque section (sauf celles exclues), récupération de tous les sujet dans lesquels il y a eu au moins un message dans l'année précédente. Puis, dans tous les messages de ces topics, récupérer les données des messages qui ont été postés après le 1er janvier 2020. On a donc 3 ans de données sur plusieurs sections du forum (entre autres : Jeux vidéos sur PC, Jeux Online, Canard Café). Tout le scraping a été fait "manuellement", dans le sens qu'un bot a parcouru le forum comme un utilisateur pour lire les pages, sans avoir accès à la base de données source du forum. Les données sont donc toutes publiques, et il y a la liste des sujets extraits sur le site ("Corpus" dans le footer).

Graph
Le graph à l'accueil (passez votre souris dessus pour zoomer !) a été généré en fonction du nombre de quotes. L'idée était de voir quels étaient les canards les plus "influents". Les données sont pondérées, donc par exemple, si Bah, qui a un poids fort dans le graph, quote beaucoup LeLiquid, le poids de celui-ci va augmenter plus que si Awake le quotait.

Open Source
Ce projet est open source, le code peut être récupéré sur github (voir liens sur le site). En revanche, le "scraping" (les données brutes récupérées sur le forum) ne sont pas publiques, car je ne crois pas que la rédac veuille voir 10.5Go de copie de leur forum en liberté.

La suite
Il y a moyen de faire beaucoup plus de statistiques avec toutes les infos récupérées, mais j'ai fait ce projet pour me former à de nouvelles technologies et c'est maintenant chose faite, il n'est pas vraiment prévu de faire évoluer le site.

**kilfou** · 17/02/2023, 18h10

Hahaha c'est un peu flippant mais assez révélateur !

**znokiss** · 17/02/2023, 18h16

Beau boulot

**poneyroux** · 17/02/2023, 18h16

On remarquera qu'aucun des tags de Flad n'a de sens

Et que le mot le plus en évidence pour OMar n'est pas "démission" mais "décès". Le type est sombre.

**Orhin** · 17/02/2023, 18h19

Ce déterrage de topic.

Mais très beau boulot.

**Praetor** · 17/02/2023, 18h20

Que représente la partie sentiments? C'est déterminé sur quelle base?

**Ze Venerable** · 17/02/2023, 18h23

Envoyé par Awake

Les smileys

et

seront convertis et utilisés pour détecter le sentiment de la phrase, vu comment il les utilise il risque d'avoir un score de négativitude assez élevé.

Merci Awake ! Par contre je t'ai pas trouvé au milieu de la foret.
C'est bien qu'il y ait des couleurs par sous-communautés. Par contre pourquoi il a placé Poseidon 8500 en bas à gauche alors qu'il n'est pas en relation avec les autres canards à proximité autour de lui (comme l'indique sa couleur différente) ?

**Foksadure** · 17/02/2023, 18h24

Très joli boulot.

Qui montre bien que Nilsou est un bot lancé par cron tous les jeudi après-midi.

**Awake** · 17/02/2023, 18h26

Envoyé par Praetor

Que représente la partie sentiments? C'est déterminé sur quelle base?

L'analyse a été faite avec : https://naturalnode.github.io/natura..._analysis.html (avec les corpus Français).

C'est du machine learning / de l'IA relativement basique.

**Praetor** · 17/02/2023, 18h29

Envoyé par Awake

L'analyse a été faite avec : https://naturalnode.github.io/natura..._analysis.html (avec les corpus Français).

C'est du machine learning / de l'IA relativement basique.

D'accord, c'est intéressant.

**Molina** · 17/02/2023, 18h30

Cool, je suis dans le gang jaune, c'est la sous section du JV sous domination de Cacao. Y'a le gang bleu de Canard Café sous le joug de Seymos en compétition avec FMP, et le gang Rose du tout ou rien sans la coupe de Bah.

Le vert, je pense que ça doit être la section générale du JV, on voit bien que c'est l'anarchie avec aucun leader.

**Praetor** · 17/02/2023, 18h36

Les bleus vaincront !

Discussion: Analyse de la communauté CPC

Outils de la discussion

Règles de messages