Bonjour tout le monde (Attention pavé).
Ça fait un petit temps que je voulais essayer de voir si on pouvait prédire qui écrivait un article de canard pc et les mots qui le déterminait (j'avais visiblement trop de temps samedi et dimanche matin).
Donc pour cela sur un échantillon d'environ 1000 articles écrits par nos rédacteurs préférés (j'ai pris les rédacteurs actuels, en espérant de pas en avoir oublié) c'est à dire:
Ellen Replay
Ackboo
Ivan Le Fou
Izual
Kahn Lusth
L-F. Sébum
Noel Malware
J'ai essayé de prédire qui écrivait chaque article. (dans le jargon on dit que c'est un apprentissage supervisé, à chaque article j'ai une étiquette correspondant à un redacteur et la machine aprend avec ça).
le point technique :
Pour quantifier le vocabulaire des rédacteurs et transformer des données textuels en nombres j'ai utilisé ce qu'on appel tf-idf (term frequency, inverse document frequency) (https://fr.wikipedia.org/wiki/TF-IDF).
Ce qui en gros signifie que plus un terme est fréquent dans un texte d'un rédacteur plus il est considéré comme ayant un poids important. A l'inverse plus un mot est présent dans tous les articles (en gros tout le monde l'utilise) moins il a de poids.
Ainsi cela permet généralement de faire ressortir les mots les plus caractéristiques des rédacteurs.
Si on applique ce genre de méthode sur les 1000 articles qui contiennent 38000 mots différents. On obtient une grosse matrice de 1000*38000. C'est ce qui servira à la prédiction.
Ensuite on applique ce qu'on appelle un SVM (séparateurs à vaste marge) qui consiste en gros à séparer des points par des droites (https://fr.wikipedia.org/wiki/Machin...urs_de_support). Ici ce qu'on essaye de séparer c'est les rédacteurs entre eux.
Les résultats:
Ils ne sont pas trop mauvais puisqu'en moyenne l'algorithme arrive à prédire environ 82% de réussite la personne qui a écrit l'article.
Le plus drôle est probablement de comparer les mots qui sont sensé qualifier le plus chaque rédacteur:
-Ackboo (prédiction à 92% de réussite par rapport aux autres rédacteurs):
Voici donc les 50 mots ayant le plus d'importance pour dire qu'un article provient de Ackboo (plus le chiffre est haut + le mot a de l'importance):
On remarque visiblement sa prédisposition à parler des "versions" (il semble que ça soit souvent les versions de "windows" ici?).
Dans les tiques de language visiblement Ackboo aime les mots "vraiment", "exactement", "petit", "pratique" et "probablement".
On remarque ces névroses sur le studio "paradox", pour "kerbal". Il semble aussi fétichiste des "mécanismes" dans les jeux vidéo.
De manière plus inquiétante l'utilisation du mot "mafia" semble le qualifier aussi.
Enfin on voit qu'il doit aussi s'occuper de chose technique puisqu'on voit "video", "moniteur", "bureau"...
(Si on remonte un peu plus loin on peut aussi trouver des mots en rapport avec les jeux d'avion ("flight".)
J'ai aussi mis les 20 mots les plus important pour dire que ce n'est pas ackboo, ils sont un peu plus délicat à interpréter, mais en gros ceux sont soit des mots utilisé par tous les autres rédacteurs et commun,
soit des mots utiliser par d'autres rédacteurs en priorité.
- - - Mise à jour - - -
-Ellen Replay (prédiction à 97% de réussite par rapport aux autres rédacteurs):
Alors visiblement Ellen a aimé parler de la ville "Estavillo"? et aime découper?? ("chop").
On reconnait son coté sombre avec les mots "devil" et "evil" (bon probablement parce que visiblement c'est elle qui test les "resident" "evil"). Elle semble être une fan de "Conan", ou c'est seulement elle qui en parle.
Niveau language on a pas mal de mots descriptifs : "observation", "villes", "univers", "nature".
Probablement une amatrice de "fromage" (on pourra la rapprocher d'un autre membre plus tard).
On voit aussi qu'elle s'est occuper de la "gamescon" dernièrement.
Enfin les "mamies", les "notes" et les "developpeurs" semblent importants pour elle.
Chose interessante lorsque j'avais testé sur un plus petit échantillon le mot "telltale" ressortait + haut, probablement est-ce elle qui s'occupe des productions telltale dernièrement.
Les mots négatif:
-Ivan Le Fou (prédiction à 96% de réussite par rapport aux autres rédacteurs).
Ivan est probablement le rédacteur le plus simple à prédire (même si le score est plus faible qu'Ellen, c'est dû au fait que moins d'article ont été écris par Ellen). Pour cause ses articles ne sont pas des tests mais des à coté et nous allons voir que le vocabulaire est un peu différent.
On retrouve toute les obsessions d'Ivan :
-Les grands studio: "rockstar", "ubisoft", "blizzard", "nintendo", "activision". (probablement son coté Ivan le Rouge)
-Son amour de grands groupes telle que "webedia", "presstalis".
-Son amour des "canards" et des "abonnements" (et probablement des "millions").
-Son amour des "consoles".
-Sa propension à défendre les prolétaires: "salarié", "sexisme"...
Les mots négatif:
-Izual (prédiction à 93% de réussite par rapport aux autres rédacteurs)
Un peu comme Ivan on retrouve les obsessions d'Izual notamment sur les "jeux" de "rôle", et devinez lequel, "Fallout" (c'était d'ailleurs le premier qui ressortait sur des tests avec un échantillon plus petit).
En second "Arma" lorsque izual ne joue pas a fallout et enfin on remarquera un appuis à planescape "torment".
Visiblement Gabe "Newell" semble lui plaire.
Niveau tic de de language on reperera le mot "hélas" symbolisant toute la frustration d'Izual de ne pas retrouver fallout 2 dans les productions actuelles.
Plusieurs mots de la découverte apparaissent : "terrain", "explorer", décor".
Izual est relativement complet, il parle des "combats" et des "dialogues".
Enfin il apparait des mots un peu plus étranges "chauve" (lien avec "hitman"?) et "Evelyn".
Les mots négatif:
- - - Mise à jour - - -
-Kahn Lusth (prédiction à 92% de réussite par rapport aux autres rédacteurs)
Alors Kahn Lusth aime expliquer puisque le mot "puisque" est visiblement énormément utilisé de même que "lorsque" et "titre".
On passera sur le mot "rrrrrrrrrrr" qui témoigne de la folie du redacteur (ou son amour pour un film).
Kahn Lusth semble discriminé par ces tic de language plus que par ses obsessions "bref", "surtout", "impression", "moindre, "pratiquement"...
Chose importante il est le seul a parler de banane.
On doit effleurer son gout pour les jeux de plateau avec le mot "régle".
Niveau jeu c'est "Helgatte" et "battlefield" qui remportent la palme.
Il partage une lassitude avec Izual (utilisation de "hélas").
Enfin Kahn Lusth est un homme de sou mais virtuel, il parle volontier de "bitcoin".
Les mots négatif:
-L-F. Sébum (prédiction à 92% de réussite par rapport aux autres rédacteurs)
Sébum est prisionnier du passé, sa passion pour "doom" l'emporte sur le reste.
Il aimerait le black métal ("Mayhem")?
C'est lui qui partage une passion commune avec Ellen le fromage illustré par le terme "raclette".
Sebum aime aussi le franglais plus que les autres rédacteurs ("new", "what", "if", "still", "noob"...)
"Anthem" semble l'avoir traumatisé.
Quelques mots sont étranges (il parle de "carrion", "solondz", "baba".
Enbfin ça semble être lui qui s'occupe des duke "nukem" (à rapprocher de "doom")
Les mots négatif:
- - - Mise à jour - - -
-Noel Malware (prédiction à 92% de réussite par rapport aux autres rédacteurs)
Noel, pour une raison que j'ignore, semble souvent évoquer des "url".
Il est visiblement le seul interessé par les "dota"-like
Il a l'honneur et la chance de s'occuper de la série des souls ou à defaut d'en parler plus que les autres.
On sent qu'il joue probablement + à la "manette" que les autres rédacteurs.
On reconnait la curiosité de Noel puisqu'il cite visiblement les matryoshka, probablement des connexions données avec Poutine.
L'ombre de redacteur en chef "Sebum" semble ne jamais être loin.
Il semble aussi s'occuper des jeux de "skate".
La poèsie gothique de Noel ressort "jolis", "chanter", "vampire".
Les mots négatif:
Voila, le pavé est fini, si vous voulez d'autres indication, informations normalement je peux les fournir s'il y a d'autres fous qui sont interessés par tout ça.
J'ai probablement oublié des choses, et j'ai les scores pour beaucoup plus de mots qui peuvent être interessant.