Crunchez vos adresses URL
|
Rejoignez notre discord
|
Hébergez vos photos
Page 1 sur 2 12 DernièreDernière
Affichage des résultats 1 à 30 sur 57
  1. #1
    Bonjour tout le monde (Attention pavé).

    Ça fait un petit temps que je voulais essayer de voir si on pouvait prédire qui écrivait un article de canard pc et les mots qui le déterminait (j'avais visiblement trop de temps samedi et dimanche matin).
    Donc pour cela sur un échantillon d'environ 1000 articles écrits par nos rédacteurs préférés (j'ai pris les rédacteurs actuels, en espérant de pas en avoir oublié) c'est à dire:
    Ellen Replay
    Ackboo
    Ivan Le Fou
    Izual
    Kahn Lusth
    L-F. Sébum
    Noel Malware
    J'ai essayé de prédire qui écrivait chaque article. (dans le jargon on dit que c'est un apprentissage supervisé, à chaque article j'ai une étiquette correspondant à un redacteur et la machine aprend avec ça).


    le point technique :
    Pour quantifier le vocabulaire des rédacteurs et transformer des données textuels en nombres j'ai utilisé ce qu'on appel tf-idf (term frequency, inverse document frequency) (https://fr.wikipedia.org/wiki/TF-IDF).
    Ce qui en gros signifie que plus un terme est fréquent dans un texte d'un rédacteur plus il est considéré comme ayant un poids important. A l'inverse plus un mot est présent dans tous les articles (en gros tout le monde l'utilise) moins il a de poids.
    Ainsi cela permet généralement de faire ressortir les mots les plus caractéristiques des rédacteurs.
    Si on applique ce genre de méthode sur les 1000 articles qui contiennent 38000 mots différents. On obtient une grosse matrice de 1000*38000. C'est ce qui servira à la prédiction.
    Ensuite on applique ce qu'on appelle un SVM (séparateurs à vaste marge) qui consiste en gros à séparer des points par des droites (https://fr.wikipedia.org/wiki/Machin...urs_de_support). Ici ce qu'on essaye de séparer c'est les rédacteurs entre eux.


    Les résultats:

    Ils ne sont pas trop mauvais puisqu'en moyenne l'algorithme arrive à prédire environ 82% de réussite la personne qui a écrit l'article.
    Le plus drôle est probablement de comparer les mots qui sont sensé qualifier le plus chaque rédacteur:


    -Ackboo (prédiction à 92% de réussite par rapport aux autres rédacteurs):

    Voici donc les 50 mots ayant le plus d'importance pour dire qu'un article provient de Ackboo (plus le chiffre est haut + le mot a de l'importance):



    On remarque visiblement sa prédisposition à parler des "versions" (il semble que ça soit souvent les versions de "windows" ici?).
    Dans les tiques de language visiblement Ackboo aime les mots "vraiment", "exactement", "petit", "pratique" et "probablement".
    On remarque ces névroses sur le studio "paradox", pour "kerbal". Il semble aussi fétichiste des "mécanismes" dans les jeux vidéo.
    De manière plus inquiétante l'utilisation du mot "mafia" semble le qualifier aussi.
    Enfin on voit qu'il doit aussi s'occuper de chose technique puisqu'on voit "video", "moniteur", "bureau"...
    (Si on remonte un peu plus loin on peut aussi trouver des mots en rapport avec les jeux d'avion ("flight".)

    J'ai aussi mis les 20 mots les plus important pour dire que ce n'est pas ackboo, ils sont un peu plus délicat à interpréter, mais en gros ceux sont soit des mots utilisé par tous les autres rédacteurs et commun,
    soit des mots utiliser par d'autres rédacteurs en priorité.


    - - - Mise à jour - - -

    -Ellen Replay (prédiction à 97% de réussite par rapport aux autres rédacteurs):




    Alors visiblement Ellen a aimé parler de la ville "Estavillo"? et aime découper?? ("chop").
    On reconnait son coté sombre avec les mots "devil" et "evil" (bon probablement parce que visiblement c'est elle qui test les "resident" "evil"). Elle semble être une fan de "Conan", ou c'est seulement elle qui en parle.
    Niveau language on a pas mal de mots descriptifs : "observation", "villes", "univers", "nature".
    Probablement une amatrice de "fromage" (on pourra la rapprocher d'un autre membre plus tard).
    On voit aussi qu'elle s'est occuper de la "gamescon" dernièrement.
    Enfin les "mamies", les "notes" et les "developpeurs" semblent importants pour elle.
    Chose interessante lorsque j'avais testé sur un plus petit échantillon le mot "telltale" ressortait + haut, probablement est-ce elle qui s'occupe des productions telltale dernièrement.

    Les mots négatif:



    -Ivan Le Fou (prédiction à 96% de réussite par rapport aux autres rédacteurs).
    Ivan est probablement le rédacteur le plus simple à prédire (même si le score est plus faible qu'Ellen, c'est dû au fait que moins d'article ont été écris par Ellen). Pour cause ses articles ne sont pas des tests mais des à coté et nous allons voir que le vocabulaire est un peu différent.



    On retrouve toute les obsessions d'Ivan :
    -Les grands studio: "rockstar", "ubisoft", "blizzard", "nintendo", "activision". (probablement son coté Ivan le Rouge)
    -Son amour de grands groupes telle que "webedia", "presstalis".
    -Son amour des "canards" et des "abonnements" (et probablement des "millions").
    -Son amour des "consoles".
    -Sa propension à défendre les prolétaires: "salarié", "sexisme"...

    Les mots négatif:



    -Izual (prédiction à 93% de réussite par rapport aux autres rédacteurs)



    Un peu comme Ivan on retrouve les obsessions d'Izual notamment sur les "jeux" de "rôle", et devinez lequel, "Fallout" (c'était d'ailleurs le premier qui ressortait sur des tests avec un échantillon plus petit).
    En second "Arma" lorsque izual ne joue pas a fallout et enfin on remarquera un appuis à planescape "torment".
    Visiblement Gabe "Newell" semble lui plaire.
    Niveau tic de de language on reperera le mot "hélas" symbolisant toute la frustration d'Izual de ne pas retrouver fallout 2 dans les productions actuelles.
    Plusieurs mots de la découverte apparaissent : "terrain", "explorer", décor".
    Izual est relativement complet, il parle des "combats" et des "dialogues".
    Enfin il apparait des mots un peu plus étranges "chauve" (lien avec "hitman"?) et "Evelyn".


    Les mots négatif:


    - - - Mise à jour - - -

    -Kahn Lusth (prédiction à 92% de réussite par rapport aux autres rédacteurs)



    Alors Kahn Lusth aime expliquer puisque le mot "puisque" est visiblement énormément utilisé de même que "lorsque" et "titre".
    On passera sur le mot "rrrrrrrrrrr" qui témoigne de la folie du redacteur (ou son amour pour un film).
    Kahn Lusth semble discriminé par ces tic de language plus que par ses obsessions "bref", "surtout", "impression", "moindre, "pratiquement"...
    Chose importante il est le seul a parler de banane.
    On doit effleurer son gout pour les jeux de plateau avec le mot "régle".
    Niveau jeu c'est "Helgatte" et "battlefield" qui remportent la palme.
    Il partage une lassitude avec Izual (utilisation de "hélas").
    Enfin Kahn Lusth est un homme de sou mais virtuel, il parle volontier de "bitcoin".

    Les mots négatif:



    -L-F. Sébum (prédiction à 92% de réussite par rapport aux autres rédacteurs)



    Sébum est prisionnier du passé, sa passion pour "doom" l'emporte sur le reste.
    Il aimerait le black métal ("Mayhem")?
    C'est lui qui partage une passion commune avec Ellen le fromage illustré par le terme "raclette".
    Sebum aime aussi le franglais plus que les autres rédacteurs ("new", "what", "if", "still", "noob"...)
    "Anthem" semble l'avoir traumatisé.
    Quelques mots sont étranges (il parle de "carrion", "solondz", "baba".
    Enbfin ça semble être lui qui s'occupe des duke "nukem" (à rapprocher de "doom")

    Les mots négatif:


    - - - Mise à jour - - -

    -Noel Malware (prédiction à 92% de réussite par rapport aux autres rédacteurs)




    Noel, pour une raison que j'ignore, semble souvent évoquer des "url".
    Il est visiblement le seul interessé par les "dota"-like
    Il a l'honneur et la chance de s'occuper de la série des souls ou à defaut d'en parler plus que les autres.
    On sent qu'il joue probablement + à la "manette" que les autres rédacteurs.
    On reconnait la curiosité de Noel puisqu'il cite visiblement les matryoshka, probablement des connexions données avec Poutine.
    L'ombre de redacteur en chef "Sebum" semble ne jamais être loin.
    Il semble aussi s'occuper des jeux de "skate".
    La poèsie gothique de Noel ressort "jolis", "chanter", "vampire".

    Les mots négatif:





    Voila, le pavé est fini, si vous voulez d'autres indication, informations normalement je peux les fournir s'il y a d'autres fous qui sont interessés par tout ça.
    J'ai probablement oublié des choses, et j'ai les scores pour beaucoup plus de mots qui peuvent être interessant.
    "Les faits sont têtus."


  2. #2
    C'est marrant, on voit clairement ressortir les licences favorites / obsessions de chacun.

    Par contre, je me rends pas compte de la durée que représentent les 1000 articles. On a l'impression que les 3 ou 4 derniers numéros ont beaucoup de poids. C'est assez révélateur pour Ellen : "Estavillo" le nom du plaignant en série, "Chop" du jeu Conan Chop Chop ou encore la "mamie" de la preview de Watch Dogs.

    Je m'attendais secrètement à retrouver le "purée" d'ackboo, son "Montargis" ou ses fameux "chiens du Bronx".

  3. #3
    Concrètement tu as fait comment ?

    Tu as chopé les articles sur le site ?

    Et les outils qui ont permis de compter les mots ?

    Ou alors tu as fait des bâtons ?

  4. #4
    J'ai pris les derniers articles sur le site et du coup si on divise par 7 environ ça fait approximativement 143 articles chacun. Vu que ackboo n'écrit pas seulement des tests ça doit être assez rapidement comblé je suppose. Ellen par exemple n'avait que une 50 ène d'articles.

    @Marmottas En python tu as des librairies qui te calcule assez facilement ça ( https://scikit-learn.org/stable/modu...ectorizer.html)
    "Les faits sont têtus."


  5. #5
    Tu prends aussi les news dans les "articles" ? Potentiellement ça peut un peu fausser le résultat non ?

  6. #6
    Fabuleux, merci beaucoup ! C'est une expérience intéressante, pour quelqu'un dont écrire est le métier, d'avoir des données brutes comme ça sur son lexique. D'ailleurs, j'ai lu avec satisfaction la liste des mots qui ne me correspondent pas : "titre" et "gameplay", deux mots que je vomis, sont tout en haut. Sans surprise, Noël vient de me dire que lui au contraire les adore.

    Il y a sans doute quelques bugs mineurs : par exemple, je n'écris jamais sur Valve ou Gabe Newell, et "Newell" ressort très haut dans ma liste pour une raison inexplicable. Quant à mes collèguos, le "rrrrrrrrrr" de Kahn Lusth doit venir de son papier culture très inspiré sur les ventilateurs, et le "URL" de Malware vient sans doute du fait que le mot est présent dans ses Cabinets de curiosité, alors que personne d'autre ne l'utilise.

    Merci pour ce taf, en tout cas !


  7. #7
    Citation Envoyé par Laya Voir le message
    Bonjour tout le monde (Attention pavé).

    Ça fait un petit temps que je voulais essayer de voir si on pouvait prédire qui écrivait un article de canard pc et les mots qui le déterminait (j'avais visiblement trop de temps samedi et dimanche matin).
    Formidable, merci beaucoup !
    ________________________
    "Bien faire, et laisser braire."

  8. #8
    Citation Envoyé par Jaycie Voir le message
    Tu prends aussi les news dans les "articles" ? Potentiellement ça peut un peu fausser le résultat non ?
    Je crois que le filtre "article" supprime les news (je l'ai utilisé notamment quand j'ai vu que dans le cas de ackboo ça ressortait pas mal), mais il y a des articles assez court dans le tas, des previews, ce genre de chose. Mais clairement si j'avais pu j'aurais essayé de ne sélectionner peut être que les tests, histoire d'avoir une meilleure vision de la chose. Sauf pour Ivan qui n'en a pas, à priori.

    Ce que je pourrais faire c'est essayé de prédire un article écrit par la rédaction et sortir les probabilités de qui l'a écrit, parce que j'imagine qu'il ont été écrit surtout par une personne.

    @Izual je regarderais ça doit se trouver dans les données pour Gabe.
    Si ça vous intéresse j'essayerais de faire ressortir les mots les plus utilisés, je n'ai pas utilisé de seuil en fréquence d'apparition, donc un mot qui n'est utilisé qu'une fois peut ressortir alors qu'il témoigne assez peu de la personne qui l'a écrit.
    "Les faits sont têtus."


  9. #9
    Le Solondz de Sébum doit être Todd, le réalisateur de Happiness et Wiener-Dogg. Un homme qui réalise un film titré "Palindromes" (que je me rappelle avoir vu à Deauville en 2004) fait forcément partie de son univers.

    Et Baba is him.

  10. #10
    Citation Envoyé par iactus Voir le message
    L'an dernier j'avais une Ducati je pouvais pas

  11. #11
    Même pas surpris que ça vienne de toi haha x) Bon boulot !
    Citation Envoyé par nAKAZZ Voir le message
    Canards -> Cannes
    twitter : nagui fan account

  12. #12
    Surviven de l'akademi frencèze Avatar de CptProut
    Ville
    Nantes
    Super boulot.

    Dommage qu'il n'y ai pas les anciens , je suis curieux des tic de language de pipomantis.
    Citation Envoyé par TheProjectHate Voir le message
    Plusieurs posts sans faute dans la même journée, et vous allez nous faire croire que c'est vraiment CptProut qui écrit ?

  13. #13
    Sacré boulot, joli !

    Du coup maintenant ça y est, on peut mettre les rédacteurs dans des bocaux façon Futurama, et commencer le clonage ? Les pipettes rectales sont prêtes.

  14. #14
    Citation Envoyé par CptProut Voir le message
    Super boulot.

    Dommage qu'il n'y ai pas les anciens , je suis curieux des tic de language de pipomantis.
    "coeur", "mou", "chaud", "choupinou", "10".
    De rien.

  15. #15
    Citation Envoyé par Zodex Voir le message
    "coeur", "mou", "chaud", "choupinou", "10".
    De rien.
    "grappin"

  16. #16
    T'as pensé au coupe-circuit? Avatar de Jeckhyl
    Ville
    Crétin des Alpes
    Il n'y a pas "juste" dans le vocabulaire d'ackboo ? C'est pourtant un tic de langage courant qu'il est je pense le seul à avoir dans la rédaction (dans le sens "ce jeu est juste magnifique").

  17. #17
    Citation Envoyé par Izual Voir le message
    Fabuleux, merci beaucoup ! C'est une expérience intéressante, pour quelqu'un dont écrire est le métier, d'avoir des données brutes comme ça sur son lexique. D'ailleurs, j'ai lu avec satisfaction la liste des mots qui ne me correspondent pas : "titre" et "gameplay", deux mots que je vomis, sont tout en haut. Sans surprise, Noël vient de me dire que lui au contraire les adore.

    Il y a sans doute quelques bugs mineurs : par exemple, je n'écris jamais sur Valve ou Gabe Newell, et "Newell" ressort très haut dans ma liste pour une raison inexplicable. Quant à mes collèguos, le "rrrrrrrrrr" de Kahn Lusth doit venir de son papier culture très inspiré sur les ventilateurs, et le "URL" de Malware vient sans doute du fait que le mot est présent dans ses Cabinets de curiosité, alors que personne d'autre ne l'utilise.

    Merci pour ce taf, en tout cas !
    Je viens de vérifier il y a bien un Newell dans ce que tu as écrit (ou du moins en dessous) mais ce n'est pas celui auquel on pense. (ça apparaît dans 3 articles je crois en plus, ça fait bcp de Newell )
    Notez qu'il existe un processus ancien et renommé appelé "Abonnement papier" qui règle facilement ce problème. Sommaire du dossier: 1. La grotte du père Newell 2. Guide de Newell: L'ambiance de Noël 3. Guide de Newell: Copie Conforme 4. Guide de Newell: Jeux de l'année prochaine 5. Guide de Newell: Hardware 6. Guide de Newell: Jouets
    dès que j'ai un peu de temps j'ajoute pipomantis et guy moquette et je met en avant les mot utilisé au moins 10 ou 30 fois histoire d'enlever les itérations rares.

    @ Jeckhyl
    Je n'ai pas vu juste dans le vocabulaire si je met une fréquence minimum d'apparition de 30 par exemple.
    "Les faits sont têtus."


  18. #18
    Citation Envoyé par Laya Voir le message
    Je viens de vérifier il y a bien un Newell dans ce que tu as écrit (ou du moins en dessous) mais ce n'est pas celui auquel on pense. (ça apparaît dans 3 articles je crois en plus, ça fait bcp de Newell )
    Tu es disculpé : le problème vient du site, qui m'attribue la paternité d'articles de, si je ne me trompe pas, L-F. Sébum.


  19. #19
    Citation Envoyé par Izual Voir le message
    Tu es disculpé : le problème vient du site, qui m'attribue la paternité d'articles de, si je ne me trompe pas, L-F. Sébum.
    C'est une sandale !
    JPS alias Snow pour les intimes... et LTF !

  20. #20
    Citation Envoyé par Izual Voir le message
    Tu es disculpé : le problème vient du site, qui m'attribue la paternité d'articles de, si je ne me trompe pas, L-F. Sébum.
    Tiens j'en profite pour tester le modèle, j'ai essayé de prédire qui a écrit les articles en les enlevant de l’entraînement et l'algo me dit que c'est pour chacun des 3 articles:
    Ackboo avec une proba de 52% Izual à 11 % et Sebum à 29%
    Ackboo avec une proba de 75% et Sebum à 8%
    Ackboo avec une proba de 72% et Sebum à 13%

    Si c'est Sebum l'algo se trompe, mais comme lot de consolation il arrive en deuxième position.
    "Les faits sont têtus."


  21. #21
    T'as pensé au coupe-circuit? Avatar de Jeckhyl
    Ville
    Crétin des Alpes
    Citation Envoyé par Laya Voir le message
    Je n'ai pas vu juste
    Citation Envoyé par perverpepere Voir le message
    je préfère être dans les ruisseaux des petits geste inutiles que dans le torrent du je m'en foutisme.

  22. #22
    Citation Envoyé par Izual Voir le message
    le "rrrrrrrrrr" de Kahn Lusth doit venir de son papier culture très inspiré sur les ventilateurs
    Je dis peut-être une grosse bêtise mais ce n'est pas lui aussi qui avait produit un test d'un jeu de moto, "entièrement bruité à la bouche" ??
    De tous ceux qui n'ont rien à dire, les plus agréables sont ceux qui se taisent (Coluche).

  23. #23
    Salut Laya

    Chouette boulot, très instructif et sûrement très marrant à faire !

    Comment as tu préprocessé les données ? As tu viré les mots vides (stop words) ? Cela réduirait la tailles des matrices et du bruit potentiel en supprimant des mots peu porteurs de sens dans tous les cas.

    Tu pourrais regarder du côté du stemming/lemmatisation (pour regrouper joueur/joueurs par exemple). Il y a les libs dans NLTK pour ça.

    Pour aller plus loin, ce pourrait être marrant de séparer les noms propres : filtrer les mots communs par dictionnaire, ou détecter les noms propres). Et je serais curieux de regarder les chapeaux : le style CPC global et les déviations de style par auteur.

    As tu ton code pour récupérer le corpus de données dans un coin genre gitlab ?

  24. #24
    Les stop words sont supprimés oui. La lemmatisation j'aurais potentiellement pu la faire (je conseille treetagger plutôt que ntlk) mais outre la flemme de l'installation , je trouve que garder la conjugaison des verbes ou les pluriels, par exemple, peut être intéressant. D'ailleurs certains stop words pourraient être intéressant, ma liste n'est pas énorme mais des mots comme puisque pourraient y entrer, alors qu'ils peuvent être caractéristiques d'un rédacteur comme on le voit.

    Mais j'essayerais peut être la lemmatisation, la stemmatisation je trouve ça trop violent généralement, ça coupe les mots.

    Je n'utilise pas git mais j'aurais tendance à ne pas partager un code pour ce genre de données, ça pourrait donner de mauvaises idées.
    Généralement pour le crawl je te conseille du scrapy si tu veux faire de gros sites, sinon du selenium ou directement du get avec beautifulSoup, ça fonctionne assez bien.

    Mais je vais bientôt relancer pour ajouter d'anciens rédacteurs et supprimer les mots peu utilisés.
    "Les faits sont têtus."


  25. #25
    Si les petites infos cachées dans les captures d'écran de la rubrique sur les utilitaires étaient prises en compte, ackboo aurait une fréquence largement supérieure à tout le reste de la langue française pour les mots "reum" et "pipomantis" (et Izual aurait des problèmes avec la brigade des stup', mais c'est une autre histoire).

  26. #26

  27. #27
    Nouvelles fournée, cette fois avec comme obligation d'avoir 30 répétition minimum (donc en gros soit le rédacteur à utiliser le mot 30 fois dans 30 articles différents, soit 30 fois dans un article, ou un mixte des deux). J'ai ajouter d'anciens rédacteurs, en rouges les mots négatifs (j'ai pris la valeurs absolue donc plus c'est haut + c'est négatif) en vert les mots positifs qui caractérisent le rédacteurs. J'ai regroupé les graphes pour gagner un peu de place.











    N'hésitez pas à me dire si vous voyez des incohérences.

    ps: j'aime bien le casse tête de netsabes

    Par contre pour une raison que j'ignore j'ai raté guy moquette. Faudra que je le fasse aussi
    Dernière modification par Laya ; 23/09/2019 à 21h31.
    "Les faits sont têtus."


  28. #28
    Edit : je n'ai rien dit, contrairement au magazine papier, les articles du site sont signés..... (pourquoi ne le sont-ils pas dans le magazine ?)

    Petite question : est-ce que ces données te permettent d'identifier les auteurs des articles de la Gamescom du dernier numéro ?

    C'est plus une curiosité envers l'exactitude de ce processus étant donné que la dernière émission et le style de chaque rédacteur permet déjà de savoir qui est qui.
    Honour, eh? What the hell is that anyway? Every man thinks it's something different. You can't drink it. You can't fuck it. The more of it you have the less good it does you, and if you've got none at all you don't miss it.

  29. #29
    Citation Envoyé par Laya Voir le message
    (Attention pavé)
    Un pavé pour l'éternité !

    Joli boulot

    edit: par contre "grappin" et "pipomantis" je ne vois aucune corrélation. ce canard est un scandale !

  30. #30
    T'entends quoi par "mots négatifs" ?
    Citation Envoyé par Wikipédia
    Le psychisme des trolls est depuis peu un sujet d'étude. Il en ressort une corrélation entre le comportement de troll et le sadisme, la psychopathie et le machiavélisme.

Règles de messages

  • Vous ne pouvez pas créer de nouvelles discussions
  • Vous ne pouvez pas envoyer des réponses
  • Vous ne pouvez pas envoyer des pièces jointes
  • Vous ne pouvez pas modifier vos messages
  •