C'est du machine learning sémantique assez basique, probablement basé sur des tweets qui ont été catégorisés manuellement. Il doit y avoir un taux de réussite entre 70 et 85% pour la catégorisation, par exemple l'ironie n'est pas bien comprise, forcement. Donc en prenant par exemple 10000 phrases aléatoires par canard, on arrive à un résultat plutôt fiable.