Des chercheurs de l’Université Caltech ont démontré que des algorithmes d’apprentissage machine peuvent surveiller des conversations sur les médias sociaux à mesure que celles-ci évoluent; cela pourrai un jour s’avérer être une façon efficace (et automatique) pour détecter les trolls en ligne.
Le projet unit la chercheuse Anima Anandkumar, spécialisée en intelligence artificielle et professeure en sciences de l’informatique et des mathématiques, ainsi que Michael Alvarez, professeur de science politique.
« C’est l’une des choses que j’aime à Caltech: la capacité de franchir les obstacles, de développer des liens entre les sciences sociales et, dans ce cas-ci, l’informatique », a dit M. Alvarez.
La protection contre le harcèlement en ligne nécessite une détection rapide des messages et statuts offensants, qui représentent du harcèlement, et qui sont négatifs, ce qui, à son tour, exige des interactions liées à la surveillance. Les méthodes actuelles pour obtenir de telles informations sur les médiaux sociaux sont soit entièrement automatisées, et impossibles à interpréter, ou s’appuient sur des mots-clés, qui peuvent rapidement devenir obsolètes. Aucune méthode des deux genres n’est très efficace, affirme l’une des membres de l’équipe de recherche.
« Il est impensable d’avoir un nombre suffisant d’humains pour gérer les commentaires manuellement, d’autant plus que ces humains sont potentiellement biaisés », dit cette chercheuse, Maya Srikanth. « De l’autre côté, les recherches par mots-clés sont mises à mal par la vitesse à laquelle les conversations évoluent. De nouveaux termes font leur apparition et d’anciens mots changent de sens, alors qu’un mot-clé qui était utilisé de façon sincère dès le départ pourrait maintenant avoir une signification sarcastique. »
L’équipe a plutôt utilisé un modèle appelé GloVe (pour Global Vectors for Word Representation) pour découvrir de nouveaux mots-clés pertinents. Le modèle fonctionne à l’aide de vecteurs, où les mots sont représentés dans un espace, et où la « distance » entre deux mots est représentative de leur similitudes linguistiques ou sémantiques. En commençant avec un seul mot-clé, ce modèle peut être employé pour trouver des termes similaires ou « rapprochés ». Par exemple, chercher des utilisation de « MeToo » (MoiAussi) dans des conversations sur Twitter a permis d’afficher des termes tels que « SupportSurvivors », « ImWithHer » et « NotSilent », tous des termes reliés à la lutte contre les agressions et le harcèlement sexuel.
Mais il n’est pas suffisant de simplement savoir si certaines conversations sont liées au sujet désiré; le contexte est important. À ce sujet, le modèle GloVe, disent les chercheurs, décrit l’ampleur de l’utilisation des mots-clés et offre donc des précisions sur la façon dont ils sont utilisés. Par exemple, dans une section de l’agrégateur Reddit consacré à la misogynie, le mot « femme » était étroitement associé aux termes « sexuel », « négatif » et « relation sexuelle ». Dans des messages Twitter à propos du mouvement #MeToo (#MoiAussi), le mot « femme » était plus souvent associé aux termes « compagnies », « désir » et « victimes ».
Le projet est un test pour espérer un jour donner, aux plateformes de médias sociaux, de nouveaux outils pour détecter le harcèlement en ligne.
Qui prend les meilleures décisions? Les humains, ou les robots?