Si vous avez parfois du mal à déchiffrer le jargon des scientifiques, ne vous en faites pas : bien des scientifiques d’une discipline ont du mal à déchiffrer le jargon d’une autre discipline. Or, avec l’intelligence artificielle (IA) capable d’écrire des textes convaincants, ça ne risque pas de s’améliorer.
Des chercheurs n’ont pas été capables de repérer certains des faux résumés de recherches (abstracts) écrits par l’IA ChatGPT, selon une courte expérience menée en décembre et publiée sur le serveur de prépublication bioRxiv (ce qui signifie qu’il s’agit d’une recherche qui n’a pas été révisée avant publication).
ChatGPT est cette application « conversationnelle » qui a fait grand bruit depuis son dévoilement, le 30 novembre, parce qu’elle est capable de créer des textes réalistes en réponse à des demandes de toutes sortes. Pour en arriver là, ses créateurs lui ont fourni des quantités astronomiques de textes générés par des humains. De telles applications, dites « génératrices de langage » existaient depuis des décennies, mais le bond en avant que représente ChatGPT quant à la qualité des textes produits, en plus du fait que ce soit accessible gratuitement, a créé de l’émoi.
Pour leur courte expérience, les chercheurs sous la direction de Catherine Gao, du département de médecine de l’Université Northwestern à Chicago, ont demandé au « robot » d’écrire 50 résumés de recherches médicales, « dans le style » d’une parmi cinq publications: le Journal de l’Association médicale américaine, le New England Journal of Medicine, le British Medical Journal, le Lancet et Nature Medicine. Le robot avait été « nourri » de recherches publiées en novembre et décembre dans ces publications.
En plus de demander à quatre chercheurs s’ils pouvaient détecter les faux « abstracts », les auteurs de l’expérience ont aussi fait analyser ces résumés par une application conçue pour détecter les plagiats, et par une autre conçue (par la même firme californienne que ChatGPT) pour détecter les textes générés par une IA.
Le détecteur de plagiat a donné une note de 100% : autrement dit, aucun des 50 résumés ne pouvait être accusé d’avoir plagié une des recherches dont il s’était « inspiré ». Le détecteur de textes générés par des IA en a correctement identifié deux sur trois.
Quant aux humains, ils ont identifié correctement 68% des textes générés par l’IA, et 86% des textes rédigés par des humains. Ce qui laisse tout de même près d’un tiers des textes rédigés par des IA, qui ont été considérés réalistes.
Qui plus est, les réviseurs étaient prévenus qu’il y avait des « faux » dans la liste qu’on leur soumettait, ce qui pourrait les avoir poussés à plus de vigilance qu’en temps normal.
Reste qu’avec seulement quatre humains, le « test » n’a qu’une valeur symbolique : depuis le 30 novembre, bien des gens ont eu l’opportunité de découvrir le réalisme des textes de l’IA. Mais avec le texte d’une recherche scientifique, on passe à une autre niveau, dans un contexte où on sait qu’à travers le monde, des chercheurs peu scrupuleux sont prêts à aller très loin pour réussir à faire publier n’importe quelle recherche; et que des publications dites « prédatrices » sont prêtes à publier n’importe quoi, moyennant paiement.