Même des experts en linguistique sont largement incapables de déceler des différences entre des textes créés par des intelligences artificielles génératives et des humains, selon une nouvelle étude codirigée par un professeur adjoint de l’Université du Sud de la Floride (USF).
Ces travaux, publiés dans Research Methods in Applied Linguistics, révèlent que des experts des principales publications scientifiques spécialisées en linguistique étaient en mesure de différencier des résumés d’articles écrits par l’IA et par des humains, mais seulement dans un peu plus du tiers des cas.
« Nous pensions que si quelqu’un était capable d’identifier des textes écrits par des humains, ce serait des gens en linguistique qui ont passé leur carrière à étudier des tendances dans le langage et d’autres aspects des communications humaines », a affirmé Matthew Kessler, le chercheur de l’USF.
En collaboration avec J. Elliott Casal, professeur adjoint à l’Université de Memphis, M. Kessler a demandé à 72 experts en linguistique d’évaluer une série de résumés d’articles scientifiques pour déterminer s’ils avaient été écrits par une machine ou par un humain.
Chaque spécialiste a reçu la tâche d’évaluer quatre échantillons de texte. Aucun n’a réussi à attribuer correctement les échantillons en question, et 13 % des experts ont échoué à tous les coups. Le Pr Kessler a ainsi conclu qu’en raison de ces résultats, les professeurs seraient incapables de différencier l’écriture d’un étudiant de celle d’une machine utilisant des procédés génératifs comme ChatGPT, le tout sans l’aide d’un logiciel qui n’existe pas encore.
Malgré les tentatives des experts pour utiliser des arguments logiques afin d’évaluer les extraits employés dans le cadre de l’étude, comme le fait d’identifier certaines caractéristiques linguistiques et stylistiques, les spécialistes ont largement été incapables d’accomplir leur objectif, en obtenant à peine un taux d’identification positive de 38,9 %.
« Ce qui était encore plus intéressant, c’est le fait que lorsque nous leur avons demandé ce qui les avait poussés à décider que quelque chose était écrit par l’ordinateur, ou par un humain », a indiqué M. Kessler. « Ils ont évoqué des raisons tout à fait logiques, mais encore et encore, ils n’avaient pas raison, ou n’étaient pas constants. »
En vertu de ces résultats, MM. Kessler et Casal ont conclu que ChatGPT peut écrire de courts textes aussi bien que la plupart des humains, si ce n’est encore mieux que ces derniers dans certains cas, en raison du fait que l’IA ne commet généralement d’erreurs grammaticales.
Il existe toutefois un avantage en faveur des auteurs humains: « Pour des textes plus longs, l’IA est connue pour sa tendance à halluciner et à inventer du contenu, ce qui facilite l’identification de ces textes », indique M. Kessler.
Ce dernier espère que cette étude mènera à une conversation plus vaste permettant d’établir des normes éthiques et un cadre réglementaire en ce qui concerne l’utilisation de l’IA en recherche et en éducation.