Quand des scientifiques préfèrent les jugements de ChatGPT

L’intelligence artificielle pourrait-elle un jour réviser les articles scientifiques, voire faire ce que l’on appelle de la révision par les pairs? Pour l’instant, les premiers scientifiques testés à ce sujet préfèrent les jugements de ChatGPT à ceux de leurs collègues.

Rappelons qu’il s’agit d’une partie fondamentale du processus par lequel se construit le savoir scientifique: qu’il s’agisse d’une présumée découverte, d’une hypothèse, d’une affirmation, tout cela doit être étayé par une recherche publiée. Et idéalement, cette recherche devrait avoir été révisée par d’autres experts du domaine avant d’être publiée. C’est ce que désigne l’expression « révision par les pairs ».

Or, celle-ci a ses limites: il faut trouver des experts capables de comprendre ce dont parle la recherche, et il faut que ces experts aient le temps. Il s’écoule traditionnellement des mois entre le moment où un chercheur soumet un article à une revue scientifique, et le moment de la publication.

ChatGPT pourrait-il remplacer les réviseurs humains? C’est ce qu’ont voulu tester des chercheurs dirigés par James Zou, expert en apprentissage-machine à l’Université Stanford, en Californie. Ils ont demandé à ChatGPT-4 de fournir « une critique constructive » de plus de 3000 études publiées en 2022-2023 par une des revues du groupe Nature (donc, révisées par des pairs), et de 1700 articles d’un congrès mondial sur l’apprentissage-machine (International Conference on Learning Representations). Et ils ont comparé les critiques des robots avec celles des humains. Dans un deuxième temps, ils ont demandé la même chose à ChatGPT pour quelques centaines d’articles qui n’avaient pas été révisés par qui que ce soit et ont demandé à environ 300 de leurs auteurs (tous dans le domaine de l’intelligence artificielle ou de l’informatique) d’évaluer la critique du robot à leur endroit.

Dans le résumé, qui a été prépublié le 3 octobre sur le serveur ArXiv (ce qui veut dire, ironiquement, qu’il n’a pas été révisé par les pairs), ils écrivent tout d’abord que pour plus de la moitié des textes publiés et pour plus des trois quarts (77 %) des textes du congrès, le robot signalait des choses qui l’étaient aussi par au moins un des réviseurs. Mais le résultat le plus fort est du côté des textes non-publiés et non-révisés: 82 % des auteurs ont dit juger la critique de ChatGPT plus utile que des critiques reçues dans le passé sur d’autres recherches.

Le travail fait toutefois face à d’importants bémols: dans la deuxième partie de la recherche, l’évaluation des chercheurs quant à la critique que leur a faite le robot est purement subjective et elle ne permet pas de comparer avec la critique qu’aurait fait un humain du même travail. Quant à la première partie de la recherche, elle donne peu de détails sur ce que sont ces informations que ChatGPT n’a pas repérées, mais que les humains, eux, avaient signalées. Il reste à voir si des revues scientifiques pourraient se satisfaire de ces révisions par IA sans avoir l’assurance que le robot n’a pas « oublié » quelque chose d’important —mais ce questionnement existe aussi dans la vraie révision par les pairs, qui est loin d’être infaillible.