Si vous faites quelque chose ou publiez quelque chose sur internet, est-ce que le web doit en garder une trace jusqu’à la fin des temps? Voilà des années que les gouvernements peinent à s’y retrouver pour gérer les questions de vie privée, en ligne. Des chercheurs souhaitent pourtant entraîner les intelligences artificielles comme ChatGPT, qui s’appuient sur des millions de pages web, textes et autres contenus numériques, à « oublier » certaines informations.
La tâche peut sembler herculéenne: « entraîner » le web, où les choses semblent pourtant exister de façon permanente, à tout jamais, à oublier certaines données qui sont nuisibles, embarrassantes ou erronées est particulièrement complexe.
Certains progrès ont été accomplis, ces dernières années, à la demande de quelques personnes, lorsqu’il est question d’informations dommageables qui ressortent constamment lors de recherches en ligne.
Google a ainsi été traîné en cour pour forcer l’entreprise à effacer des informations privées qui étaient périmées et n’étaient plus valides. La poursuite a gagné sa cause devant la Cour européenne de justice, en 2014. De ce procès sont nées des lois dites du « droit à l’oubli ».
Mais avec la croissance exponentielle des IA dites génératives, comme ChatGPT, on craint de nouveau que des informations erronées ou nuisibles se retrouvent dans des contenus publiés en ligne. Des scientifiques de la Data61 Business Unit, de l’Agence nationale des sciences de l’Australie, affirment ainsi que les modèles langagiers, qui servent à « entraîner » les IA, peuvent violer ces lois sur le droit à l’oubli.
Le développement de ces modèles « représente de nouveaux défis en matière de respect des lois sur le droit à l’oubli », soutient ainsi Dawen Zhang dans une étude prépubliée du côté de chez arXiv.
M. Zhang et six de ses collègues affirment que si les lois se concentrent sur les moteurs de recherche, les modèles langagiers ne peuvent être exclus des normes de protection de la vie privée.
« Comparativement à l’approche des moteurs de recherche, qui fonctionnent par indexation, les modèles langagiers stockent et traitent l’information d’une façon complètement différente. »
Mais 60 % des données servant à la formation de modèles comme ChatGPT-3 proviennent de bases de données publiques, a précisé le chercheur. OpenAI et Google ont également indiqué s’appuyer largement sur des conversations publiées sur l’agrégateur de contenus Reddit, pour alimenter leurs modèles.
Et donc, avance M. Zhang, « les modèles peuvent mémoriser des données personnelles, et celles-ci peuvent apparaître dans les contenus produits ». De plus, des cas d’hallucination – la production spontanée d’informations fausses, une tendance des IA génératives comme ChatGPT – ajoutent au risque de diffusion d’informations dommageables qui peuvent nuire à des internautes.
Pire encore, le problème est alimenté par le fait que la plupart des sources de données des IA génératives demeurent largement inconnues du public.
De tels risques en matière de la vie privée contreviendraient aussi à des lois adoptées dans d’autres pays du monde, juge-t-on. Ainsi, des lois californienne, japonaise et canadienne visent toutes à permettre aux citoyens de forcer les moteurs de recherche à faire disparaître des informations personnelles indésirables.
Pour les chercheurs, ces lois devraient être étendues aux modèles langagiers. Plutôt que de parler d’apprentissage machine, du nom du processus d’« entraînement » des algorithmes et autres IA, les auteurs de l’étude évoquent le « désapprentissage », en suivant des méthodes permettant de compartimentaliser des données, ou encore en effaçant carrément des informations.
Chez OpenAI, on a récemment commencé à accepter des demandes pour faire disparaître des informations.
« La technologie évolue rapidement, ce qui entraîne l’émergence de nouveaux défis en matière de législation », juge M. Zhang. « Mais le principe de la vie privée, en tant que droit fondamental, ne devrait pas être modifié, et les droits de la personne ne devraient pas être compromis des suites des avancées technologiques. »