Des transactions bancaires aux communications, nos vies contemporaines s’articulent quotidiennement autour des données, tout en suscitant des inquiétudes en matière de protection de la vie privée. Une nouvelle étude de l’École polytechnique fédérale de Lausanne publiée dans Nature Computational Science affirme que plusieurs promesses tournant autour de mécanismes de protection de cette vie privée ne seront jamais respectées, et que nous devons accepter ces limites inhérentes.
Les innovations alimentées par les données, comme la médecine personnalisée, de meilleurs services publics ou, par exemple, une production industrielle plus efficace et moins polluante, promettent d’importants avantages pour les cit0yens et notre planète, et le vaste accès aux données est considéré comme essentiel pour alimenter cet avenir. Cependant, les méthodes agressives de collecte et d’analyse d’informations mènent à des signaux d’alarme liés aux valeurs sociétales et aux droits fondamentaux.
Cela fait en sorte que l’élargissement de l’accès aux données, tout en protégeant l’aspect confidentiel des informations les plus délicates est devenu l’un des défis les plus importants dans ce domaine. Au dire des chercheurs responsables de la nouvelle étude, le fait de croire que toute utilisation des données est envisageable en respectant parfaitement le droit à la vie privée revient à croire aux contes de fées.
Selon la coautrice de l’étude, la professeure adjointe Carmela Troncoso, il existe deux approches traditionnelles en matière de protection de la vie privée. « Il y a la voie consistant à utiliser la cryptographie, c’est-à-dire traiter des données dans un secteur décrypté et obtenir ainsi un résultat. Mais pour y parvenir, il faut concevoir des algorithmes particulièrement ciblés, et non pas effectuer des opérations informatiques génériques. »
Le problème avec cette méthode, écrivent les auteurs de l’étude, est que cela ne permet pas d’atteindre le but visé, soit le fait de partager des données individuelles de haute qualité d’une façon qui protège la vie privée, mais qui permet aussi aux analystes d’en extraire une base de données complète de façon flexible.
La deuxième solution généralement mise de l’avant consiste à anonymiser les données, et donc en retirant les noms, emplacements et autres codes postaux, mais Mme Troncoso affirme que dans ce cas, le problème est généralement du côté des données elles-mêmes.
« Il y a un exemple célèbre concernant Netflix où l’entreprise a décidé de publier des bases de données et de tenir une compétition publique pour produire de meilleurs algorithmes offrant des recommandations. La compagnie a retiré les noms des clients, mais lorsque des chercheurs ont comparé les classements des films à d’autres plateformes où des internautes évaluent des longs-métrages, ils ont pu rétablir l’identité de certaines personnes. »
Nouvelle méthode, même problème
Plus récemment, les données synthétiques ont trouvé un espace comme une nouvelle méthode pour anonymiser les données, mais l’étude laisse cependant entendre que comparativement aux promesses des partisans de cette façon d’agir, elle est sujette aux mêmes limites que l’anonymisation des données déjà connue. « Dans nos travaux, nous indiquons que les chercheurs et les praticiens devraient accepter les inconvénients inhérents à la haute flexibilité dans l’utilisation des données et les garanties solides en matière de vie privée », a indiqué Theresa Stadler, coautrice de l’étude.
« Cela pourrait vouloir dire que la portée des applications alimentées par les données sera réduite, et que les détenteurs de données devront prendre des décisions explicites à propos de l’approche de partage des données la plus appropriée en fonction de leurs besoins », a ajouté Mme Stadler.
Un autre message important contenu dans l’étude est l’idée d’une mise en marché plus lente et mieux contrôlée de la technologie. De nos jours, le lancement ultrarapide est la norme, avec une idée de « corriger les problèmes par la suite » si quelque chose se passe mal. Tout cela est particulièrement dangereux, soutient Mme Troncoso.
« Nous devons commencer à accepter qu’il y a des limites. Voulons-nous vraiment poursuivre cette ruée alimentée par les données, où il n’y a pas de vie privée, et avec des impacts importants sur le processus démocratique? Cela ressemble au jour de la marmotte, nous en parlons depuis 20 ans et il se produit la même chose, maintenant, avec l’apprentissage machine. Nous lançons des algorithmes, ils sont biaisés et l’espoir consiste à penser qu’ils seront corrigés plus tard. Mais que se passe-t-il s’ils ne peuvent pas être corrigés? »
Et pourtant, les fonctionnalités limitées et la protection renforcée de la vie privée ne sont pas le modèle d’affaires des géants de la technologie, et Mme Troncoso presse le public de réfléchir davantage à la façon dont il faut régler ce problème.
« Une bonne partie de ce que Google et Apple font consiste à « blanchir » leurs pratiques néfastes et à refermer le marché. Par exemple, Apple ne laisse pas les applications recueillir des données, mais collige elle-même les données de façon à « protéger la vie privée », avant de les vendre. Ce que nous disons, c’est qu’il n’existe pas de méthode qui permet de protéger la vie privée », a ajouté la chercheuse.