L’anonymisation de données personnelles

19 mai 2020

L’anonymisation rend impossible l’identification d’une personne à partir d’un jeu de données et permet, ainsi, de respecter sa vie privée. La CNIL fait le point sur les techniques utilisables et sur leurs enjeux.

Qu’est-ce que l’anonymisation ?

L’anonymisation est un traitement qui consiste à utiliser un ensemble de techniques de manière à rendre impossible, en pratique, toute identification de la personne par quelque moyen que ce soit et de manière irréversible.

L’anonymisation ne doit pas être confondue avec la pseudonymisation.

La pseudonymisation est un traitement de données personnelles réalisé de manière à ce qu'on ne puisse plus attribuer les données relatives à une personne physique sans information supplémentaire.

En pratique, la pseudonymisation consiste à remplacer les données directement identifiantes (nom, prénom, etc.) d’un jeu de données par des données indirectement identifiantes (alias, numéro séquentiel, etc.).

La pseudonymisation permet ainsi de traiter les données d’individus sans pouvoir identifier ceux-ci de façon directe. En pratique, il est toutefois bien souvent possible de retrouver l’identité de ceux-ci grâce à des données tierces : les données concernées conservent donc un caractère personnel. L’opération de pseudonymisation est également réversible, contrairement à l’anonymisation.

La pseudonymisation constitue une des mesures recommandées par le RGPD pour limiter les risques liés au traitement de données personnelles.

Pourquoi anonymiser des données personnelles ?

Le règlement général sur la protection des données (RGPD) ne comporte pas d’obligation générale d’anonymisation. Il s’agit d’une solution, parmi d’autres, pour pouvoir exploiter des données personnelles dans le respect des droits et libertés des personnes.

En effet, l’anonymisation ouvre des potentiels de réutilisation des données initialement interdits du fait du caractère personnel des données exploitées, et permet ainsi aux acteurs d’exploiter et de partager leur « gisement » de données sans porter atteinte à la vie privée des personnes. Elle permet également de conserver des données au-delà de leur durée de conservation.

Dans ce cas, la législation relative à la protection des données ne s’applique plus, car la diffusion ou la réutilisation des données anonymisées n’a pas d’impact sur la vie privée des personnes concernées.

Comment anonymiser tout en préservant au maximum l’utilité du jeu de données ?

Puisque le processus d’anonymisation vise à éliminer toute possibilité de ré-identification, l'exploitation future des données est ainsi limitée à certains types d’utilisation. Ces contraintes sont à prendre en compte dès le début du projet.

Pour construire un processus d’anonymisation pertinent, il est ainsi conseillé :

d’identifier les informations à conserver selon leur pertinence.
de supprimer les éléments d’identification directe ainsi que les valeurs rares qui pourraient permettre un ré-identification aisée des personnes (par exemple, la présence de l’âge des individus peut permettre de ré-identifier très facilement les personnes centenaires) ;
de distinguer les informations importantes des informations secondaires ou inutiles (c’est-à-dire supprimables) ;
de définir la finesse idéale et acceptable pour chaque information conservée.

Ce pré-requis permet de déterminer le procédé d’anonymisation à appliquer, c’est-à-dire l’enchaînement des techniques d’anonymisation à mettre en place. Celles-ci peuvent être regroupées en deux familles : la randomisation et la généralisation.

La randomisation consiste à modifier les attributs dans un jeu de données de telle sorte qu'elles soient moins précises, tout en conservant la répartition globale. Cette technique permet de protéger le jeu de données du risque d’inférence (cf. ci-dessous).

Exemple : il est possible de permuter les données relatives à la date de naissance des individus de manière à altérer la véracité des informations contenues dans une base de données.

La généralisation consiste à modifier l’échelle des attributs des jeux de données, ou leur ordre de grandeur, afin de s’assurer qu’ils soient communs à un ensemble de personnes. Cette technique permet d’éviter l’individualisation d’un jeu de données. Elle limite également les possibles corrélations du jeu de données avec d’autres (cf. ci-dessous).

Exemple : dans un fichier contenant la date de naissance des personnes, il est possible de remplacer cette information par la seule année de naissance.

Comment vérifier l’efficacité de l’anonymisation ?

Les autorités de protection des données européennes définissent trois critères qui permettent de s’assurer qu’un jeu de données est véritablement anonyme :

l’individualisation : il ne doit pas être possible d’isoler un individu dans le jeu de données ;

Exemple : une base de données de CV où seuls les nom et prénoms d’une personne auront été remplacés par un numéro (qui ne correspond qu’à elle) permet d’individualiser cette personne. Dans ce cas, cette base de données est considérée comme pseudonymisée et non comme anonymisée.

la corrélation : il ne doit pas être possible de relier entre eux des ensembles de données distincts concernant un même individu ;

Exemple : une base de données cartographique renseignant les adresses de domiciles de particuliers ne peut être considérée comme anonyme si d’autres bases de données, existantes par ailleurs, contiennent ces mêmes adresses avec d’autres données permettant d’identifier les individus.

l’inférence : il ne doit pas être possible de déduire, de façon quasi certaine, de nouvelles informations sur un individu.

Exemple : si un jeu de données supposément anonyme contient des informations sur le montant des impôts de personnes ayant répondu à un questionnaire, que tous les hommes ayant entre 20 et 25 ans qui ont répondu sont non imposables, il sera possible de déduire, si on sait que M. X, homme âgé de 24 ans, a répondu au questionnaire, que ce dernier est non imposable.

Comment se prémunir des risques liés à l’anonymisation ?

À défaut de remplir parfaitement ces trois critères, le responsable de traitement qui souhaite rendre un jeu de données anonyme doit démontrer, via une évaluation approfondie, que le risque d’identification d'une personne à l'aide de moyens raisonnablement susceptibles d'être utilisés, par lui-même ou par toute autre personne, est négligeable.

Les techniques d’anonymisation et de ré-identification étant amenées à évoluer régulièrement, il est indispensable pour tout responsable de traitement concerné, d’effectuer une veille régulière pour préserver, dans le temps, le caractère anonyme des données produites. Cette veille doit prendre en compte les moyens techniques disponibles ainsi que les autres sources de données qui peuvent permettre de lever l’anonymat des informations.

Si un jeu de données publié en ligne comme « anonyme » contient en réalité des données personnelles et qu’aucune des exceptions mentionnées à l’article L.312-1-2 du Code des relations entre le public et l’administration (CRPA) n’est applicable, cela peut être considéré comme une violation de données. Il est alors nécessaire de :

procéder au retrait du jeu de données en question dans les plus brefs délais ;
en informer la CNIL si cette violation est susceptible d’engendrer un risque pour les droits et libertés des personnes ;
d’en informer les personnes concernées si ce risque est élevé.

Texte reference