Anonymiser ses données : définition, intérêts, méthodes et alternative

Anonymiser ses données : définition, intérêts, méthodes et alternative

Temps de lecture : 4 minutes

Qu'est-ce que l'anonymisation des données et quels sont ses intérêts ?

Nos environnements professionnels modernes impliquent la manipulation de multiples données au quotidien. Nombreuses sont les informations à caractère personnel et sensible qui transitent chaque jour au sein des sociétés de tous secteurs. Il est donc nécessaire d’assurer la confidentialité et de maintenir un haut niveau de sécurité. L’anonymisation est une technique permettant de répondre à ces nouvelles problématiques. L’utilisation de données anonymisées limite les risque et les failles.





Qu’est-ce que l’anonymisation des données ?


Définition

 

L’anonymisation est un traitement qui rend impossible l’identification d’une personne à partir d’un jeu de données. Cette technique consiste à modifier le contenu ou la structure de ces données.

L’anonymisation est une opération irréversible. Il n’existe aucun moyen de rattacher les données à la personne d’origine lorsqu’elle est effective.

 

 

Enjeux

 

L’anonymisation s’inscrit dans un cadre à la fois juridique et éthique car elle revient à protéger la vie privée des individus concernés. Cette technique permet aux entreprises d’exploiter des données personnelles dans le respect des droits et libertés des personnes.

L’anonymisation est donc étroitement liée au Règlement Général sur la Protection des Données à caractère personnel qui s’applique à tous les pays européens (RGPD.) Anonymiser efficacement ses données revient à s’affranchir de cette règlementation car les données ne sont plus à caractère personnel après ce traitement.

Cette solution permet de limiter les risques car elle sécurise les informations détenues par une entreprise. Elle garantit le respecter les droits fondamentaux des individus dont les données sont utilisées.

 

 

Usages et intérêts

 

Maintenant que vous savez à quoi correspond l’anonymisation des données, vous vous demandez sûrement quels sont ses usages et intérêts.

L'anonymisation est en particulièrement utile dans tous les cas où les données doivent être accessibles par les collaborateurs, les clients ou les fournisseurs. Ce procédé permet à l’entreprise de partager ses informations en toute sécurité et sans aucun risque.

Elle est nécessaire lorsque les données doivent être diffusées sur des plateformes publiques dans le cadre de l’open data.

L’anonymisation permet l’exploitation de jeux de données lorsque le partage ne s’effectue pas dans les outils métier habituels de l’entreprise comprenant un système de gestion des droits d’accès.



Vérifier l’efficacité d’une donnée anonyme


La Commission Nationale Informatique et Libertés (CNIL) a défini trois grands critères à respecter pour qu’une donnée soit officiellement considérée comme anonyme : la corrélation, l’inférence et l’individualisation.

 

Corrélation

 

La question à se poser : est-il possible de lier deux données distinctes concernant une même personne ?

La corrélation est la réciprocité entre deux personnes. Pour respecter ce critère l’entreprise ne doit pas conserver deux données concernant la même personne dans une ou plusieurs bases de données.

Prenons le cas suivant en exemple : une base de données renseigne les numéros de téléphone des clients. Ces données ne pourront pas être considérées comme anonymes si l’entreprise a également d’autres base de données contenant ces mêmes numéros permettant d’identifier directement les clients.

 

Inférence 

 

La question à se poser : est-il possible de déduire une ou plusieurs informations sur une personne ?

L’inférence revient à tirer une conclusion à partir d’un fait ou d’une situation déjà vérifiés.

Afin de respecter le critère de corrélation, l’entreprise de doit pas conserver de jeux de données permettant de déduire la valeur d’un la valeur d’un attribut à partir des valeurs d’un ensemble d’autres attributs.

Par exemple, la base de données d’une entreprise contient des informations sur le statut de ses clients et que toutes les femmes de 35 à 40 ans sont mariées. Dans ce cas, il sera très facile de déduire que Madame X âgée de 36 ans est mariée.

 

 

Individualisation

 

La question à se poser : est-il toujours possible d’isoler une personne ?

L’individualisation revient à différencier une personne par des caractères individuels qui lui son propre. Pour respecter ce critère, les données détenues par l’entreprise ne doivent pas permettre d’isoler une personne et donc de l’identifier.

Par exemple lorsqu’une entreprise remplace les noms et prénoms de ses clients par des numéros. Cette action revient alors à les individualiser.

 

La technique d’anonymisation appliquée par l’entreprise n’est pas efficace si l’un de ces trois critères n’est pas respecté.



Les méthodes d’anonymisation


Il existe deux grandes méthodes pour rendre des données anonymes : la randomisation et la généralisation. La meilleure solution à appliquer doit être choisie en fonction des compétences de l’entreprise car ces procédés sont basés sur des concepts plus ou moins complexes.

Avant de vous expliquer ce qu’est la randomisation et la généralisation, il faut convient d’abord de bien comprendre ce qu’est un attribut et une valeur. Les bases de données des entreprises se composent de diverses colonnes et champs contenant des attributs et des valeurs.

Un attribut est un identificateur explicite, par exemple l’âge ou le sexe sont des attributs. A chaque attribut correspond un ensemble de valeurs, par exemple « 25 ans », « homme » ou « femme » sont des valeurs.

 

 

Randomisation

 

La randomisation revient à modifier les attributs dans un jeu de données afin qu'elles soient moins précises.

Cette technique altère ainsi la véracité des données pour limiter le lien entre les informations et l’individu. La répartition globale des données est alors conservée.

L’ajout de bruit, la mise à blanc, la troncature ou la substitution dans des procédés permettant la randomisation. Ces techniques doivent être combinées pour permettre une anonymisation totale.

 

 

Généralisation

 

La généralisation revient à diluer les attributs du jeu de données en modifiant leur échelle et ou leur ordre de grandeur respectif.

Les attributs sont alors communs à un plus grand ensemble de personnes les rendant moins identifiables.

Par exemple, l’adresse d’un client est précisée à Bordeaux, cette méthode revient à la généraliser en Gironde.

Comme la randomisation, la généralisation est une méthode qui doit impérativement être combinée avec d’autres procédés pour être efficace.



Pseudonymisation : une alternative à l’anonymisation ?


L’anonymisation et la pseudonymisation sont souvent rapprochées et confondues. Comme nous l’avons vu en première partie de l’article, anonymiser ses données garantit une protection optimale. Cette méthode représente d’ailleurs le niveau maximal de sécurisation.

Cependant une anonymisation parfaite est souvent difficile à mettre en place. De plus, le caractère irréversible de cette action peut être un facteur bloquant pour de nombreux cas d’usage en entreprise.

 

C’est ici que la pseudonymisation entre en jeu. La peudonymisation est un traitement qui consiste à remplacer les attributs identifiables d’une personne par une clé d’identification telle qu’un numéro par exemple.

Cette méthode permet donc de sécuriser les données personnelles de manière réversible. Les utilisateurs peuvent exploiter les jeux de données sans pour autant réussir à identifier les personnes. La clé d’identification leur permet de ré identifier les données à tout moment.

Le point critique de la pseudonymisation est ainsi sa clé d’identification permettant de rétablir le lien entre les données pseudonymisées et l’identité des individus concernés.

 

Plus souple et plus simple à mettre en place que l’anonymisation, la pseudonymisation est largement utilisée pour réaliser des projets dans lesquels l’anonymat n’est pas un facteur bloquant.


L'anonymisation liée à la qualification et le préparation des données

 

Axysweb accompagne les entreprises dans la qualification et la transformation de leurs données avant intégration.
L'anonymisation des données entre dans ce contexte et fait partie de nos compétences.
Nos équipe sont formées sur des solutions spécialisées permettant de manipuler les données de manière sécurisée et confidentielle.