La constitution d’un Data Lake est inconciliable avec les principes prônés par le RGDP. Et pour cause, si le nouveau règlement introduit la notion de minimisation et de limitation de la durée de conservation des données, la pratique du Big Data amène l’entreprise à amasser toujours plus de données sans déterminer à l’avance l’utilisation qui en sera faite. Et pourtant, malgré ses contradictions intrinsèques, il est impératif pour l’entreprise d’associer le Big Data au RGPD sans quoi, elle s’exposerait à des sanctions plus ou moins lourdes. Mais alors, comment s’y prendre ?

Répertorier les données

La première étape pour mettre en conformité le Data Lake consiste à faire l’inventaire des lieux de stockage des données. Ce travail doit porter sur l’infrastructure Big Data, mais également sur tout le Système Informatique. Le but est de déterminer les exports de base de données effectués pour les besoins des différents pôles de l’entreprise : marketing, RH, commercial… Vous l’aurez sans doute deviné, répertorier les données du Big Data est une entreprise fastidieuse. Il existe néanmoins des outils de Data Discovery performants qui rendent la tâche relativement simple.

Anonymisation des données

Une fois qu’on dispose d’une cartographie détaillée du Data Lake, il s’agira par la suite de limiter les risques de fuite ainsi que les usages illégaux des données personnelles. Pour ce faire, une anonymisation maximum des données s’impose. Ici encore, diverses solutions logicielles peuvent être choisies (proxy d’anonymisation, hashage…).

Attention, un faible niveau d’anonymisation ne suffit pas pour écarter l’application du RGPD. Pour ne pas tomber dans l’illégalité, il est important de vérifier l’impossibilité de remonter à un individu après de multiples analyses ou après une corrélation des données. L’une des solutions pour limiter les chances d’identification consisterait à effacer le plus de données possible, ce qui rendrait les résultats d’analyse peu pertinents. L’anonymisation impliquerait alors une analyse poussée des données afin de déterminer celles qui seront les plus pertinentes aux Data Scientists et celles qui peuvent être effacées. Attention, une véritable anonymisation ne doit pas permettre à une identification de personne, un procédé intermédiaire, la pseudonimisation, consistant à conserver la clé de déchiffrage peut être une solution mais ne permet pas de s’exonérer du RGPD comme une véritable anonymisation.

Optimiser la sécurité du Data Lake

Outre l’anonymisation, l’entreprise doit recourir à d’autres mesures pour optimiser la protection de son Data Lake. Si elle en a les moyens, elle peut réaliser un chiffrement de son Data Lake. Mais surtout, l’entreprise doit penser à protéger son Data Lake contre « l’humain ». En fait, ce dernier reste le maillon le plus faible du système de sécurité d’un Système Informatique.

La mise en place d’un système de contrôle performant des accès est donc indispensable. L’idée est de s’assurer que ceux qui peuvent accéder aux Data Lake sont bien ceux qui possèdent les droits (Data scientist, Administrateur…). Il existe de nombreux logiciels de sécurité spécialement conçus pour la gestion des comptes. Le choix dépendra des impératifs et des préférences de l’entreprise.

Se conformer au RGPD : un combat de tous les jours

La mise en conformité avec le RGPD nécessite un travail de longue haleine. Et il faut garder à l’esprit que ce n’est pas un travail ponctuel. Pour se conformer au RGPD, l’entreprise doit adapter ses mesures de sécurité aux nouvelles technologies, et surtout aux nouvelles techniques des cybercriminels. Pour ce faire, des audits de conformité portant sur le Système Informatique de l’entreprise doivent être effectués régulièrement.