Quarante ans de délibérations de la Cnil. Analyse thématique de l’évolution d’un corps de doctrine
Résumé
En France, la Commission nationale informatique et libertés (CNIL ) veille à
l'application de la réglementation relative aux données à caractère personnel (DCP).
Autorité administrative indépendante crée en 1978, elle dispose d'un pouvoir de
contrôle et de sanction mais aussi d'un pouvoir réglementaire s'exprimant au travers de
différents types de délibérations comme des normes simplifiées, des recommandations
ou encore des autorisations. L'objet de cette communication est de s'intéresser à
l’évolution des catégories de traitements sur lesquelles la Commission s'est prononcée
depuis sa création.
Mise en place à la suite de la polémique suscitée par un projet de base de données
conçu par le ministère de l'Intérieur, l'activité de la CNIL a d'abord principalement
concerné les traitements réalisés dans le cadre du secteur publique (État, directions
ministérielles, collectivités locales et territoriales,...). Puis, à partir des années quatre-
vingt-dix, une diversification progressive des traitements visés peut être observée en
relation avec, notamment, la diffusion de l'informatique dans les entreprises ou le
développement d'internet. La traduction dans le droit français en 2004 de la directive
européenne 95/46/CE de 1995 sur la protection des données a, par la suite, fortement
contribué à faire croître le nombre de délibérations. Mais au-delà du strict cadre
réglementaire et de ses évolutions, les délibérations de la Commission portent aussi la
marque de l'utilisation toujours plus intensive des données à caractère personnel et de la
surveillance toujours plus poussée des personnes à des fins sécuritaires ou
commerciales.
Sur la période 1979-2017, la C NIL a ainsi publié plus de 18 500 délibérations
désormais accessibles sur data.gouv.fr. Afin de faire ressortir les catégories de
traitements et leur prévalence dans le temps, le corpus des délibérations a été analysé au
moyen de modèles thématiques (topics models) probabilistes. Ces modèles
d'apprentissage non-supervisés permettent en effet de dégager un ou plusieurs thèmes se
manifestant dans des documents à partir de la matrice de la fréquences de l’occurrence
de mots dans ces documents. Les modèles ont ainsi permis de dégager une centaine de
catégories de traitements témoignant de la diversité et de l'intensité de l'utilisation des
DCP dans les sociétés contemporaines. Parmi ces catégories, on peut notamment citer
les transferts de données personnelles en dehors de l'Union européenne, les recherches
dans le domaine de la santé, la biométrie, les fichiers liés à l'exercice des pouvoirs
régaliens, les traitements de la statistique publique, les fichiers de gestion des usagers et
des clients ainsi que différentes sanctions comme celles émises à l'encontre de
l'entreprise Google en 2014 et 2016.
La communication débutera donc par rapide un rappel des attributions de la CNIL et
du cadre réglementaire applicable aux DCP. Elle se poursuivra par la présentation des
modèles génératifs d'allocation de Dirichlet latente en les contrastant notamment avec
d’autres approches de la statistique textuelle. Enfin, la préparation des données a partir
des fichiers xml et les résultats de la classification seront présentés ainsi que différentes
mesures permettant d’évaluer la qualité des modèles et aider à leur interprétation.