Quarante ans de délibérations de la Cnil. Analyse thématique de l’évolution d’un corps de doctrine
Résumé
En France, la Commission nationale informatique et libertés (CNIL ) veille à l'application de la réglementation relative aux données à caractère personnel (DCP). Autorité administrative indépendante crée en 1978, elle dispose d'un pouvoir de contrôle et de sanction mais aussi d'un pouvoir réglementaire s'exprimant au travers de différents types de délibérations. L'objet de cette communication est de s'intéresser à l’évolution des catégories de traitements sur lesquelles la Commission s'est prononcée depuis sa création.
Mise en place à la suite de réactions suscitées par la perspective de la généralisation du l'utilisation du NIR (Numéro d'inscription au répertoire) dans l'administration, l'activité de la CNIL a d'abord principalement concerné les traitements réalisés dans le cadre du secteur publique (État, directions ministérielles, collectivités locales et territoriales,...). Puis, à partir des années quatre- vingt-dix, une diversification progressive des traitements visés peut être observée en relation avec, notamment, la diffusion de l'informatique dans les entreprises ou le développement d'internet. La traduction dans le droit français en 2004 de la directive européenne 95/46/CE de 1995 sur la protection des données a, par la suite, fortement contribué à faire croître le nombre de délibérations. Mais au-delà du strict cadre réglementaire et de ses évolutions, les délibérations de la Commission portent aussi la marque de l'utilisation toujours plus intensive des données à caractère personnel à des fins très variées. Sur la période 1979–2017, la CNIL a ainsi publié plus de 18 500 délibérations désormais accessibles sur data.gouv.fr. Afin de faire ressortir les catégories de traitements et leur prévalence dans le temps, le corpus des délibérations a été analysé au moyen de modèles thématiques (topics models) probabilistes. Ces modèles d'apprentissage non-supervisés permettent en effet de dégager un ou plusieurs thèmes se manifestant dans des documents à partir de la matrice de la fréquences de l’occurrence de mots dans ces documents. Les modèles ont ainsi permis de dégager une centaine de catégories de traitements témoignant de la diversité et de l'intensité de l'utilisation des DCP dans les sociétés contemporaines. Parmi ces catégories, on peut notamment citer les transferts de données personnelles en dehors de l'Union européenne, les recherches dans le domaine de la santé, la biométrie, les fichiers liés à l'exercice des pouvoirs régaliens, les traitements de la statistique publique, les fichiers de gestion des usagers et des clients ainsi que différentes sanctions comme celles émises à l'encontre de l'entreprise Google en 2014 et 2016.
La communication débutera donc par un rapide rappel des attributions de la CNIL et du cadre réglementaire applicable aux DCP. Elle se poursuivra par la présentation des modèles génératifs d'allocation de Dirichlet latente en les contrastant notamment avec d’autres approches de la statistique textuelle. Enfin, la préparation des données a partir des fichiers xml et les résultats de la classification seront présentés ainsi que différentes mesures permettant d’évaluer la qualité des modèles et aider à leur interprétation.