Cachez-moi ces données que je ne saurais voir !

Avant sa mise en œuvre le 25 mai 2018, GreenSI avait publié deux billets sur les conséquences possibles du RGPD, le règlement européen de protection des données. L'un s'appuyait sur l'image de la schizophrénie pour continuer de faire de l'open data dans le contexte du RGPD et l'autre sur l'image d'une épée de Damoclès au dessus de l'innovation l'européenne, puisque ses règles ne s'appliquent que sur les données individuelles des européens et créent ainsi une dissymétrie au niveau mondial.

En moins de 3 mois, l'affaire dite "Benalla" qui a été révélée au cœur de l'été, aura suffit pour confirmer ces images et montrer concrètement les nouvelles difficultés qu'amène ce règlement; mais surtout l'incompréhension générale que beaucoup en ont encore.

Dans cette affaire, le sujet de GreenSI n'est bien sûr pas sur les agissements d'un commis de la République, mais l'analyse des données que l'affaire a produite sur les réseaux sociaux (par ceux qui l'ont commentée ou amplifiée) et notamment sur Twitter, étudiées par l'ONG belge EU DisinfoLab qui a diffusé son analyse le 8 août, reprise par beaucoup de salles de rédaction.

A l'ère du RGPD, si vous voulez réutiliser des données publiques issues des réseaux sociaux, pour les analyser ou faire de la recherche, et bien c'est devenu beaucoup plus compliqué !

Les discussions sur les réseaux sociaux autour de cette affaire ont confirmé que seuls les spécialistes savent ce qu'est une donnée personnelle et que beaucoup racontent un peu n'importe quoi. A l'extrême, pour certains, on ne peut plus traiter de données personnelles, alors que le RGPD ne l'interdit pas mais l'encadre.D'autres accusent l'ONG de ne pas avoir demandé le consentement aux personnes avant d'analyser les tweets, en oubliant que le RGPD ne l'impose pas si les données ont été rendues publiques par les personnes concernées, ce qui est le cas quand on publie un tweet. C'est toute la beauté des plateformes sociales des GAFAs qui vous laissent propriétaire du contenu et de sa responsabilité, tout en s'octroyant des droits mondiaux dessus.

GreenSI voit donc venir la menace d'un RGPD utilisé sur la place publique par certains quand ça les arrange, pour jeter le doute, car en dehors des spécialistes, peu en comprennent encore les 99 articles. Et avec les délais d'intervention de la CNIL, qui un mois plus tard n'a pas donné son avis, cela peut freiner les ardeurs de ceux qui avancent. Dans l'entreprise les consultants ont encore de beaux jours devant eux, certainement pour de nombreuses années...

L'analyse de EU DisinfoLab démontrait, selon sa propre méthode statistique, des corrélations, entre les sympathisants de différents groupes d'influence (retweetant les messages de ces groupes) et ceux de l'affaire Benalla. Entre autres : 44% des messages de l'affaire l'ont été par moins de 1% des comptes, dont 27% seraient liés à au groupe d'influence dit « russophile ». Pour les initiés ceci suggère une amplification médiatique de cette affaire qui a été manipulée.

Ce résultat, repris par de nombreux médias, a rapidement été contesté par la sphère d'influence montrée du doigt. L'ONG s'est alors défendue en publiant un zip contenant deux fichiers Excel. Le premier contient les 55.000 comptes Twitter en question, dont les 3.890 jugés "hyperactifs" classés par groupe de sympathie (politique...) et l'autre contient les données brutes indiquant pour chaque compte le nombre de retweets concernant l'affaire (y compris des "fake news").

Mais cette publication de données a remis de l'huile sur le feu de la polémique et la Twittosphère s'est à nouveau embrasée, entre ceux qui confondent les numéros de lignes d'Excel avec les matricules des fichiers de déportation de la dernière guerre et ceux qui découvrent que tout ce qu'ils publient, même un simple retweet, peut les catégoriser dans un algorithme et les rendre sympathisants à une cause.

Pourtant toutes les données publiées sont publiques et accessibles par tout un chacun (qui a le temps à y consacrer) via l'API de Twitter, ou via un outil gratuit ou payant pour l'analyse des réseaux sociaux (Visibrain utilisé par l'ONG). Cachez moi donc ces données ouvertes à tous que je ne saurais voir.

La CNIL a réagi et à été saisie rapidement pour calmer les esprits. Certains attendent qu'elle pénalise EU DisinfoLab. Pendant ce temps le chercheur qui a mené l'étude, et qui est aussi doctorant à l'Université de Louvain, a cessé ses activités universitaires pour qu'elle ne souffre pas de l'impact médiatique de cette affaire, et s'en explique sur son blog. Ne va t-on pas un peu trop loin ?
Prenons un peu de recul. Il s'agit bien de données personnelles qui ont été publiées car le fichier ne les a pas anonymisées et les identifiants des twittos sont en clair (ceux de l'image de ce billet eux sont fictifs). C'est donc bien dans le domaine du RGPD qu'il faut réagir et la CNIL est bien compétente pour l'infraction à ce règlement.

Cela dit-il, il vous faudra encore quelques efforts dans le fichier original pour savoir qui se cache derrière "minilicorne69" ou "hdebonnevolonte", car bien sûr la majorité des comptes "hyperactifs" sont des noms très imagés, voire générés en automatique par des robots. Mais quelques uns dans ce fichier, certainement un peu naïfs, ont utilisés leur nom réel et se sont retrouvés catégorisés aux yeux de tous et n'ont pas vraiment aimé avoir été "fichés".

Car oui, ces "hyperactifs" ont bien été catégorisés par un algorithme sur la base des traces qu'ils ont laissées sur Internet dans le cadre d'autres sujets, comme celui de la campagne présidentielle qui regorge de données. Ce traitement n'avait pas été déclaré à la CNIL mais EU DisinfoLab peut demander le régime dérogatoire prévu par le RGPD et son article 89 pour la recherche scientifique. Un tel article permet de traiter des données à caractère personnel à des fins de recherche scientifique, historique ou statistique, dans la mesure où l'application stricte risquerait de rendre impossible la réalisation des finalités de la recherche.
Donc à priori pas de problème de ce côté, a moins d'arriver à catégoriser l'activité de EU DisinfoLab en dehors de la Science, mais le jeu en vaut-il la chandelle et ne ferait-il pas ensuite jurisprudence pour toutes les prochaines études ?

L'erreur de EU DisinfoLab aura été de diffuser cette analyse en clair pour s'expliquer (ce qui est finalement un paradoxe !), car dans ce cas l'autorisation de ceux qui y sont encore cités devrait être demandée ou alors leur compte anonymisé. C'est certainement ce que confirmera la CNIL.
Fin de l'affaire ? Non car cela pose une question de fond pour la recherche : comment utiliser les réseaux sociaux pour ses recherches et surtout comment publier les résultats de ces recherches ?

La science a toujours eu un principe de publication des résultats pour obtenir un impact maximum de ses travaux, donc permettant l'accès de ses recherches et données, mêmes infructueuses, au plus grand nombre (amateurs et professionnels). C'est un élément essentiel pour favoriser la multi-disciplinarité de la recherche jusqu'à considérer la science et les données comme un « bien commun ». Remettre en cause l'ouverture de la science aurait beaucoup de conséquences en cascade.

La loi encadrant l'open data en France prévoit aussi une ouverture des données pour la recherche, et notamment permet de traiter l'accès aux données de santé qui une fois anonymisées présentent moins d'intérêt.

Le RGPD irait-il à l'encontre de ces principes et impacterait-il la recherche, puis par ricochet l'innovation européenne ?
On peut espérer que non, mais si on se rappelle l'affaire Cambridge Analytics, elle avait commencé avec une recherche académique puis les données avaient été exploitées à d'autres fins. Il y a donc un curseur à placer sur ce qui peut être fait par les chercheurs, ou pas, en matière de manipulation de données personnelles, et avec qui ils peuvent échanger.

Dans le domaine de l'Intelligence Artificielle où la France veut mettre les bouchées doubles, on sait que ce sont les données qui font la différence. Or dans un monde hyperconnecté, où tout peut se croiser avec tout, tout ensemble de données aura tendance a devenir des données personnelles et permettre de reconnaître des personnes.

Limiter la recherche quand il y a des données personnelles risque vite de limiter la recherche en IA tout court.
Surtout que dans ce domaine, ce qui manque aux chercheurs quand on leur demande, ce sont des données en masse ! Ces données qui permettent aux GAFAs d'être en avance avec leur recherche privée qui accèdent à leurs plateformes. Ils vont alors les chercher en "open data", traduisez sur internet dans les réseaux sociaux...

Les chercheurs vont également parfois chercher ces données dans des partenariats avec des industriels privés. Mais si le doute commence à s'installer sur les données personnelles qui peuvent être amenées, ou pas, ou sur les possibilités de publier les résultats, ça risque d'être rapidement un sacré frein pour ces industriels, a moins que la CNIL ne publie rapidement des directives pré-validées pour exploiter les réseaux sociaux.

Que ce soit donc l'open science ou l'open data, le RGPD n'aime visiblement pas trop les démarches ouvertes et pose des responsabilités sur ceux qui les pratiquent.