En moins de 3 mois, l'affaire dite "Benalla" qui a été révélée au cœur de l'été, aura suffit pour confirmer ces images et montrer concrètement les nouvelles difficultés qu'amène ce règlement; mais surtout l'incompréhension générale que beaucoup en ont encore.
Dans cette affaire, le sujet de GreenSI n'est bien sûr pas sur les agissements d'un commis de la République, mais l'analyse des données que l'affaire a produite sur les réseaux sociaux (par ceux qui l'ont commentée ou amplifiée) et notamment sur Twitter, étudiées par l'ONG belge EU DisinfoLab qui a diffusé son analyse le 8 août, reprise par beaucoup de salles de rédaction.

Les discussions sur les réseaux sociaux autour de cette affaire ont confirmé que seuls les spécialistes savent ce qu'est une donnée personnelle et que beaucoup racontent un peu n'importe quoi. A l'extrême, pour certains, on ne peut plus traiter de données personnelles, alors que le RGPD ne l'interdit pas mais l'encadre.D'autres accusent l'ONG de ne pas avoir demandé le consentement aux personnes avant d'analyser les tweets, en oubliant que le RGPD ne l'impose pas si les données ont été rendues publiques par les personnes concernées, ce qui est le cas quand on publie un tweet. C'est toute la beauté des plateformes sociales des GAFAs qui vous laissent propriétaire du contenu et de sa responsabilité, tout en s'octroyant des droits mondiaux dessus.
GreenSI voit donc venir la menace d'un RGPD utilisé sur la place publique par certains quand ça les arrange, pour jeter le doute, car en dehors des spécialistes, peu en comprennent encore les 99 articles. Et avec les délais d'intervention de la CNIL, qui un mois plus tard n'a pas donné son avis, cela peut freiner les ardeurs de ceux qui avancent. Dans l'entreprise les consultants ont encore de beaux jours devant eux, certainement pour de nombreuses années...

Ce résultat, repris par de nombreux médias, a rapidement été contesté par la sphère d'influence montrée du doigt. L'ONG s'est alors défendue en publiant un zip contenant deux fichiers Excel. Le premier contient les 55.000 comptes Twitter en question, dont les 3.890 jugés "hyperactifs" classés par groupe de sympathie (politique...) et l'autre contient les données brutes indiquant pour chaque compte le nombre de retweets concernant l'affaire (y compris des "fake news").
Mais cette publication de données a remis de l'huile sur le feu de la polémique et la Twittosphère s'est à nouveau embrasée, entre ceux qui confondent les numéros de lignes d'Excel avec les matricules des fichiers de déportation de la dernière guerre et ceux qui découvrent que tout ce qu'ils publient, même un simple retweet, peut les catégoriser dans un algorithme et les rendre sympathisants à une cause.

Pourtant toutes les données publiées sont publiques et accessibles par tout un chacun (qui a le temps à y consacrer) via l'API de Twitter, ou via un outil gratuit ou payant pour l'analyse des réseaux sociaux (Visibrain utilisé par l'ONG). Cachez moi donc ces données ouvertes à tous que je ne saurais voir.
La CNIL a réagi et à été saisie rapidement pour calmer les esprits. Certains attendent qu'elle pénalise EU DisinfoLab. Pendant ce temps le chercheur qui a mené l'étude, et qui est aussi doctorant à l'Université de Louvain, a cessé ses activités universitaires pour qu'elle ne souffre pas de l'impact médiatique de cette affaire, et s'en explique sur son blog. Ne va t-on pas un peu trop loin ?
Prenons un peu de recul. Il s'agit bien de données personnelles qui ont été publiées car le fichier ne les a pas anonymisées et les identifiants des twittos sont en clair (ceux de l'image de ce billet eux sont fictifs). C'est donc bien dans le domaine du RGPD qu'il faut réagir et la CNIL est bien compétente pour l'infraction à ce règlement.
Cela dit-il, il vous faudra encore quelques efforts dans le fichier original pour savoir qui se cache derrière "minilicorne69" ou "hdebonnevolonte", car bien sûr la majorité des comptes "hyperactifs" sont des noms très imagés, voire générés en automatique par des robots. Mais quelques uns dans ce fichier, certainement un peu naïfs, ont utilisés leur nom réel et se sont retrouvés catégorisés aux yeux de tous et n'ont pas vraiment aimé avoir été "fichés".
Car oui, ces "hyperactifs" ont bien été catégorisés par un algorithme sur la base des traces qu'ils ont laissées sur Internet dans le cadre d'autres sujets, comme celui de la campagne présidentielle qui regorge de données. Ce traitement n'avait pas été déclaré à la CNIL mais EU DisinfoLab peut demander le régime dérogatoire prévu par le RGPD et son article 89 pour la recherche scientifique. Un tel article permet de traiter des données à caractère personnel à des fins de recherche scientifique, historique ou statistique, dans la mesure où l'application stricte risquerait de rendre impossible la réalisation des finalités de la recherche.
Donc à priori pas de problème de ce côté, a moins d'arriver à catégoriser l'activité de EU DisinfoLab en dehors de la Science, mais le jeu en vaut-il la chandelle et ne ferait-il pas ensuite jurisprudence pour toutes les prochaines études ?
L'erreur de EU DisinfoLab aura été de diffuser cette analyse en clair pour s'expliquer (ce qui est finalement un paradoxe !), car dans ce cas l'autorisation de ceux qui y sont encore cités devrait être demandée ou alors leur compte anonymisé. C'est certainement ce que confirmera la CNIL.
Fin de l'affaire ? Non car cela pose une question de fond pour la recherche : comment utiliser les réseaux sociaux pour ses recherches et surtout comment publier les résultats de ces recherches ?

La loi encadrant l'open data en France prévoit aussi une ouverture des données pour la recherche, et notamment permet de traiter l'accès aux données de santé qui une fois anonymisées présentent moins d'intérêt.
Le RGPD irait-il à l'encontre de ces principes et impacterait-il la recherche, puis par ricochet l'innovation européenne ?
On peut espérer que non, mais si on se rappelle l'affaire Cambridge Analytics, elle avait commencé avec une recherche académique puis les données avaient été exploitées à d'autres fins. Il y a donc un curseur à placer sur ce qui peut être fait par les chercheurs, ou pas, en matière de manipulation de données personnelles, et avec qui ils peuvent échanger.
Dans le domaine de l'Intelligence Artificielle où la France veut mettre les bouchées doubles, on sait que ce sont les données qui font la différence. Or dans un monde hyperconnecté, où tout peut se croiser avec tout, tout ensemble de données aura tendance a devenir des données personnelles et permettre de reconnaître des personnes.

Surtout que dans ce domaine, ce qui manque aux chercheurs quand on leur demande, ce sont des données en masse ! Ces données qui permettent aux GAFAs d'être en avance avec leur recherche privée qui accèdent à leurs plateformes. Ils vont alors les chercher en "open data", traduisez sur internet dans les réseaux sociaux...
Les chercheurs vont également parfois chercher ces données dans des partenariats avec des industriels privés. Mais si le doute commence à s'installer sur les données personnelles qui peuvent être amenées, ou pas, ou sur les possibilités de publier les résultats, ça risque d'être rapidement un sacré frein pour ces industriels, a moins que la CNIL ne publie rapidement des directives pré-validées pour exploiter les réseaux sociaux.
Que ce soit donc l'open science ou l'open data, le RGPD n'aime visiblement pas trop les démarches ouvertes et pose des responsabilités sur ceux qui les pratiquent.