dimanche 8 octobre 2017

L'importance de développer la culture de la donnée

Véritable atome (au sens "insécable"), la donnée prend le pas sur la fonctionnalité (voir ce billet), est au cœur de la réflexion sur les nouvelles architectures orientées API, et souvent le fantasme de tous les business modèles pour sa valeur.

C'était donc une très bonne idée pour la FING d'organiser la semaine dernière la 2ème Data Literacy Conférence à Aix-en-Provence. Car finalement se poser la question du potentiel des données partagées et de la donnée pour organiser le monde sont des questions qui méritent que l'on s'y attarde, au moins le temps d'un billet de GreenSI.

La donnée concerne tous les citoyens dans nos sociétés

Ainsi après une première édition de cette conférence en 2016, l'édition #DL2017 a réuni à nouveau les experts internationaux qui lisent et comprennent les données comme Emmanuel Didier, sociologue à l'ENSAE Paris Tech. L'ENSAE est une école d'ingénieur en haut du classement des salaires pour les premières embauches (46.550€ selon Capital) qui nous confirme que la tension est déjà réelle sur la compétence data...

Car pour comprendre cette importance grandissante de la donnée, l'apprentissage de la culture de la donnée - sujet encore très émergent réservé à quelques disciplines comme la Statistique et quelques spécialistes très recherchés - s'avère pourtant essentiel. Au-delà de l'analyse des données, on parle de maîtrise ou de gouvernance de la donnée sur l'ensemble de son cycle de vie, mais où l'apprend t-on réellement ?

Un enseignement de cette conférence est que cette culture de la donnée reste à développer dans les organisations, aussi bien dans les profils techniques que métiers, mais surtout auprès du plus grand nombre (le grand public) pour Emmanuel Didier dans sa keynote d'introduction de la conférence.
Il nous rappelle que la notion "d'avalanche de données" (data deluge) n'est pas nouvelle mais récurrente dans l'Histoire.

Elle nous indique la croissance de ce phénomène. Chaque époque a l'impression de traiter plus de données qu'à l'époque précédente, au fur et à mesure que l'on découvre leur importance et qu'ont les produits. La conséquence de cette croissance est qu'on ne peut pas limiter le travail sur ces données à quelques experts (qui seront vite débordés) et que structurellement on doit également faire participer le plus grand nombre.

D'ailleurs, l'Histoire nous indique les périodes de cette prise de conscience comme l'exemple américain en 1929, au moment du New Deal qui avait la volonté de relancer l'économie - et de le montrer par les chiffres, avec la création de plus de 2.500.000 emplois pour "comptabiliser" l'économie (enquêteurs, statisticiens dans l'administration, ...)


Le pouvoir de la donnée n'est bien sûr pas uniquement contrôlé par les gouvernements.
L'activisme statistique (data activist) est utilisé par des individus (militants) qui, pour défendre leur cause, produisent et utilisent des données. Elle permettent généralement de s'opposer à d'autres données produites par des institutionnels.

C'est également la finalité des journalistes (data journalist) qui exploitent les données pour produire leur contenu et ne se la laissent pas raconter par les communiqués de presse "officiels". Outre une presse dont les objectifs rejoindraient ceux des data activists, on aura reconnu le modèle des nouvelles rédactions, comme celle de BFM, avec leur appétit pour les modèles économiques et les chiffres pour aborder l'actualité.

La culture de la donnée est donc un sujet de société, voire de démocratie, d'où l'importance que l'ensemble de la population en maîtrise l'analyse et y ait accès.

La tendance générale à l'ouverture des données

L'open data est née en France il y 7 ans sur ce constat de transparence du service public et de rendre des comptes aux citoyens dans un pays où ce secteur représente 26% de la population active du pays. Des progrès ont été faits mais ce premier élan a surtout été le révélateur d'une piètre qualité de données partagée dans des formats difficilement réutilisables, rendant une implication citoyenne plus difficile.

Ces dernières années certaines collectivités ont alors pris la mesure du problème et engagé des démarches de structuration et d'organisation des données comme des schémas directeurs pour faire émerger l'intelligence des données (smart data) et faire évoluer leurs systèmes vers une cible partagée. Sur le plan organisationnel, la donnée est rentrée sur l'organigramme de ces mêmes organisations avec des administrateurs généraux des données aux compétences d'animation transverses.

Un second modèle de l'open data est donc en train de se mettre en place et la donnée va émerger comme un fil rouge de la transformation numérique des collectivités locales.
L'open data devient un moyen de décloisonner les services en interne aux organisations et de réutiliser ces données pour créer de nouveaux services en externes. C'est un modèle qui, comme dans le projet du Grand Dijon annoncé début septembre, s'inscrira dans la tendance de développement de la "smart city" qui a justement besoin de données croisées pour être plus "intelligente".


Dans le secteur privé, on parle plutôt d'API pour mettre en avant le moyen d'accéder à la donnée. Mais c'est bien la même tendance de fond de l'open data qui est derrière les nouvelles architectures de système d'information généralisant l'accès aux données des applications par des APIs, accessibles en interne, voire en externe.

D'ailleurs, la même semaine se tenait à Paris la Matinale API World, où les professionnels des SI sont venus partager leur expérience d'utilisation des API pour "casser les silos internes, s’ouvrir sur le monde, travailler en écosystème, s’entourer d’un réseau de start-ups,...".

On retrouve bien là les objectifs du modèle open data précédent appliqués aux SI. La convergence des fonctionnalités entre la l'open data et les plateformes API se retrouve également dans les outils.

L'ouverture et l'échange de données est donc une tendance générale, renforçant le besoin de les comprendre. La force de cette tendance est à son paroxysme quand elle se fait à l'encontre des lois qui régissent la diffusion des données. La publication en masse de documents sur WikiLeaks pour laisser les journalistes faire leur travail d'investigation est certainement l'exemple le plus connu.

La littératie des algorithmes

La production en croissance de données de plus en plus ouvertes devrait dont développer la "data literacy" de tout un chacun.
Mais c'était sans compter sur les développements récents de l'analyse des données par des algorithmes. Le danger serait que ces algorithmes deviennent des "boîtes noires" qui réduiraient à néant les efforts de développement de la compréhension des données. 

Par exemple, le logiciel APB (et ses algorithmes) qui décide de l'orientation post-BAC des étudiants en France, malgré la publication de son code, reste toujours aussi obscur. Il induit des effets secondaires qui défavorisent certaines filières dans leur choix (préemptés très tôt par les second choix d'autres filières qui seront renoncés ensuite) et conduit de plus en plus à des tirages au sort pour l'entrée en Faculté dans certaines filières quand ce n'est pas parfois à aucune affectation du tout.

Une "boîte noire" qui commence à être rejetée par le public, challengé en justice comme par ces 3 étudiants bordelais qui ont obtenu gain de cause et qui a conduit Frédérique Vidal, la nouvelle ministre de l'enseignement supérieur, à promettre sa restructuration en profondeur pour 2018.
L'algorithme pose la question de l'impact sans intention.

Qui est responsable de tous les impacts d'un algorithme ? Comment atteindre la transparence des décisions de l'algorithme, au moins au niveau nécessaire pour une utilisation responsable?
Enfin se pose la question de l'influence inconsciente des auteurs (ou des concepteurs) qui induit peut-être un biais dans le fonctionnement de l'algorithme. Une recherche de l’Université d’Harvard de 2013 a montré que la recherche de noms à consonance africaine dans un moteur de recherche affiche plus fréquemment des dossiers d’arrestation...

Le biais de la Silicon Valley jugée très machiste, en tout cas pas assez diverse (du jeune mâle blanc), et qui produit nombre d'algorithmes utilisés tous les jours, est donc bien réel et doit nous faire réfléchir.

Ce qui fait dire à David Oppenheimer, professeur de droit à l’Université de Californie à Berkeley, que si les algorithmes « ne sont pas conçus avec une intention de discrimination, et même s’ils reproduisent les préférences sociales de manière tout à fait rationnelle, ils tendent aussi à reproduire certaines formes de discrimination ».

La compréhension des données et des algorithmes est donc un sujet majeur qui attend notre société qui se numérise un peu plus chaque jour.

SHARE THIS

0 commentaires: