Data : Et si on abandonnait tous Excel ?

Il ne se passe pas un jour sans que l'on ne parle de nouveaux usages du "machine learning", l'apprentissage automatique par la machine qui va tout résoudre et surtout tout reconnaître, ou du développement systématique de l'analyse prédictive et normative.

Dans les faits c'est plus compliqué que ça n'y paraît et pas encore vraiment automatique. Les "data scientists" se régalent mais ils y passent beaucoup de temps, alors que les besoins sont immenses.

Plus les experts seront débordés, plus les "imposteurs" auront le champ libre pour faire rêver les métiers avec peu de chance de résultats au bout. Et justement le dernier billet de GreenSI nous éclaire sur ces 40% de startups européennes qui disent faire de l'IA alors que ce n'en est pas.

La question est donc de savoir si les projets d'analyse de données vont un jour être limités, non pas par la technologie pour les résoudre - au sens que les algorithmes existent et doivent juste être adaptés - mais par le nombre de data scientists disponibles, qu'ils soient salariés d'une entreprise ou du secteur public ou d'universitaires qui travaillent également en recherche pour l'industrie.

De plus, le nombre de données augmente très vite, ce qui suggère une augmentation aussi rapide des usages potentiels de ces données que vous n'imaginez pas encore. Surtout que d'ici 2025, près de 30% des données seront générées en temps réel donc pourront être traitées plus vite qu'actuellement. Plus de données, plus vite, voilà le résumé du côté de la demande.

Du côté de l'offre, cette pénurie est aussi celle générée par un rythme de formation en data science bien trop lent, même si toutes les écoles d'informatique proposent aujourd'hui un cursus "big data". En effet, les data scientists sont bien souvent diplômés du supérieur (ingénieur, maîtrise ou doctorat) donc sont formés en 5 à 7 ans après le Bac. La courbe précédente montre le changement attendu sur une période de 5 ans...
Des éditeurs de plateformes d'outillage de la data science ont vu venir ce problème depuis quelque temps et ils s'y sont attaqués : et si finalement on avait-pas besoin d'un scientifique hautement qualifié pour traiter les données ?

Et si des plateformes logicielles permettaient à chaque salarié de pouvoir manipuler les données simplement, et collaborativement, depuis les machines qui les produisent, jusqu'au modèle pour les superviser ?
Leur offre commence à devenir mature et surtout plus accessibles par tout un chacun que les plateformes des GAFAs toujours destinées à des utilisateurs très avancés avec une culture informatique. Ces nouveaux éditeurs proposent une approche collaborative, sans code, facilitant le traitement des données de bout en bout, de la connexion simplifiée aux sources de données, à la découverte de leur signification dans un contexte métier. On peut citer les américains Alterys présents en France, RapidMiner ou notre startup nationale Dataiku.

Les américains parlent de "citizen data scientist", que l'on appellera dans ce billet un "super utilisateur" pour ne pas utiliser d'appellation propre à un produit du marché.
Un super utilisateur ce n'est pas un informaticien, mais un utilisateur rendu performant dans l'analyse de données par une plateforme lui mettant à disposition les outils pour collecter les données, les traiter et les analyser avec des algorithmes puissants.
Le super utilisateur peut créer et générer des modèles qui utilisent des fonctions avancées de diagnostic ou des fonctions prédictives et normatives, exploitant les progrès de la statistique. Il peut effectuer des tâches analytiques simples et moyennement sophistiquées qui nécessitaient auparavant davantage de compétences.

GreenSI aime bien aussi l'image et le nom de "full stack user" par analogie avec le fameux "full stack developer", très recherché dans les équipes de développement logiciel, qui a une vision globale, aussi bien sur les données, les serveurs, leur workflow que sur l'interface utilisateur.

Bien sûr le potentiel d'un super utilisateur sera limité par rapport à une équipe de data scientists, mais ces derniers économiseront le temps passé à des tâches ou des problèmes qui ne demandaient pas leur niveau de qualification. Les supers utilisateurs sont donc complémentaires aux spécialistes des données, et surtout seront en surnombre. Ils ne remplacent pas les experts, car ils ne possèdent pas d'expertise en data science, au-delà de comprendre à quoi sert chaque modèle qu'ils peuvent appliquer, mais ils apportent leur expertise propre de l'entreprise et de ses métiers.
La technologie comme catalyseur de la montée en puissance des utilisateurs pour manipuler les données par des non-spécialistes, ça ne vous rappelle pas quelque chose ?

Mais oui, Excel bien sûr, et Lotus 123 chez IBM, le concurrent de Microsoft dans les années 1990.

Quand à cette époque les données n'étaient accessibles que par des traitements informatiques ou des requêtes SQL, on aurait pu prédire que l'informatique allait s'effondrer d'elle même car il n'y aurait pas assez d'informaticiens pour faire les calculs demandés par les non informaticiens qui en avaient besoin. Ce scénario n'a pas eu lieu et les outils de simplification de l'accès et de la manipulation des données, comme Excel, se sont développés pour y répondre, mais aussi des outils plus sophistiqués comme une ancienne startups française à succès, Business Objects, rachetée en 2007 par SAP cinq milliards (ce qui montre la valeur associée à une telle interface).

Mais en 30 ans, Excel a atteint ses limites, et certains diront même qu'il les a dépassées et créé beaucoup de désordre dans les systèmes d'information. Et puis ne peut-on s'inspirer du collaboratif qui, avec le Digital Workplace, commence tout juste à se débarrasser de l'email avec des outils comme Slack plus adaptés à gérer la productivité d'une collaboration étendue.
Pour GreenSI, aujourd'hui, on est juste un cran plus loin, avec un potentiel de traitements de données plus sophistiqués en faisant appels aux techniques avancées de l'intelligence artificielle et demandant une collaboration sans faille dans l'entreprise autour de ces données.

La pénurie de data scientists aidant, il n'y a pas de raison que l'entreprise ne souhaite pas outiller ses utilisateurs avec plus de puissance qu'Excel pour traiter les données et surtout en les collectant directement dans les applications du SI. Elle va devoir aussi massivement investir dans la formation au numérique de ses collaborateurs, ce qui n'a pas été fait avec la révolution précédente.

Mais contrairement aux années 90 où le terrain était vierge, ce terrain de la data pour les non-spécialistes est aujourd'hui occupé massivement par Excel, un outil individuel et peu collaboratif (malgré son passage récent dans le Cloud sur Office365). C'est aussi un outil qui peut être vite "détourné" par les utilisateurs pour des usages très sophistiqués, que parfois même leurs concepteurs ne maîtrisent plus, et qui peuvent représenter un danger pour l'entreprise.

La version moderne du roman de Jules Vernes, "Sans dessus dessous", où un scientifique efface par mégarde avec sa manche un zéro écrit à la craie sur le tableau noir de ses calculs, ce qui change ensuite le cours de l'histoire, serait aujourd'hui une erreur dans une formule d'Excel utilisée par toute l'entreprise depuis des années.
De nombreux DAF connaissent cette histoire... et Jules Vernes dénonçait déjà en 1889 les excès d'une vision trop rationnelle du monde qui pouvait reposer sur des données fausses.

Pour GreenSI, le principal frein à la généralisation des plateformes de traitement de données pour les "supers utilisateurs" sera de remplacer Excel.

Cela va demander une importante conduite des changements pour désapprendre 20 ans de traitement individuel de la donnée pour essayer de passer à un usage collaboratif au niveau de l'entreprise.

Et puis on doit travailler sur deux tableaux à la fois : un traitement plus avancée de la donnée par des non spécialistes, mais également un traitement collaboratif pour partager des données de référence dans l'entreprise. Sinon cette nouvelle puissance des utilisateurs ne servira à rien, voir sera tout aussi dangereuse.
Une telle plateforme collaborative de traitement de la donnée existe aujourd'hui. Sommes-nous prêts à abandonner Excel ? Une direction générale est-elle prête à interdire Excel dans ses équipes pour libérer son potentiel collaboratif et son potentiel d'analyse de données avec des algorithmes plus avancés et sur étagère ?

Ce n'est pas sûr que l'on y soit déjà, mais c'est à garder sur les radars et vous y penserez maintenant en lançant votre prochain Excel.