dimanche 8 juillet 2018

Bigdata : n'oublions pas la gestion de connaissances

L'informatique a été dès ses débuts associée à la performance et à la puissance de calcul. Après tout elle s'est développée avec le traitement des millions de données du recensement américain ou les calculs pour envoyer une fusée sur la lune. La loi de Moore a ensuite pris le relais en traduisant la miniaturisation par l'augmentation de la capacité de calcul de chaque mm2 de processeur.

Les CPU sont maintenant remplacés pour certains usages, notamment l'intelligence artificielle, par des GPU a traitement parallèle.
Nvidia leader du jeu vidéo dont le cours au Nasdaq explose depuis quelques années, a annoncé le mois dernier une carte  d'une puissance de calcul de 2 Petaflops : une barre atteinte avec peine il y a dix ans par le plus puissant superordinateur américain. Cette puissance sera dès l'an prochain disponible dans un simple serveur...

Et puis la course à la puissance se déplace sur le terrain de l'informatique quantique dont les projets sont de plus en plus concrets chez D-WaveAtosGoogle ou IBM.

La vision d'une puissance presque infinie qui résoudra tout est donc bien installée dans cette industrie. Mais attention car elle reste toujours aussi "magique", peut-être même encore plus avec l'informatique quantique. Moins on comprend plus on imagine ! ;-)

Cette fascination de l'informatique pour la "force brute" se traduit sur le terrain des données avec le bigdata. Mais dans ce domaine ce n'est pas nécessairement une bonne chose de croire à la magie.
La "magie", ou les mirages comme dans les premiers billets de GreenSI, c'est le pouvoir du marketing ou des bonimenteurs qui débranchent votre cerveau et vous laisse croire, avec un certain de nombre de ficelles plus ou moins grosses, que tout est simple, et sera résolu.
Par exemple vous avez déjà entendu que si vous avez plus de données, vos problèmes compliqués seront forcément résolus car totalement modélisables. Y croyez-vous vraiment ?  Autre exemple, aujourd'hui il n'y a aucune limite dans les volumes collectés, dans le stockage, les contraintes des réseaux et les capacités de traitement. Après tout, on est à l'ère du numérique et il n'y a plus de contraintes physiques ! Y croyez-vous également ? Vous savez bien qu'il y toujours une machine qui consomme de l'électricité quelque part, et que les travaux dans l'immeuble d'à côté peuvent par mégarde rayer de la carte de l'internet, une ville ou une région.

La magie c'est quand un grand éditeur bien implanté à la DSI, explique aux membres de la Direction Générale qu'il suffit de collecter des données dans une usine de les mettre dans le Cloud et sur un "dashboard" pour économiser des millions et réussir sa transformation digitale. Une façon pour cet éditeur de s'approprier la transformation digitale d'une entreprise en insistant uniquement sur les (ses) composants techniques dont personne ne peut douter de leur magie.

Pourtant les multiples retours d'expérience de la transformation digitale montrent que la data et la puissance brute ne suffisent pas. La transformation repose sur l'humain et la capacité à mobiliser les énergies avec de nouvelles approches qui embrassent les enjeux de l'ère du digital. 

Comme GreenSI aime bien le répéter, Trans-former, c'est changer de forme.
La magie c'est également quand on vous explique que l'analyse de données peut tout détecter, que si on n'y arrive pas, c'est qu'on a pas assez de données pour nourrir les algorithmes. Le retour d'expérience de ceux qui pratiquent l'IA c'est que cette intelligence est plus collective qu'artificielle. Elle repose donc plus sur la capacité collective à mobiliser les humains pour faire apprendre à la machine, que l'inverse. Demain ou dans les films de science fiction ce sera peut-être différent mais pour l'instant on est aujourd'hui.

Par exemple, pourquoi faire découvrir par le machine learning un modèle de circulation de piétons dans une rue, qui après avoir corrélé des milliards de données, nous annoncerait que quand il fait 30° en été les gens marchent à l'ombre et qu'à 15° en hiver c'est au soleil ?

La réalité c'est que le contexte des données et les métas données sont aussi essentielles que les données elles-mêmes. La force brute ne suffit pas et les modèles doivent également s'appuyer sur la compréhension des environnements et donc la modélisation des connaissances. Statisticiens et cogniticiens doivent travailler ensemble.

Le message de GreenSI dans ce billet c'est de se méfier de ceux qui ne penchent que du côté de la force brute, de la data, et ne prennent pas en compte, ou même ne voient pas, le domaine de connaissance dans lequel ces data se trouvent. La structure du monde et ses relations sont aussi importantes que la masse de données sur les objets de ce monde.
L'éditeur cité précédemment ne connait pas l'usine. Il connait encore moins ses conditions opérationnelles, et ne voit pas son emprise avec le physique. Un capteur de température ne fonctionne pas correctement tout le temps. Il peut être perturbé par des phénomènes non liés à la chaîne de traitement dans laquelle il se trouve, comme par exemple quand un ouvrier pose à côté de lui un objet chaud. La critique et la validation des données dans un contexte industriel est donc une activité essentielle pour produire des données qui pourront servir à alimenter de façon fiable des modèles de décision voire d'automatisation de la conduite. Cette brique essentielle "d'esprit critique" qui fait plus référence au côté humain que machine, est rarement prise en compte par ces vendeurs de plateformes bigdata qui se proposent de collecter des données en masse en mode GIGO : "garbage in, garbage out" ! La réalité c'est qu'ils vous vendent leur cloud et leur force brute et qu'ils n'ont pas d'emprise sur votre transformation.

La reconnaissance par EDF cette semaine que les causes des nouveaux retards de l'EPR (opérations mal effectuées) ont un lien avec une perte de savoir faire suite au départ massif d'ingénieurs de la filière, nous apprends que la perte de connaissance dans une industrie peut d'avoir des conséquences dramatiques. La force brute (l'explosion du budget et des ressources alloués) ne peut pas toujours tout résoudre.

Data et connaissance sont imbriqués et complémentaires.
Pour ce qui est du monde, d'une ville, d'un château ou de la grotte de Lascaux, la force brute c'est sa digitalisation au pixel près et la création de maquettes numériques hyper-réalistes. Elle a été rendue possible par le développement de la 3D qui a bénéficié des années d'expérience des jeux vidéo. Mais ces maquettes ne sont que des données brutes. Il leur manque leurs données contextuelles, l'âme de ces premiers hommes y cherchant refuge.

 
Cette semaine un évènement a retenu l'attention de GreenSI car il se démarquait de ce discours ambiant d'une force brute toute puissante et se donnait l'objectif de travailler sur les données contextuelles et la connaissance.

Il s'agit du "Hackathon Memory", nouveau programme de partage des données pour enrichir la mémoire du patrimoine privé français, qui a été lancé avec la bénédiction de Mounir Majoubi notre secrétaire d'État au numérique.

Ce programme va organiser une série de hackathons pour collecter des données de bénévoles qui ont des histoires à raconter sur des lieux, les exposer à des historiens ou des professionnels qui maîtrisent la structuration de cette connaissance, et à des hackeurs qui pourront les exploiter et faire le lien avec les données brutes.

Ce programme met en évidence le travail collectif autour de la data, l'intelligence collective et non artificielle comme certains disent, dont on a besoin pour modéliser.

Le premier Hackathon Memory aura lieu au Château de La Tourlandry lors des prochaines journées du patrimoine en septembre 2018. Le temps d'un week-end seront recueillies et partagées toutes sortes d'informations concernant le château, son histoire et celle des femmes et hommes qui la racontent.

Pour collecter cette connaissance, un hackathon est certainement un bon catalyseur. Mais ce sont bien les techniques cognitives puis de la gestion de la connaissance qui seront nécessaires, et non celles de la collecte de données en masse.

GreenSI vous propose donc de garder à l'esprit l'image de ce château, ou de cette grotte, rempli d'histoires vivantes, pour ne pas vous laisser embarquer dans une transformation digitale qui ne reposerait que sur le volet "big data". Ne devenez pas amnésique sur les connaissances déjà engrangées dans votre entreprise.
Quand on vous parle data, posez-vous donc aussi la question de la connaissance associée à mobiliser dans les projets. C'est le message de l'intelligence collective.
Previous Post
Next Post
Related Posts

L'humour de ceux qui aiment le numérique