Big Data : Mémoire de bruts

squelette biblioLe Big data est avec l’intelligence artificielle un des sujets à la mode dans les medias concernant le système d’information. Il soulève de multiples craintes. Ne risquons nous pas par ce moyen l’espionnage par un Big Brother malveillant ? Essayons de démythifier le sujet.

Qualité des données

La plupart des données qui entrent dans un système d’information sont saisies par les utilisateurs. La machine est capable de deviner l’heure et la date de la saisie et éventuellement la géolocalisation.  Tout le reste est déclaratif, et celui qui donne l’information peut se tromper ou vouloir tromper les autres.
Les concepteurs-développeurs mettent en place des contrôles pour limiter ces erreurs. Vérifier le format des dates, proposer un nombre limité de choix dans des menus déroulant.
Pourquoi acceptons nous d’entrer des données dans ce système, et de respecter les contraintes de saisie imposés par les concepteurs-développeurs ? Le  système d’information, numérique ou non, est d’abord un outil d’accompagnement des échanges de biens, de services ou d’heures de travail. Il produit des documents dont nous avons besoin (factures, bon de commande, bulletin de salaires, quittance de loyers, etc.).  De la qualité de ces documents dépend la propriété des biens, leur droit d’usage, leurs garanties, les impôts que nous payons, éventuellement la retraite à laquelle nous aurons droit. Et nous souhaitons que le système garde la mémoire de ces informations. Nous avons intérêt à leur conservation. Ceci est vrai que le système d’information soit fait d’encre et de papier, ou dématérialisé par le numérique. C’est dans les crises que la mémorisation des données apparaît la plus essentielle. Lorsqu’une entreprise diffuse un produit contaminé, tout le monde souhaite que ces produits soient rapidement retrouvés, et que le système d’information ait conservé la trace de leur circuit de distribution.
Ces données liées aux échanges sont le véritable trésor du système d’information. Elles contiennent l’histoire des pratiques, des envies, des besoins des utilisateurs.

Contrôleurs de gestion et marqueteurs

Ces données collectées sont surtout dans les systèmes d’information des entreprises qui ont produit ou distribués ces biens et ces services.  Ici affirmons qu’une entreprise est une entité socialement responsable. Par là, il faut entendre qu’elle est responsable vis à vis de ses actionnaires mais aussi de ses clients, de son personnel, et de son environnement naturel ou social. Cette responsabilité implique que le dirigeant soit capable de se projeter dans le futur. Est-ce que l’usine sera là dans dix ou vingt ans ? Est-ce que j’aurais encore un travail, et je pourrais me marier, faire des enfants, acheter une maison, payer les études. Telles sont les questions venues de son personnel auxquelles un entrepreneur responsable doit répondre.
Dans l’entreprise, deux catégories d’employés travaillent sur cette projection : les contrôleurs de gestion qui surveillent le budget, et les marqueteurs qui cherchent les besoins des clients. Ces deux espèces de fouineurs ont mauvaise réputation, sont réputés attenter à la liberté individuelle, et être les séides de Big Brother. Mais une entreprise qui fait des pertes financières met la clé sous la porte, et celle qui n’a plus de client disparaît également.  La survie de l’unité de production dépend donc de leur travail (qui existe depuis bien plus longtemps que le numérique.

Les débuts de l’analyse de donnée

Dès que  les statisticiens de tout poil  ont compris la richesse de données qu’il y avait dans le système d’information numérique, ils demandèrent à y accéder. Les concepteurs-développeurs essayèrent de répondre au besoin de ces analystes qui avaient l’oreille des patrons. Ils comprirent qu’il n’y avait pas de limite à la curiosité de leurs interlocuteurs. Les concepteurs développeurs s’épuisaient à coder ces requêtes. Ils leur donnèrent donc les clés du camion. Des droits d’accès spéciaux furent donnés à ces utilisateurs leur permettant de rédiger des programmes d’analyse. Cette manière d’agir s’avéra à risque élevé. D’abord, d’un statisticien à l’autre, la manière de faire les programmes différait, et à partir d’une même base de donnée on pouvait obtenir des résultats diamétralement opposés. Ensuite laisser des amateurs la possibilité de programmer dans le système s’avéra dangereux. Ensuite, ils pouvaient construire des programmes d’analyse tellement complexes qu’ils empêchaient tous les autres utilisateurs de travailler. Enfin ils pouvaient par erreur écrire des programmes qui modifiaient les données au lieu de les analyser.
Ce fut l’ère des infocentres. Les concepteurs-développeurs créèrent des bases de données qui étaient des répliques des bases d’origine. Elles devaient permettre à ces acharnés du chiffre de jouer en tous sens. Mais rien n’était véritablement réglé. En effet la taille des bases de données ne cessait d’augmenter. Les analyses faites jusque là consistaient en gros à spécifier ce qu’on voulait analyser, à demander au programme d’aller chercher les données en parcourant les bases de donnée puis d’attendre le résultat. En programmant de cette manière, même en confiant le travail à des professionnels, l’exécution du programme pouvait prendre des heures avec un résultat plus ou moins aléatoires. Le statisticien, après avoir lancé la recherche pouvait faire plusieurs tours à la machine à café avant d’avoir sa réponse.

Former-informer

Les concepteurs-développeurs comprirent qu’il fallait procéder autrement. Une information ce sont des faits, des idées, des images formés pour être communiqué. Cette mise en forme varie selon l’interlocuteur, ce que vous voulez qu’il fasse ou qu’il sache. Il faut lui donner toute l’information nécessaire et rien que cela pour éviter de le perdre.
Le statisticien étant un autre utilisateur, ayant d’autres besoins, il faut remettre en forme les informations. La donnée brute, immédiatement utilisable n’existe pas  dans le système d’information.
Il faut d’abord  sélectionner les données pertinentes, construire un périmètre utile à l’analyse.
Puis il faut apurer les données, retirer les couleurs, les caractères ou les mots parasite. Prenons l’exemple suivant : l’expression jeudi 12 avril 2018 est pertinente pour les acteurs opérationnels, en leur permettant de savoir sans doute possible que c’est bien dans trois jours qu’ils devront travailler. Le statisticien a juste besoin de la donnée 12/04/2018, qui dit la même chose sans redondance et dans une forme chiffrée plus facilement analysable.
Enfin il faut peut-être modifier les données pour les rendre pertinentes. Prenons deux exemples simplistes. Un collègue d’une entreprise de réseau m’expliquait qu’ils avaient cherché à recenser les clients ayant plusieurs points de connexion. « Monsieur le Maire » était arrivé en tète ce qui avec 36000 communes et quelques mairies annexes n’avait rien de surprenant.  Mais on pouvait douter qu’il s’agisse du même client. En rapprochant le nom de l’adresse de la commune vous avez une approximation meilleure. L’analyste peut supposer que tous les ponts de connexions ayant les données Maire/33980/Triffouillis correspondent au même client. Mais ce n’est qu’une approximation permettant d’aller vite (rien ne dit que la commune d’à coté n’a pas acheté un local à Triffouillis).  Maire/33980/Triffouillis est une information exploitable mais moins certaine que Maire seul ou Triffouillis seul.
Autre exemple, si vous allez dans le système documentaire d’une entreprise vous trouverez facilement des centaines de fichiers dont le nom est compte-rendu.docx. Les données qu’ils contiennent sont sans doute passionnantes pour connaître le processus de décision de l’entreprise, son organisation, et in fine à qui vous porterez des oranges en prison si une mauvaise décision a été prise. Mais, sans la date, le lieu, l’objet, le nom des acteurs présents à la réunion dont ce fichier est le compte-rendu, il est difficilement exploitable. C’est pourquoi tous les grands du Big Data emploie des armées de troufions aux Indes, en Chine, en Afrique ou en Amérique du Sud. Ces salariés mal payés vérifient des données, les saisissent, les remettent en forme, lisent des photos mal scannées, contrôlent des bases de données. Ces services ne passent pas devant un douanier.  Mais Czi Manuel continue son travail silencieux.
Ensuite le résultat peut être bluffant. Avec des réseaux en fibre où l’information  circule à la vitesse de la lumière, des processeurs avec des vitesses d’horloge à 2Ghz (deux milliards d’opérations par seconde), des modèles mathématiques sophistiqués permettant de paralléliser les taches, vous avez une puissance de calcul comme l’humanité n’en a jamais eu.
Auparavant, vous avez du périmétrer/apurer/modifier. Si l’analyse permettant d’y arriver a mal été pensée, ou mal exécutée (un salarié mal payé n’a jamais été un gage de qualité), votre résultat sera bon pour la poubelle. Et cela dépend de la compétence sociétale, politique ethnographique, des concepteurs-développeurs autant que leur capacité à définir des modèles mathématiques complexes. Le système d’information, numérique ou non, c’est encore de la sueur et des larmes. Le temps où Big Brother saura tout de vous n’est pas pour demain.

Cet article a été publié dans big data, système d'information. Ajoutez ce permalien à vos favoris.

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

w

Connexion à %s