Data-Lake
Le vrai lac des données est contenu sur les serveurs qui forment le Cloud. Le Data Lake, ou lac de données, est un nouveau concept de stockage et de traitement informatique des données issu du DataWareHouse, tout deux étroitement liés au Big-Data. Nombreuses sont les très grandes entreprises (bien sûr les GAFAM, mais aussi les opérateurs télécoms, les transporteurs aériens, les géants de l’agroalimentaire, notamment) qui génèrent et stockent de gigantesques quantités de données, les fameux Data Lake. Lake, parce que comme un lac alimenté par ses ruisseaux, ses rivières voire ses fleuves, des données extrêmement diverses le remplissent peu à peu. Et comme un lac, relativement circonscrit, ce volume de données est généralement propre à une seule entreprise. Oui, mais, comme toujours avec le Big data, comment exploiter avec pertinence un tel volume d’informations ? En premier lieu, en couplant des solutions telles que le gestionnaire global Hadoop avec des processus de machine learning qui permettront non pas seulement de stocker des informations, à la manière des bases de données relationnelles classiques relativement rigides, mais bien de conserver leur souplesse originelle en les déposant dans un espace, le lac, où elles pourront servir à des analyses complexes qui peuvent aboutir à des modèles prédictifs. Ainsi, pour une compagnie aérienne, en exploitant toutes les données disponibles, on pourrait savoir non seulement la distance parcourue par un avion donné, sa charge moyenne, mais aussi les conditions rencontrées (météo, aléas techniques, fréquence d’usage, type de pilotage, etc.) ce qui permettrait, avec une grande précision, de programmer son entretien et d’estimer son prix… En comparant avec un autre avion, ou même un groupe d’autres avions, on peut en déduire qu’elles sont les meilleures façons d’exploiter un appareil donné tout en optimisant ses coûts, comme la sécurité des passagers… L’exemple précédent requiert trois qualités essentielles : un maximum de données les plus diverses possibles, une capacité à les stocker ( généralement dans un espace cloud ) et un ensemble logiciel de gestion et de prédiction capables de se reconfigurer à la demande, tout en conservant une grande souplesse en évitant de classer de façon trop rigide le flux de données obtenu, afin qu’il puisse servir à d’autres analyses ultérieures sans avoir été formaté, donc dégradé. À ces conditions de base, s’ajoutent des analystes-programmeurs capables d’extraire un maximum de renseignements du lac de données, un capital majeur, une potentielle mine d’évolutions que les grandes entreprises commencent à découvrir… Un élément humain déterminant dans le succès de l’exploitation d’un lac de données qui, autrement, peut rapidement se transformer en obscur marigot numérique !