Hadoop

Hadoop, le logo officiel. Hadoop (High availability distributed object-oriented platform) est un framework (un ensemble de composants logiciels) créé pour gérer de très grandes quantités de données provenant de sources multiples. Développé par Doug Cutting au sein de la fondation Apache, Hadoop est Open source, bien qu’il s’inspire de Google File System, un projet propriétaire lancé en 2004. Concrètement, Hadoop est donc un système de fichiers distribué adapté aux clusters (grappes de serveurs) et au traitement de données à large échelle, composante essentielle du Big Data. Une fois intégré, le Hadoop Distributed File System (HDFS) permet une agrégation des volumes par abstraction matérielle, une technique qui réunit l’espace disponible sur des milliers d’unités, même distantes, en un seul pool virtuel et dynamique, extensible ou récessif, selon que l’on ajoute ou retire des supports de stockage.

Cette architecture repose sur deux concepts, le NameNode (noeud de noms) et le DataNode (noeud de données). Sa distribution parallèle des données permet de meilleurs temps d’accès et évite un système classique de redondance lourd et coûteux, comme le RAID ou le clonage en miroir distant.

De plus, Hadoop intègre un outil d’analyse nommé Map reduce ; ce dernier filtre, trie et projette les données en vue d’une agrégation ou d’un regroupement, ce qui permet une grande réactivité du système.

En conclusion, Hadoop est une réponse logicielle Open Source adaptée, dotée d’une architecture repensée pour traiter, globalement, les faramineux volumes de données produites par nos activités numériques, sur internet en particulier.