Please enable JavaScript.
Coggle requires JavaScript to display documents.
Big data - Coggle Diagram
Big data
hadoop
Definition
Hadoop est un framework open-source Apache permettant :
le stockage distribué des données
le traitement parallèle sur des clusters
caractéristique
Scalabilité
tolerence aux pannes
Performance
Coût réduit
Composants principaux
HDFS(Hadoop Distributed File System ): stockage
Role: Stocker des fichiers très volumineux de manière distribuée et fiable.
Principes
Les fichiers sont découpés en blocs (64MB / 128MB)
Chaque bloc est répliqué 3 fois
Les blocs sont stockés sur plusieurs machines
Architecture
NameNode (Master)
Gère les métadonnées
Sait où sont les blocs
DataNodes (Slaves)
Stockent les blocs
Secondary NameNode
Sauvegarde des métadonnées
Tolérance aux pannes
Si un DataNode tombe en panne → Hadoop recrée les blocs ailleurs
Si le NameNode tombe → problème critique (point faible)
MapReduce : traitement:
Role:Modèle de programmation pour traiter des données massives de façon distribuée.
Deux phases
Map : transforme les données → (clé, valeur)
Reduce : agrège les valeurs par clé
Étapes d’un job MapReduce
Split
Map
Shuffle & Sort
Reduce
Pourquoi Map est parallélisable ?
Parce que chaque donnée est traitée indépendamment.
YARN : gestion des ressources
Rôle
Gestion des ressources du cluster
Ordonnancement des jobs
Suivi de l’exécution
👉 YARN est transparent pour l’utilisateur
definition
Le Big Data concerne le traitement de volumes massifs de données qui ne peuvent pas être gérés par des systèmes classiques.
caracteristiques:3V
velocity
volume
variété