Please enable JavaScript.

Coggle requires JavaScript to display documents.

Big data - Coggle Diagram

- - - - le stockage distribué des données
      - le traitement parallèle sur des clusters
  - - - HDFS(Hadoop Distributed File System ): stockage
        
        Role: Stocker des fichiers très volumineux de manière distribuée et fiable.
        
        Principes
        
        Les fichiers sont découpés en blocs (64MB / 128MB)
        
        Chaque bloc est répliqué 3 fois
        
        Les blocs sont stockés sur plusieurs machines
        
        Architecture
        
        NameNode (Master)
        
        Gère les métadonnées
        
        Sait où sont les blocs
        
        DataNodes (Slaves)
        
        Stockent les blocs
        
        Secondary NameNode
        
        Sauvegarde des métadonnées
        
        Tolérance aux pannes
        
        Si un DataNode tombe en panne → Hadoop recrée les blocs ailleurs
        
        Si le NameNode tombe → problème critique (point faible)
      - MapReduce : traitement:
        
        Role:Modèle de programmation pour traiter des données massives de façon distribuée.
        
        Deux phases
        
        Map : transforme les données → (clé, valeur)
        
        Reduce : agrège les valeurs par clé
        
        Étapes d’un job MapReduce
        
        Split
        
        Map
        
        Shuffle & Sort
        
        Reduce
        
        Pourquoi Map est parallélisable ?
        Parce que chaque donnée est traitée indépendamment.
      - YARN : gestion des ressources
        
        Rôle
        
        Gestion des ressources du cluster
        
        Ordonnancement des jobs
        
        Suivi de l’exécution
        
        👉 YARN est transparent pour l’utilisateur