Please enable JavaScript.
Coggle requires JavaScript to display documents.
BDE : HADOOP et traitement distribué - Coggle Diagram
BDE : HADOOP et traitement distribué
définition
un framework open source
destiné au stockage + traitement distribué de très grands volumes de données (Big Data) sur des clusters de machines standard.
repose sur deux piliers fondamentaux :
HDFS pour le stockage distribué
Map-Reduce pour le traitement distribué :
Il utilise un modèle de programmation simple appelé MapReduce.
Hadoop est reconnu mondialement (ex. Terabyte Sort Benchmark).
Quand :
Les données sont massives (de l’ordre de plusieurs téraoctets ou pétaoctets),
Les données sont réparties sur plusieurs machines,
Les traitements peuvent être exécutés en parallèle,
Le temps de réponse immédiat n’est pas critique.
👉 Hadoop est donc particulièrement adapté aux analyses lourdes, périodiques et à grande échelle.
Pourquoi
Traitement distribué :
Les calculs sont répartis sur plusieurs nœuds afin d’exploiter le parallélisme.
Tolérance aux pannes
:
Les données sont répliquées automatiquement, garantissant la continuité du service en cas de panne.
Faible coût matériel
:
Hadoop fonctionne sur des machines standards (commodity hardware).
Scalabilité horizontale
:
La capacité du système augmente simplement en ajoutant de nouveaux nœuds au cluster.
Open source : pas de dépendance à un fournisseur (vendor lock-in).
Écosystème riche/ Extraction de valeur à partir de tous types de données (structured / no structured)
Problèmes curant résolus avec Hadoop
Modélisation du risque
→ Agrège et analyse des données diverses pour évaluer les risques
Analyse du churn client
→ Construction de modèles comportementaux pour prédire la perte de clients.
Systèmes de recommandation
→ Prédiction des préférences utilisateurs (filtrage collaboratif)
Analyse des transactions POS (Point of Sale)
→ Optimisation des promotions et des opérations commerciales
Prédiction des pannes réseau
→ Analyse des données de capteurs pour détecter et prévenir les défaillances.
Détection de fraude
→ Identification d’anomalies et de comportements suspects.
2 couches principales
HDFS (Hadoop Distributed File System)
Système de fichiers distribué et virtuel.
Les fichiers sont découpés en petits blocs.
Chaque bloc est répliqué (généralement 3 fois) pour assurer la tolérance aux pannes.
Conçu pour le stockage fiable de très grands volumes de données.
Moteur d’exécution – MapReduce
Divise les requêtes en tâches plus petites.
Les tâches sont exécutées sur plusieurs serveurs.
Exploite efficacement la puissance CPU distribuée.
Architecture maître / esclaves (JobTracker / TaskTracker).
Processus HADOOP
HDFS (stockage distribué ) :
découpage en blocs
répartir les bloc sur {} machine
réplique les blocs (tolérance aux pannes)
stockage fiable et scalable
Données d'entrée (Big data structuré / non structuré/ log , files / capteurs):
Lancement du Job Hadoop
L’utilisateur soumet un job MapReduce
Hadoop localise les données
Le calcul est envoyé vers les machines qui stockent les données
Phase MAP :
Lecture des blocs depuis HDFS
Traitement en parallèle
Transformation des données
Production de paires (clé, valeur)
Shuffle & Sort :
Regroupement des données par clé
Tri automatique
Redistribution vers les reducers
Étape gérée automatiquement par Hadoop
Phase REDUCE :
Réception des données regroupées
Agrégation (somme, moyenne, comptage…)
Calcul du résultat final
Résultat final :
Résultat stocké dans HDFS / exporté vers : BD / outil d'analyse / TB