Please enable JavaScript.
Coggle requires JavaScript to display documents.
Structures de données de Apache Spark - Coggle Diagram
Structures de données de Apache Spark
.
RDD: Resilient distributed dataset
Fichiers supportés
Hbase - Hadoop - Amazone S3 - cassandra -HDFS - parquet - local - texte
Création RDD
A partir d'un fichier existant: provenant d'un système de fichiers supporté par Hadoop,
A partir d’une collection 3 façons: par utilisation de liste Scala ou Python + fonction parallelize s.c /spark.context
A partir d’un autre RDD existant : Appliquer une transformation sur un RDD existant pour créer un nouveau RDD
caractéristiques
c'est L'abstraction primaire de données de Spark
Réparti sur les noeuds du cluster
Tolérance aux pannes
Immuables
Ensemble de connées distribuées et résilients
Coonserve et met en caches les données en mémoire
Acceptation des opérations parallèles
transformations
création d'un nouveau RDD à partir d'un autre existant
sont paraisseuses
Spark crée le DAG (Directed Acyclic Graph) lors de la création d'un RDD
Exemples d'actions: map - filter - Distinct - flatmap - reduce - take - collect - tekeOrdered
DataFrames
Caractéristiques- DataFrames
collection distribuée de données organisées en colonnes nommées (=table dans BD relationnelle ou DataFrame dans R/Python mais avec des optimisation plus riches
Utilise lesRDD
Effectue des requêtes relationnelles
Construit sur l'API RDD
Avantages - DataFrames
Capacité à passer de kilo-octets de données sur un seul ordinateur portable à des péta-octets sur un grand cluster
Prise en charge d'un large éventail de formats de données et de systèmes de stockage
Optimisation et génération de code de pointe grâce à l'optimiseur Spark SQL Catalyst
Intégration transparente avec tous les outils et infrastructures big data via Spark
API pour Python, Java, Scala et R, qui est en cours de développement via Spark R.
Datasets
Caractéristiques
Extension de DataFrames
Immuables: perte ou suppression des données impossible
Comporte un encodeur qui convertit les objets JVM ne représentation tabulaire
Capacités API orientée objete de sécurité de type DataFrame
Fonctionne avec les APIs Scala et Java
Création Datasets
A partir d’un fichier texte pour un
//type de données primitif
A partir d’un fichier JSON pour un type de
//données personnalisé
Avantages Datasets
Capacités de calcul plus rapide que RDD
Offre avantages Spark SQL et DataFrames
Optimisation requêtes par Catalyst et Tungsten
Améliore utilisation de mémoire + mise en cache
Utilise les fonctions de l'API Dataset pour les opérations d'agrégation
Avantades :RDD - DataFrame - Dataset
Traitement des données structurées et non structurées
Prise en charge formats fichiers à savoir: TextFile , CSV, JSON , Parquet
Accèes aux données à partir différentes sources de données : (RDBS, HDFS, BD NoSQL
Immuable
Evaluation paraisseuse
Comparaison Dataset et DataFrame
Datasets
Fortement typé - Utilisation d’APIs Java et Scala unifiés - Construit sur DataFarames et la dernière abstraction de données ajoutée à Spark
DataFrames
Pas de sécurité de type.- Utiliser les API en Java, Scala,Python et R. - Construit au-dessus des RDDs et ajouté dans les versions précédentes de Spark