Please enable JavaScript.

Coggle requires JavaScript to display documents.

Structures de données de Apache Spark - Coggle Diagram

- - - - Hbase - Hadoop - Amazone S3 - cassandra -HDFS - parquet - local - texte
    - - A partir d'un fichier existant: provenant d'un système de fichiers supporté par Hadoop,
      - A partir d’une collection 3 façons: par utilisation de liste Scala ou Python + fonction parallelize s.c /spark.context
      - A partir d’un autre RDD existant : Appliquer une transformation sur un RDD existant pour créer un nouveau RDD
    - - c'est L'abstraction primaire de données de Spark
      - Réparti sur les noeuds du cluster
      - Tolérance aux pannes
      - Immuables
      - Ensemble de connées distribuées et résilients
      - Coonserve et met en caches les données en mémoire
      - Acceptation des opérations parallèles
    - - création d'un nouveau RDD à partir d'un autre existant
      - sont paraisseuses
      - Spark crée le DAG (Directed Acyclic Graph) lors de la création d'un RDD
      - Exemples d'actions: map - filter - Distinct - flatmap - reduce - take - collect - tekeOrdered
  - - - collection distribuée de données organisées en colonnes nommées (=table dans BD relationnelle ou DataFrame dans R/Python mais avec des optimisation plus riches
      - Utilise lesRDD
      - Effectue des requêtes relationnelles
      - Construit sur l'API RDD
    - - Capacité à passer de kilo-octets de données sur un seul ordinateur portable à des péta-octets sur un grand cluster
      - Prise en charge d'un large éventail de formats de données et de systèmes de stockage
      - Optimisation et génération de code de pointe grâce à l'optimiseur Spark SQL Catalyst
      - Intégration transparente avec tous les outils et infrastructures big data via Spark
      - API pour Python, Java, Scala et R, qui est en cours de développement via Spark R.
  - - - Extension de DataFrames
      - Immuables: perte ou suppression des données impossible
      - Comporte un encodeur qui convertit les objets JVM ne représentation tabulaire
      - Capacités API orientée objete de sécurité de type DataFrame
      - Fonctionne avec les APIs Scala et Java
    - - A partir d’un fichier texte pour un
        //type de données primitif
      - A partir d’un fichier JSON pour un type de
        //données personnalisé
    - - Capacités de calcul plus rapide que RDD
      - Offre avantages Spark SQL et DataFrames
      - Optimisation requêtes par Catalyst et Tungsten
      - Améliore utilisation de mémoire + mise en cache
      - Utilise les fonctions de l'API Dataset pour les opérations d'agrégation