Please enable JavaScript.

Coggle requires JavaScript to display documents.

DP-203 - Chapter 14 - Optimizing and Troubleshooting Data Storage and Data…

- - - - Activity: Copy data
        
        source
        
        Wildcard file path: <folderpath>/*
        
        Sink
        
        Copy behavior: Merge files
      - Incremental load:
        update SQL table with small incoming changes
  - - - bin packing
        
        OPTIMIZE command
        
        Spark.sql("OPTIMIZE delta.' abfss://path/to/delta/files'")
        
        OPTIMZE by default (while creating table)
        
        delta.autoOptimize.optimizeWrite = true
        
        delta.autoOptimize.autoCompact = true
      - OSS storage layer on top of Data Lakes
        
        ACID transactions
        
        Unified batch, interactive and streaming system
        
        Updates and deletes
        
        support for
        
        automated SCD
        
        upsert
        
        ...
      - Spark notebook - pyspark
        
        df.write.mode("overwrite").format("delta").save("abfss://path/to/delta/files")
        
        Val df: DataFrame = spark.read.format("delta").load(abfss://path/to/delta/files)
        
        Spark.sql("CREATE TABLE CUSTOMER USING DELTA LOCATION "abfss://path/to/delta/files")
- - - - TempDB runs out of space
      - Monitoring Queries:
        
        memory usage
        
        TempDB usage
    - - spills are published in task summary
- - - - Query plan
        look for 'SHUFFLE MOVE'
  - - - Physical plan
        look for 'Exchange'
    - - look for 'Exchange' stages
- - - - Synapse Link
    - - Linked Service: CosmosDB