Please enable JavaScript.
Coggle requires JavaScript to display documents.
Основы data engineering - Coggle Diagram
Основы data engineering
- Зачем компании строят DWH
Архитектура ХД
Модели транзакций (ACID, BASE)
-
БД (реляционные, key-value, in-memory, document, колоночные, графовые, поисковые)
Основные форматы хранения данных (csv, json, avro, parquet)
Основные концепции хранилищ данных, "больших" данных: партиции, индексы, шардирование, транзакции.
методы создания DWH (Инмон, Кимбалл, гибрид)
-
-
-
Принципы ключевых зон архитектуры: Storage (data warehouse, data lake, data mart)
Модели данных
- Основы: snowflake, data valult 2.0, anchor
- Что такое ключи и какие бывают (естественные, искуственные, внешние и тд)
- Что такое нормальные формы и зачем они нужны.
-
Слои DWH (сырые, datavault, dds, emart и другие mart)
Актуальность и хронология изменения данных в DWH (SCD, версионность, link )
Оптимизация
-
Снижать стоимость обработки пайплайна storage, compute, ram
Движение данных (Gather, Broadcast, Rebistribute)
Оптимизация конкретной джобы (меньше данных, меньше оперативки) и всего пайплайна
- Как использовать для оптимизации нотацию O(n)
- Как оптимально хранить и использовать данные (distribution, partitioning, перекосы)
-
DataQuality
-
-
Ключевые измерения качества данных (Точность, полнота, консистентность и тд)"
Технологии: Airflow, Greenplum, HDFS, Pyspark