Please enable JavaScript.
Coggle requires JavaScript to display documents.
Progettazione di un Data Warehouse - Coggle Diagram
Progettazione di un Data Warehouse
Perché il paradigma relazionale NON è adatto ai Data Warehouse
I database relazionali (OLTP) sono ottimi per gestire transazioni (inserimenti, modifiche, cancellazioni…), ma non per fare analisi complesse.
Per un Data Warehouse servono:
query molto veloci, anche su miliardi di record
strutture semplici da capire per i manager
ridondanza accettata (meno normalizzazione, più velocità)
→ Per questo si usa un modello diverso: la modellazione multidimensionale.
Modellazione Multidimensionale (DM)
È il modello concettuale più usato per creare Data Warehouse.
Si basa su due concetti:
fatti
Rappresentano l’evento o l’azione che vogliamo analizzare.
La tabella dei fatti contiene:
misure (quantità numeriche)
Le misure sono quelle che gli utenti analizzano, sommano, confrontano.
Sono valori numerici che quantificano un fatto.
chiavi per collegarsi alle dimensioni
dimensioni
Le dimensioni permettono di analizzare i fatti da diverse prospettive.
Le dimensioni hanno attributi che formano gerarchie.
le gerarchie
Le gerarchie permettono di navigare i dati a diversi livelli di dettaglio.
Quando saliamo nella gerarchia (es. da mesi ad anni), le misure vengono aggregate (somma, media, max…).
Schema a Stella
È la struttura più comune.
Caratteristiche:
una tabella dei fatti al centro
attorno una tabella per ogni dimensione
le dimensioni non sono normalizzate → contiene ridondanza
🟢 Pro: molto veloce per analisi🔴 Contro: ridondanza
Schema a Fiocco di Neve
È una variante più normalizzata.
Caratteristiche:
le dimensioni sono suddivise in più tabelle
meno ridondanza
struttura più complessa
🟢 Pro: meno spazio, maggiore coerenza🔴 Contro: query più lente (più JOIN)
ETL – Estrazione, Trasformazione, Caricamento
È il processo che popola il Data Warehouse.
Rappresenta l’80% del lavoro totale.
1.Estrazione dei Dati
Prelievo dei dati dalle fonti (DB operativi, file, web…).
Tipi:
Estrazione statica: prima costruzione del DW (istantanea)
Estrazione incrementale: aggiorna solo le novità (log, timestamp)
Trasformazione dei dati
Converte i dati nel formato standard del DW.
Include:
🔹 a. Pulizia dei dati
Corregge:
duplicati
valori mancanti
errori di battitura
formati incoerenti
valori impossibili (es. anno = 209, età = -10)
🔹 b. Integrazione
Riconcilia dati provenienti da diversi sistemi (es. “ITA”, “Italy”, “IT” → “Italia”).
🔹 c. Aggregazione
Adatta il livello di dettaglio ai requisiti del DW.
3.Caricamento
Inserisce i dati trasformati nel Data Warehouse, con una frequenza:
giornaliera
oraria
o in tempo quasi reale
Include anche l'aggiornamento delle tabelle dei fatti e delle dimensioni.
Sistemi OLTP (Database Operativi)
OLTP = Online Transaction ProcessingSono sistemi progettati per:
gestire transazioni rapide
molti utenti contemporanei
dati sempre aggiornati
Caratteristiche dei dati OLTP:
dettagliati (es. ogni singola vendita)
non storici
altamente normalizzati (tante tabelle)
prestazioni pessime per query complesse→ perché usano molte JOIN e aggregazioni