intro
Perché data warehouse?
Producono informazioni fruibili a libelli diversi di dettaglio per applicazioni di analisi
Sono dei sistemi che analizzano i dati in maniera separata in modo da:
- analizzare lo stato (di un'azienda)
- prendere decisioni rapide e migliori
Dati separati dalla base di dati operativa
I dati analizzati sono:
- orientati ai soggetti di interesse
- integrati e consistenti
- dipendenti dal tempo, non volatili
Separati perché
Migliori prestazioni nella gestione e analisi dei dati
Minor quantità di dati da gestire, i.e. semplicità
Struttura e rappresentazione dei dati
Rappresentazione multidimensionale
Rappresentati come un ipercubo
I dati sono rappresentati come punti nello spazio del cubo. Le misure (su cui si analizzano i dati) sono individuate dalle intersezioni delle dimensioni
Rappresentazione relazionale
Le misure sono memorizzate nella tabella dei fatti
Le dimensioni descrivono il contesto di ciascuna misura
esempio di modello a stella
Bisogna tenere in considerazione la dimensione di una data warehouse. Possono diventare giganteschi!
Analisi dei dati
analisi OLAP
A differenza degli OLTP il loro obbietivo principlae è analizzare i dati
I data warehouse sono sistemi OnLine AnaliticalProcessing
Tecniche di data mining
Pesante componente algoritmica
Varie tipologie di analisi
Presentazione dei dati
possono essere usati diversi strumenti
Ricerca di motivazioni
esplorazione dei dati mediante approfondimenti
come il drill down
Architetture dei data warehouse
Processo generale
Sorgenti di dati esterne
(e.g. OLTP Systems)
Strumenti ELT
Data Warehouse
Data marts
Strumenti di analisi
ELT: Extract, Load, Transform
Analisi completa
Il data mart è un sottoinsieme dipartimentalizzato focalizzato su un settore prefissato
due possibilità di alimentazione
- data warehouse primario
- direttamente dalle sorgenti
Dev'essere progettato attentamente in modo da evitare problemi di integrazione
OLAP Servers
Multidimentional OLAP
(Rappresentazione in forma matriciale, ottima se i dati sono poco sparsi)
Hybrid OLAP
(un ibrido tra le altre due
Processo eseguito durante il primo popolamento del DW e per aggiornare periodicamente i dati
Estrazione: ovvero acquisizione
Trasformazione dei dati nel formato operazionale
Caricamento: propagazione dei dati verso il DW
metadati
"Dati sui dati"
descrivono i dati sorgenti e le trasformazioni necessarie
descrivono la struttura dei dati all'interno del DW
dati ulla struttura del query e sul monitoraggio delle loro esecuzione
Relational OLAP
(obsoleti ma ottimi per la rappresentazione compatta dei dati sparsi)
Architetture a due livelli
Livello sorgente
Livello DW
Architettura a tre livelli
Livello sorgente
Staging area
(Livello di alimentazione)
Livello DW
Separazione del carico transazionale da quello analitico
Facilità di gestione delle diverse granularità
Analisi ELT eseguite al volo
disaccoppiamento delle sorgenti per i sistemi transazionali da quelli del DW
Permette di eseguire operazioni ET molto complesse ma introduce ulteriore ridondanza
livello sorgente
staging area
Livello del DW