Data Warehouse

intro

Perché data warehouse?

Producono informazioni fruibili a libelli diversi di dettaglio per applicazioni di analisi

Sono dei sistemi che analizzano i dati in maniera separata in modo da:

  • analizzare lo stato (di un'azienda)
  • prendere decisioni rapide e migliori

Dati separati dalla base di dati operativa

I dati analizzati sono:

  • orientati ai soggetti di interesse
  • integrati e consistenti
  • dipendenti dal tempo, non volatili

Separati perché

Migliori prestazioni nella gestione e analisi dei dati

Minor quantità di dati da gestire, i.e. semplicità

Struttura e rappresentazione dei dati

Rappresentazione multidimensionale

ipercubo
Rappresentati come un ipercubo

I dati sono rappresentati come punti nello spazio del cubo. Le misure (su cui si analizzano i dati) sono individuate dalle intersezioni delle dimensioni

Rappresentazione relazionale

Le misure sono memorizzate nella tabella dei fatti
Le dimensioni descrivono il contesto di ciascuna misura

start schema
esempio di modello a stella

Bisogna tenere in considerazione la dimensione di una data warehouse. Possono diventare giganteschi!

Analisi dei dati

analisi OLAP

A differenza degli OLTP il loro obbietivo principlae è analizzare i dati

I data warehouse sono sistemi OnLine AnaliticalProcessing

Tecniche di data mining

Pesante componente algoritmica

Varie tipologie di analisi

Presentazione dei dati

possono essere usati diversi strumenti

Ricerca di motivazioni

esplorazione dei dati mediante approfondimenti

come il drill down

Architetture dei data warehouse

Processo generale

Sorgenti di dati esterne

(e.g. OLTP Systems)

Strumenti ELT

Data Warehouse

Data marts

Strumenti di analisi

ELT: Extract, Load, Transform

Analisi completa

Il data mart è un sottoinsieme dipartimentalizzato focalizzato su un settore prefissato

due possibilità di alimentazione

  • data warehouse primario
  • direttamente dalle sorgenti

Dev'essere progettato attentamente in modo da evitare problemi di integrazione

OLAP Servers

Multidimentional OLAP
(Rappresentazione in forma matriciale, ottima se i dati sono poco sparsi)

Hybrid OLAP
(un ibrido tra le altre due

Processo eseguito durante il primo popolamento del DW e per aggiornare periodicamente i dati

Estrazione: ovvero acquisizione

Trasformazione dei dati nel formato operazionale

Caricamento: propagazione dei dati verso il DW

metadati

"Dati sui dati"

descrivono i dati sorgenti e le trasformazioni necessarie

descrivono la struttura dei dati all'interno del DW

dati ulla struttura del query e sul monitoraggio delle loro esecuzione

Relational OLAP
(obsoleti ma ottimi per la rappresentazione compatta dei dati sparsi)

Architetture a due livelli

Livello sorgente

Livello DW

Architettura a tre livelli

Livello sorgente

Staging area
(Livello di alimentazione)

Livello DW

Separazione del carico transazionale da quello analitico

Facilità di gestione delle diverse granularità

Analisi ELT eseguite al volo

disaccoppiamento delle sorgenti per i sistemi transazionali da quelli del DW

Permette di eseguire operazioni ET molto complesse ma introduce ulteriore ridondanza

livello sorgente

staging area

Livello del DW