Please enable JavaScript.
Coggle requires JavaScript to display documents.
MINERAÇÃO DE DADOS PARTE 3 - Coggle Diagram
MINERAÇÃO DE DADOS PARTE 3
1 – ETL
O processo de extrair dados de sistemas de origem e trazê-los para o Data Warehouse é comumente chamado de ETL (Extract, Transform e Load). Galera, é importante entender que o
ETL se refere a um processo mais amplo e, não, a três etapas bem definidas
Ele é o processo mais crítico e demorado na construção de um Data Warehouse, uma vez que
consiste na extração dos dados de fontes homogêneas ou heterogêneas; na transformação e
limpeza destes dados; e na carga dos dados no DW
todo órgão público de médio/grande porte possui – em sua área de tecnologia da informação – uma
gerência responsável por toda essa parte de Business Intelligence
Eu disse que 80% do esforço de desenvolvimento de um DW é ETL! Sabia que 60% do Processo de ETL é só com a Extração? Pois é, essa etapa deve se basear na busca das
informações mais importantes em aplicações ou fontes externas. Pessoal, essa busca geralmente
não é tão simples! Dados podem estar distribuídos em dezenas de lugares, tecnologias ou plataformas diferentes necessitando de formas de extração distintas para cada local.
No momento da criação de
um DW, é comum realizar uma carga de dados inicial, mas com o decorrer do tempo a extração
deve estar preparada apenas para fazer cargas incrementais.
2-ETL
Professor, e para onde vão esses dados que foram extraídos, mas
ainda não foram transformados e carregados no Data Warehouse? Excelente pergunta! Resposta:
eles vão para um local chamado Stage Area! O que é isso, professor? Vocês devem se lembrar que
uma das características essenciais de um Data Warehouse é sua integridade.
Relembrando: os dados devem estar padronizados, consistentes e uniformizados antes de serem
carregados no Data Warehouse! Para tal, eles precisam ser limpos, entre outras atividades. Isso
tudo ocorre na Stage Area, portanto ela é basicamente uma localização temporária de onde os
dados de diversas fontes de origem são copiados.
Adivinhem só: Stage Area é similar à Área de Transferência, isto é, uma localização de
armazenamento temporário. Seguindo: a transformação dos dados é a fase subsequente à
extração. Esta fase não só transforma os dados, mas também realiza a limpeza dos mesmos.
Já a fase de carga consiste no carregamento dos dados para seu destino final