Cap 2: Pré-processamento de Dados

Introdução

Exemplo de processo de preparação da base de dados

Limpeza dos dados

O processo de preparação de base de dados

Redução dos dados

Transformação dos dados

Discretização

Integração de dados

Nomenclatura e tipos de dados

Bases de dados do capítulo

Dados ruidosos

Dados inconsistentes

Valores ausentes

Compreensão de atributos

Redução do número da dados

Padronização

Normalização

Discretização

Transformação dos dados

Limpeza dos dados

Redução dos dados

Dados fonte/atômicos (brutos)

Aqueles ainda não processados para uso

Tipos de problemas com os dados

Ruído

Inconsistência

Incompletude

Atributo ausente

Objeto ausente

Valor ausente

Podem faltar valores de um dado atributo

Um dado inconsistente

Ocorre quando diferentes e conflitantes versões do mesmo dado aparecem em locais variados

Aquele cujo valor está fora do domínio do atributo

Violação de domínio

Apresenta grande discrepância em relação aos outros dados

Discrepância

Um dados ruidoso é aquele que apresenta alguma variação em relação ao seu valor sem ruído

Ruídos na base de dados podem levar a inconsistências

Pré-processamento de dados

Etapa para conhecer e preparar de forma adequada os dados para análise

Pode tornar todo o processo de mineração mais eficiente e eficaz

GIGO (garbage in-garbage out)

"Lixo colocado para dentro, lixo colocado para fora"

Assume que a qualidade de saída do sistema depende da qualidade de sua entrada

Baseado na observação de que boas entradas geralmente resultam em boas saídas

Entradas ruins costumam resultar em saídas ruins

Objetivo

Preparar os dados brutos para serem analisados

Com relação à estrutura dos dados

Dados

São valores quantitativos ou qualitativos associados a alguns atributos

Semiestruturados

Não estruturados

Estruturados

Dados residem em campos fixos em um arquivo (tabela, planilha, BD)

O modelo de dados descreve os tipo de dados que serão armazenados , acessados e processados

Dependem da criação de um modelo de dados

Descrição dos objetos, suas propriedades e relações

Vantagem: facilidade de armazenagem, acesso e análise

Exemplos

A estrutura não é rígida

Geralmente são usados marcadores (tags) para identificar certos elementos dos dados

Não possui a estrutura completa de um modelo de dados

Costumam ser de difícil indexação, acesso e análise

Exemplos

Não está organizado de maneira predefinida

Não possui um modelo de dados

Arquivos XML

E-mails

Textos livres

Imagens

Vídeos

Sons

Páginas web

Arquivos PDF

Nomenclatura

Cada coluna

Quando um atributo representa uma saída, um efeito ou valor que se deseja testar

Cada linha

Quando um atributo representa uma entrada

Os dados em geral são denominados dados de treinamento/entrada

O valor de um atributo de um objeto é uma medida da quantidade daquele atributo

É um objeto ou instância

Corresponde a atributos ou variáveis

É chamado atributo dependente

Exemplo: IMC

É chamado tributo independente

Exemplo: peso e altura

Atributo numérico

Atributo categórico

Podem assumir quaisquer valores numuméricos

Valores discretos (inteiros)

Valores contínuos (reais)

Assumem valores correspondentes a símbolos distintos

Níveis de medida para atributos categóricos e numéricos

Atributo nominal

Atributo ordinal

Atributo binário

Atributo razão