Cap 2: Pré-processamento de Dados
Introdução
Exemplo de processo de preparação da base de dados
Limpeza dos dados
O processo de preparação de base de dados
Redução dos dados
Transformação dos dados
Discretização
Integração de dados
Nomenclatura e tipos de dados
Bases de dados do capítulo
Dados ruidosos
Dados inconsistentes
Valores ausentes
Compreensão de atributos
Redução do número da dados
Padronização
Normalização
Discretização
Transformação dos dados
Limpeza dos dados
Redução dos dados
Dados fonte/atômicos (brutos)
Aqueles ainda não processados para uso
Tipos de problemas com os dados
Ruído
Inconsistência
Incompletude
Atributo ausente
Objeto ausente
Valor ausente
Podem faltar valores de um dado atributo
Um dado inconsistente
Ocorre quando diferentes e conflitantes versões do mesmo dado aparecem em locais variados
Aquele cujo valor está fora do domínio do atributo
Violação de domínio
Apresenta grande discrepância em relação aos outros dados
Discrepância
Um dados ruidoso é aquele que apresenta alguma variação em relação ao seu valor sem ruído
Ruídos na base de dados podem levar a inconsistências
Pré-processamento de dados
Etapa para conhecer e preparar de forma adequada os dados para análise
Pode tornar todo o processo de mineração mais eficiente e eficaz
GIGO (garbage in-garbage out)
"Lixo colocado para dentro, lixo colocado para fora"
Assume que a qualidade de saída do sistema depende da qualidade de sua entrada
Baseado na observação de que boas entradas geralmente resultam em boas saídas
Entradas ruins costumam resultar em saídas ruins
Objetivo
Preparar os dados brutos para serem analisados
Com relação à estrutura dos dados
Dados
São valores quantitativos ou qualitativos associados a alguns atributos
Semiestruturados
Não estruturados
Estruturados
Dados residem em campos fixos em um arquivo (tabela, planilha, BD)
O modelo de dados descreve os tipo de dados que serão armazenados , acessados e processados
Dependem da criação de um modelo de dados
Descrição dos objetos, suas propriedades e relações
Vantagem: facilidade de armazenagem, acesso e análise
Exemplos
A estrutura não é rígida
Geralmente são usados marcadores (tags) para identificar certos elementos dos dados
Não possui a estrutura completa de um modelo de dados
Costumam ser de difícil indexação, acesso e análise
Exemplos
Não está organizado de maneira predefinida
Não possui um modelo de dados
Arquivos XML
E-mails
Textos livres
Imagens
Vídeos
Sons
Páginas web
Arquivos PDF
Nomenclatura
Cada coluna
Quando um atributo representa uma saída, um efeito ou valor que se deseja testar
Cada linha
Quando um atributo representa uma entrada
Os dados em geral são denominados dados de treinamento/entrada
O valor de um atributo de um objeto é uma medida da quantidade daquele atributo
É um objeto ou instância
Corresponde a atributos ou variáveis
É chamado atributo dependente
Exemplo: IMC
É chamado tributo independente
Exemplo: peso e altura
Atributo numérico
Atributo categórico
Podem assumir quaisquer valores numuméricos
Valores discretos (inteiros)
Valores contínuos (reais)
Assumem valores correspondentes a símbolos distintos
Níveis de medida para atributos categóricos e numéricos
Atributo nominal
Atributo ordinal
Atributo binário
Atributo razão