Please enable JavaScript.
Coggle requires JavaScript to display documents.
Cap 2: Pré-processamento de Dados (Introdução (Pré-processamento de dados,…
Cap 2: Pré-processamento de Dados
Introdução
Nomenclatura e tipos de dados
Com relação à estrutura dos dados
Semiestruturados
Exemplos
Arquivos XML
E-mails
A estrutura não é rígida
Geralmente são usados marcadores (tags) para identificar certos elementos dos dados
Não possui a estrutura completa de um modelo de dados
Não estruturados
Costumam ser de difícil indexação, acesso e análise
Exemplos
Textos livres
Imagens
Vídeos
Sons
Páginas web
Arquivos PDF
Não está organizado de maneira predefinida
Não possui um modelo de dados
Estruturados
Dados residem em campos fixos em um arquivo (tabela, planilha, BD)
O modelo de dados descreve os tipo de dados que serão armazenados , acessados e processados
Dependem da criação de um modelo de dados
Descrição dos objetos, suas propriedades e relações
Vantagem: facilidade de armazenagem, acesso e análise
Dados
São valores quantitativos ou qualitativos associados a alguns atributos
Nomenclatura
Cada coluna
Corresponde a atributos ou variáveis
Quando um atributo representa uma saída, um efeito ou valor que se deseja testar
É chamado atributo dependente
Exemplo: IMC
Cada linha
É um objeto ou instância
Quando um atributo representa uma entrada
É chamado tributo independente
Exemplo: peso e altura
Os dados em geral são denominados dados de treinamento/entrada
O valor de um atributo de um objeto é uma medida da quantidade daquele atributo
Atributo numérico
Podem assumir quaisquer valores numuméricos
Valores discretos (inteiros)
Valores contínuos (reais)
Atributo categórico
Assumem valores correspondentes a símbolos distintos
Níveis de medida para atributos categóricos e numéricos
Atributo nominal
Atributo ordinal
Atributo binário
Atributo razão
Bases de dados do capítulo
Dados fonte/atômicos (brutos)
Aqueles ainda não processados para uso
Tipos de problemas com os dados
Ruído
Um dados ruidoso é aquele que apresenta alguma variação em relação ao seu valor sem ruído
Ruídos na base de dados podem levar a inconsistências
Inconsistência
Um dado inconsistente
Ocorre quando diferentes e conflitantes versões do mesmo dado aparecem em locais variados
Aquele cujo valor está fora do domínio do atributo
Violação de domínio
Apresenta grande discrepância em relação aos outros dados
Discrepância
Incompletude
Atributo ausente
Objeto ausente
Valor ausente
Podem faltar valores de um dado atributo
Pré-processamento de dados
Etapa para conhecer e preparar de forma adequada os dados para análise
Pode tornar todo o processo de mineração mais eficiente e eficaz
GIGO (garbage in-garbage out)
"Lixo colocado para dentro, lixo colocado para fora"
Assume que a qualidade de saída do sistema depende da qualidade de sua entrada
Baseado na observação de que boas entradas geralmente resultam em boas saídas
Entradas ruins costumam resultar em saídas ruins
Objetivo
Preparar os dados brutos para serem analisados
Exemplo de processo de preparação da base de dados
Discretização
Transformação dos dados
Limpeza dos dados
Redução dos dados
Limpeza dos dados
Dados ruidosos
Dados inconsistentes
Valores ausentes
O processo de preparação de base de dados
Redução dos dados
Compreensão de atributos
Redução do número da dados
Transformação dos dados
Padronização
Normalização
Discretização
Integração de dados