Please enable JavaScript.
Coggle requires JavaScript to display documents.
Pré-processamento de dados (Dados brutos: dados não processados (Tipos de…
Pré-processamento de dados
Dados brutos: dados não processados
Tipos de dados
Estruturados: dados residem em um campo fixo
Não-estruturados: não possui modelo de dados
Semiestruturados: não possui estrutura completa, mas também não é totalmente desestruturado
Problemas
Inconscistência: valores errados
Ruídos: falores valtando
Incompletude: faltar valor
Linha
Coluna
Atributo
Binário: 2 valores
Razão: método de medida define o ponto 0
Ordinal: permite ordenação
Nominal: símbolos ou rótulos distintos
Dados ruidosos
Suavização: diminuir ruídos
Agrupamento: encontrar grupos de grupos de objetos similares entre si
Medoide: objeto do grupo mais central
Centroide: um objeto artificial que corresponde aos valores médios daquele grupo
Aproximação: define-se o modelo de aproximação, aplica-se o modelo aos dados e seleciona-se o valor da função para o ponto desejado em vez do valor real
Encaxotamento: distribuir os valores de um atributo em um tipo de caixa
Mesma Largura: o intervalo de cada caixa tem o mesmo tamanho
Mesma frequência: a quantidade de objetos em cada caixa é a mesma
Preparação da base de dados
Tarefas
Redução de dados: reduzir a quantidade de atributos
Seleção de atributos: selecionar os atributos menos relevantes
Compressão de atributos: reduzir a quantidade de atributos
Redução no número de dados: dados removidos e substituídos por repersentações menores
Discretização: os valoers de atributos são substituidos por intervalos ou níveis conceituais mais elevados, reduzindo a quantidade final de atributos
Amostragem
Amostragem aleatória sem substituição: uma amostra com n elementos distintos (n < N) é retirada aleatóriamente da base de dados
Amostragem aleatória com substituição: cada objeto é retirado da base e devolvido a base
Amostragem sistemática: organizar a base de dados seguindo algum critério
Amostragem por grupo: se uma base de dados está agrupada em m grupos (m < M) podem ser escolhidos aleatoriamente
Amostragem estratificada: se a base de dados está dividida em grupos ou classes, então na amostragem estratificada a proporção de dados de cada classe é mantida
Integração dos dados: concatenação de todos os dados em uma base única
Aspectos
Redundância: quando um mesmo dado aparece em dois locais diferentes
Duplicidade: pode ser utilizado como backup
Conflitos: valores que representam o mesmo tipo em formatos diferentes
Limpeza
Valores ausentes
Métodos de imputação
Imputar de acordo com a última observação: ordenar e imputar o último valor anterior
Imputação do tipo hot-deck: pegar um valor prrenchido aleatóriamente
Usar uma constante global
Usar a média de um atributo
Imputar manualmente: dar manualmente um valor a um dado ausente
Usar a média ou moeda de todos os objetos
Ignorar o objeto: removê-lo da base
Usar modelos preditivos
Transformação
Padronização: resolver problemas as diferenças de unidades e escalas dos dados
Normalização: processo de transformação de dados que objetiva torná-los mais apropriados a aplicação de algum algoritmo de mineração