Please enable JavaScript.
Coggle requires JavaScript to display documents.
Pré-processamento de Dados - Coggle Diagram
Pré-processamento de Dados
Processo que busca a preparação, organização e estruturação dos dados para serem enviados posteriormente ao modelo de IA, evitando assim erros de previsão do algoritmo e limitando a quantidade de informações a serem analisadas. Funciona como uma espécie de filtro.
Toma a maior parte do tempo do projeto, cerca de 70 a 80°/º
Limpeza de dados
Atua em partes irrelevantes ou ausentes do
conjunto de dados inicialmente reunidos, preenchendo dados ausentes, eliminando dados aberrantes e corrigindo inconsistências.
Dados faltantes
Ou calcula-se uma média com os valores de mesmo atributo.
Ou uma mediana com valores de mesmo atributo
Remove-se os registros com
atributos nulos
Ou uma moda
Dados ruidosos:
que não são facilmente interpretados. Gerados por erros na entrada ou na coleta de dados
Regressão
Os dados são suavizados por uma regressão simples ou múltipla
Agrupamento
Agrupa dados semelhantes em clusters, deixando outliers de fora ou tradando-os separadamente.
Método de Binning
Os dados originais são divididos em pequenos intervalos(compartimentos) e, em seguida, são substituídos por um valor geral calculado para esse compartimento.
Transformações de dados
Faz uma conversão dos dados disponíveis para
formatos que a máquina possa interpretar
Seleção de Atributos: Um novo atributo é gerado a partir de um conjunto de atributos.
Discretização: limita valores contínuos a um limite de estados possíveis, tornando-os valores discretos.
Normalização: Atribui um intervalo especificado, como -1,0 a 1,0 ou 0,0 a 1,0 para as informações dos dados.
Geração de hierarquia de conceitos: Os atributos mais específicos são convertidos em atributos mais gerais e abrangentes, aumentando sua hierarquia.
Redução de dados
Utilizado para aumentar a eficiência e reduzir custos relacionados ao processamento de grande quantidade de dados.
Seleção de subconjunto de atributos: Seleciona apenas os atributos altamente relevantes .Usa o nível de significância e o valor p do atributo. O atributo com valor p maior que o nível de significância é descartado.
Agregação de cubo de dados: Constrói um cubo de dados, o que permite um processamento mais rápido porque não varre toda a base em busca de determinado valor. Porém gera maior necessidade de armazenamento.
Redução da numerosidade: Substitui os dados por alternativas de representação de informações menores, como modelos paramétricos que armazenam apenas os parâmetros do modelo em vez dos dados reais ou métodos não paramétricos.
Redução de dimensionalidade: Processo que reduz o tamanho dos dados por codificação podendo ter perdas ou não. Se os dados originais puderem ser recuperados após a reconstrução, essa redução será chamada de redução sem perdas. Senão, será denominada redução com perdas.
Transformação de Wavelet
PCA (Principal Component Analysis).