Please enable JavaScript.
Coggle requires JavaScript to display documents.
Data Mining (Relações (Associação: ocorrênc ligadas a 1 único evento. P…
Data Mining
Relações
Associação: ocorrênc ligadas a 1 único evento. P exemplo: um estudo de modelos de compra em supermercados pode revelar que, na compra de salgadinhos de milho, compra-se também um refrigerante tipo cola em 65% das vezes
Sequências: os eventos estão ligados ao longo do tempo. Pode-se descobrir q qd se compra uma casa, em 65% as vezes se adquire 1 nova geladeira no período d 2 semanas
Classificação: Reconhece modelos que descrevem o grupo ao qual o item pertence por meio do exame dos itens já classificados e pela inferência de um conjunto de regras
Aglomeração (clustering): Funciona de maneira semelhante a classificação quando ainda não foram definidos grupos
-
Regressão ou Predição: aprendizado d 1 função q pode ser usada p mapear os valores assoc aos dados em 1 ou mais valores reais. É similar à Classificação, c a dif d q o atributo alvo assume valores numéric. A Regressão Linear tem c/o objetiv fornec 1 previsão d certos dados d acordo c 1 série histórica, q deve seguir 1 modelo linear, ou seja, deve se encaixar melhor por 1 reta q repres os dados. A Regressão Múltipla é 1 extensão da regressão linear, onde 2 ou + variá são envolv e os dados são combin numa superf multidimens
Profiling: refere-se ao processo d construção e aplicação de perfis d usr gerados pela análise d dados computadorizada
Principais
técnicas
O Data Mining (DM) descende fundamentalm d 3 linhagens. A + antiga delas é a estatística clássica. A 2ª é a Inteligênc Artificial. E a 3ª é a chamada machine learning, q pode ser melhor descrita c/o o casamento entre a estatística e a IA
Redes neurais: são sistemas baseados numa aproximaç à computaç baseada em ligações. Nós simples (ou neurões, neurônios, processadores ou unidades) são interligados para formar uma rede de nós.
Indução de regras: ou Rule Induction, ref à detecção de tendênc dentro d grupos d dados, ou d regras sobre o dado
Árvores d decisão: baseiam-se numa análise que trabalha testando automaticam todos os valores do dado p identific aqueles q são fortemente assoc c os itens d saída selec p exame. Os valores q são encontrados c forte associação são os prognósticos chaves ou fatores explicativos, usualmente chamados de regras sobre o dado
Analise de séries temporais: baseada na estatística e exige 1 envolvim muito forte do usr e de engenheiros experientes, p construir modelos q descrevem o comportam do dado através dos métodos clássicos de matemática. A análise de séries temporais é frequentemente confundida c/o 1 gênero mais simples de DM chamado “forecasting” (previsão).
Visualizaç: mapeia o dado sendo minerado de acordo com dimensões especific. Nenhuma análise é executada pelo programa d DM além d manipulação estatística básica. O usr, então, interpreta o dado enquanto olha p o monitor
Conceitos
Consiste em 1 proc analítico projetado p explorar grandes qtd d dados, na busca d padrões consist e/ou relac sistemátic entre variáveis e, então, validá-los aplicando os padrões detectados a novos subconjuntos de dados
O processo consiste basicamente em 3 etapas: exploração, construç d modelo ou def do padrão e validação/verificaç
Pode-se então dif o BI da mineraç d dados c/o 2 patamares distintos. O 1º busca subsid a empresa c conhec novo e útil acerca do seu meio ambient e func no plano estratég. O 2º visa obter a partir dos dados operat brutos, info útil p subsid a tomada d decisão na alta/média ger e func no plano tático
O conhec pode ser apresent d diversas formas: agrupam, hipóteses, regras, árvor d decisão, grafos ou dendrogramas