Please enable JavaScript.
Coggle requires JavaScript to display documents.
Aula 21 - Coggle Diagram
Aula 21
Mineração
de dados
Intro
-
-
Padrões úteis decisões não triviais:
- Caixa preta: entranhas são efetivamente incompreensíveis
- Caixa transparente: construção revela a estrutura do padrão
Parões estruturais: representados em termos de uma estrutura que pode ser examinada, fundamentada e usada para informar decisões futuras
(Capturam a estrutura de decisão de maneira explícita)
Conceitos
Básicos
Laudon&Laudon: É a análise de grandes quantidades de dados a fim de encontrar padrões e regras que possa ser usadas para orientar a tomada de decisoes e prever o comportamento futuro
Normalmente envolve limpeza, interação, seleção, transformação de dados, descoberta e avaliações de padroes e apresentação de conhecimento
Pode ser realizada em qq tipo de dados, desde que sejam significativos para um app de destino, como BD, data warehouse, dados transacionais e tipos de dados avançados
Data warehouse: repertório para armazenamento a longo prazo(dados de várias origens, organizados de modo a facilitar a tomada de decisões gerenciais
MD multidimensional:integra técnicas de mineração com analise multidimencional baseada em OLAP
- OLAP : processamento analítico online
- MD procura padroes interessantes em multiplas combinações de dimensões(atributos) em níveis variados de abstração
Falácias do
datamining
- "Datamining e automático" é um processo inerativo, requer supervisão
- -"Investimentos são recuperados rapidamente" depende de muitos fatores
- "Software são intuitivos e simples" é mais importante conhecer os conceitos dos algorítimos e o negócio em si
- "DM pode identificar problemas no negocio" na vdd pode encontrar padroes e fenomenos
Tarefas
-
- Descritivas: caracterizam as propriedades gerais dos dados em um BD (focam em achar padroes reonhecidos por humanos para descrever os dados
- Preditivas:realizam uma inferência sobre os dados atuais para fazer previsões futuras sobre os mesmos)
- Topdown(testes de hipóteses): verificar ou refutar notações preconcebidas, ideias e palpites referentesàs relações de dados
- Bottom-up(descoberta do conhecimento): Na descoberta de conhecimento a análise sobre os dados é feita sem suposições prévias(dados são autorizados a faar por si)
Algumas tarefas
para MD
- Classificação(preditiva)
- Clustering(descritiva)
- Regra de associação(Dscritiva)
- Regressão(Preditiva)
- Detecção de desvios(Preditiva)
- Principais técnicas de mineração:
- estatisticas, aprendizado máquina e as baseadas em crescimento-poda-validação
- Dimenção: quantidade de atributos de um conjunto de dados
- Resolução: granularidade dos dados
- Dispersão: maioria dos valores é NULL(desconhecido) ou um valor padrao
- Método para identificar padroes em dados:
- Modelo simples(consultas baseadas em SQL, OLAP, raciocíno humano
- Modelos intermediários(regressão, árvores de decisão, agrupamento)
- Modelos complexos(redes neurais, indução de regras)))
Processo
de mineração
- Limpeza dos dados: Eliminados ruidos e dados inocnsistentes
- Integração dos dados: combinação diferentes fontes de dados produzindo um unico repertório
- Seleção: Selecionado os atributos que interessam ao usuário (ex:user pod decidir-endereo e tel nao ao relevantes)
- Transformação dos dados: num formato apropriado para aplicação de algoritimos
- Mineração: aplicação de técnicas inteligentes para se extrair padroes de interesse
Entendimento dos dados (utilizando-se de conjuntos de dados "modelo") - selecionr e coletar conjunto de dados apos ter definido o dominio que se pretende executar no processo de descoberta
- 1- coleta inicial dos dados com procedimentos visando à familiarização com os dados
- 2- (Data Preparation) visa à limpeza, transformação, integração e formatação dos dados da etapa 1
- Data warehouses: facilita o processo de mineração de dados (pois correspondem mais de 50% do trabalho)
- por isso deve-se ter boas páricas habituais(data cleansing)
Modeling - Várias técnicas de modelagem de dados são usadas
- Algumas tecnicas que necessitam (preparação de dados)voltar à fase anterior
Evaluation: garantir que modelo gerado atenda às espectativas da organização - identificar necessidade de retornar às faseses anterior
Deployment(execução): Definição das fases de implantação do projeto de mineração de dados
- Dependendo das exigencias pode ser bem simples(ex:gerar relatorio) em muitos casos é proprio cliente que faz e nao o analista de dados
Pré-
processamento
-
-
Avaliar dos dados: Acurácia, completude, consistencia, se eles estão corretos em relação ao tempo, confiabilidade, grau de agregação de valor, capacidade de interpretação dos mesmos e acessibilidade
Tarefas
Essas tarefas tem correlaão com atividades de transformação do processo ETL e nao se confundem com as tarefas de mineração
- Limpeza de dados: Preenche valores faltantes, suavisa ruidas, identifica/remove outliers e resolve inconsistências
- Integração: ados de origem diferentes integrados
- Transformação: Normalização e agregação de dados
- Redução: Tenta reduzir o volume de dados sem provocar grandes alteraçãoes no resultado final
- Discretização: Faz parte da redução - visa estabelecer valores discretos para variaveis continuas
Tarefas de
Mineração
As funcionalidades de MD são usadas para especificar os tipos de padroes/conhecimento encontrados nas tarefas de mineração de dados
- Essas funcionalidades incluem
- classificação e discriminação;
- mineração de padroes frequentes, associações e correlaçções;
- classificação e regressão;
- analise de cluster; e detecção de outliers
Regras de
associação
Presença de um conjunto de itens com outra faixa de variáveis(ex: mulher que compra sapato x tbm compra a bolça y)
-
A regra precisa satisfazer algumas medidas:
- Suporte: medida objetiva, representa a porcentagem de transações em que a regra se verifica
- confiança: medida objetiva- mede o grau de certeza de uma associação (probalidade condicional- % de transações X que tbm contem Y)
- 3 passos principais da regra de associação:
- 1 Gerar todas as combinações de itens
- 2 Descobrir todos os conjuntos
- Conjunto pequeno não satisfazem as condições
- Conjunto Grande: satisfaz as condições
- 3- Gerar regras de associação para a base de dados
Classificação
- Definição das classes
- Conjunt de dados para aprendizado
Ex: Classificar, a partir de um conjunto de características, em "bom comprador" ou "Mal comprador"
Agrupamento
-
Queremos achar grupos naturais nos dados onde dados em um mesmo grupo sao semelhantes entre si e dados de grupos diferentes que são diferentes entre si
Algoritimos
- Particionais: construir diversas partições com algum criterio
- Hierárquicos: decomposição hierárquica usando algum critério
-
Conceitos
Complementares
- Classificação da MD de acordo com a forma:
- Preditivo: como os dados vao se comportar no futuro
- Textual:Obter informações utilizando fontes de dados textuais
- Espacial: Descoberta de padroes usando BD espaciais povoados por mapas
A MD apoia o conhecimento indutivo-que descobre novas regras e padroes nos dados fornecidos
- Formas da representação do conhecimento
- Quando n estruturado pode ser representado por regras/logica proposicional
- Quando estruturado=arvores de decisão, redes semanticas, neurais ou hierarquia de classes/frames
- OLAP: possibilita uma forma multipla e combinada de analise
- Data Mining: objetiva o reconhecimento de padroes escondidos nos dados, os quais n sao necessariamente revelados pelo OLAP
- Mineração de textos: Processo que utiliza tecnicas de analisee extração de dados a partir de textos, frases ou apenas palavras(envolve aplicação de algoritimos computacionais que processam textos
- analise qualitativa e quantitativa de grandes volumes de textos e melhor compreenção do conteúdo disponivel em documentos textuais
- EX: Ferramenta de busca do google
-