Please enable JavaScript.
Coggle requires JavaScript to display documents.
10- Mineração de Dados -( Parei na Pag 124 - exercícios) - Coggle Diagram
10- Mineração de Dados -( Parei na Pag 124 - exercícios)
Tipos de Algoritmos
Classificação
A ideia da técnica de
classificação é categorizar coisas
k-NN (k-Nearest
Neighbours)
K é
um valor arbitrário escolhido pelo supervisor que indica a quantidade de vizinhos
É um classificador de aprendizado supervisionado não paramétrico baseado em distância que pode ser utilizado tanto para classificação quanto para regressão
Dizer que o algoritmo é n
ão paramétrico significa dizer que ele não pressupões que as entradas e as saídas de dados sigam uma função matemática específica.
É supervisionado porque o usuário precisa definir o valorde k ( quantidade de vizinhos que o algoritmo classificará)
Árvore de Decisão
É
basicamente uma representação gráfica de regras de classificação
Elas demonstram visualmente as condições para categorizar dados por meio de uma estrutura que contém nó raiz, nós folha e nós finais
Seu processo de construção automático e recursivo a partir de um conjunto de dados
pode ser considerado um algoritmo de aprendizado de máquina
As árvores de decisão podem gerar regras compreensíveis e executam a classificação sem exigir muitos cálculos,
sendo capazes de lidar com variáveis contínuas e categóricas
As árvores de decisão são bastante propensas ao overfitting dos dados de treinamento
Uma única árvore de decisão normalmente não faz grandes previsões, portanto várias árvores são frequentemente
combinadas em forma de florestas chamadas (Random Forests)
.
Usa a estratificação para classificação dos dados.
Os algoritmos de árvore de decisão mais comuns são: ID3, c4.5 e CART ( Classification and Regression trees)
Regras de Classificação
são regras de fácil interpretação no estilo se (antecedente), então (consequente)
em que o antecedente é um conjunto de testes e o consequente é a classe ou distribuição de probabilidades sobre as classes
São algoritmos supervisionados
Florestas Aleatórias
Random forests
permitem combinar a simplicidade de árvores de decisão com flexibilidade para melhorar significativamente a acurácia das previsões, sendo utilizadas tanto para
classificação quanto para regressão
Em relação às árvores de decisão individuais, podemos afirmar que esse algoritmo é capaz de fazer previsões mais acuradas, dado que ele combina previsões de diversas árvores de decisão treinadas em diferentes subconjuntos do conjunto de dados de treinamento original
A técnica que combina múltiplos bootstrapping de dados com uma agregação final é chamada de bagging (bootstrapping aggregation)
Florestas aleatórias são capazes de resolver problemas de classificação ou regressão e funcionam bem com
variáveis categóricas ou contínuas
A utilização de florestas aleatórias permite reduzir o overfitting (veremos mais à frente) ao reduzir a variância e, portanto, melhorar a acurácia;
Classificador Naive Bayes
O Classificador Naive Bayes
é um classificador probabilístico baseado no
Teorema de Bayes
com
hipótese forte de independência entre seus atributos/variáveis
Lembrar do cálculo dos e-mails spam
Tem alto viés e baixa variância
Para o algoritmo de árvore de decisão, a ordem das perguntas importa; no classificador ingênuo( Naive Bayes), a
ordem das perguntas não importa porque as variáveis são consideradas não correlacionáveis
Ele funciona bem com a classificação de texto, processamento de linguagem natural, detecção de spam, entre outros.
Ele também é capaz de realizar, com precisão, o treinamento de um modelo com uma quantidade reduzida de amostras
Como desvantagens, podemos destacar que ele assume que as variáveis são independentes, o que raramente ocorre na vida real e há o problema de variáveis com nenhuma ocorrência de frequência
Support Vector Machine (SVM)
SVM (Support Vector Machine) é método de mineração de dados de aprendizado supervisionado
não probabilístico utilizado tanto para classificação quanto para regressão
Regressão
Na regressão, em vez de prever
uma categoria,
o objetivo é prever um número
Compreende a busca por uma função que mapeie os registros de um banco de dados em
um intervalo de valores reais
Regressão é uma aplicação especial da regra de classificação. Se uma regra de classificação é considerada uma função sobre variáveis que as mapeia em uma classe destino, a regra é chamada regressão. Uma aplicação de regressão ocorre quando, em vez de mapear uma tupla de dados de uma relação para uma classe específica, o valor da variável é previsto baseado naquela tupla
Regressão Linear
Ela é usada para prever uma variável de destino contínua ajustando uma
equação linear aos pontos de dados.
Regressão Logística
A análise de regressão em mineração de dados tem como objetivos a
sumarização, a predição, o controle e a estimação.
Os algoritmos de aprendizagem supervisionada relacionam uma saída com uma entrada com base em dados rotulados. Neste caso, o usuário alimenta ao algoritmo pares de entradas e saídas conhecidos, normalmente na forma de vetores. Para cada saída é atribuido um rótulo, que pode ser um valor numérico ou uma classe.
Análise de Agrupamentos
É uma técnica que
visa fazer agrupamentos automáticos de dados segundo o seu grau de semelhança, permitindo a descoberta por faixa de valores e pelo exame de atributos
das entidades envolvidas.
O objetivo é descobrir diferentes
clusters em uma massa de dados e agrupá-los de uma forma que ajude com sua análise.
Esta tarefa difere da classificação uma vez não necessita que
os registros sejam previamente categorizados – trata-se de um aprendizado não-supervisionado
MEMORIZAR!!!
Métodos
Determinístico
Métodos determinísticos apresentam sempre o mesmo agrupamento, independe de
parâmetros do algoritmo e/ou da condição inicial.
Estocástico
Métodos estocásticos podem apresentar diferentes soluções dependendo dos parâmetros e/ou
da condição inicial.
Tipos de Agrupamento
Agrupamento Hierárquico
O Método Aglomerativo é também chamado de Método AGNES (Agglomerative Nesting)
O Método Divisivo é também chamado de Método DIANA (Divisive Analysis)
Não é possível realocar um elemento que tenha sido alocado incorretamente no início do processo – não se pode trocar um elemento de grupo, pois, lembre-se, que esse tipo de análise é não supervisionado
K-Médias
Também chamado de K-Means, trata-se de algoritmo de agrupamento que basicamente agrupa
dados em k grupos, em que k é um valor arbitrário definido pelo usuário
O método de clustering k-means objetiva particionar ‘n’ observações
entre ‘k’ grupos; cada observação pertence ao grupo mais próximo da média
Árvore Geradora Mínima
Algoritmo baseado na teoria dos grafos e que dispensa a definição de protótipos utilizado para segmentar a base de dados em diferentes grupos é denominado
Os principais métodos de análise de agrupamentos em mineração de
dados incluem redes neurais, lógica difusa, métodos estatísticos e algoritmos genéticos
Regras de Associação
Uma das principais tecnologias de mineração de dados envolve a descoberta de regras de
associação
As regras de associação são escritas em um formato como: se [algo acontecer], então [algo acontecerá] ou se [evento], então [ações]
Na mineração de dados, uma regra de associação é um evento que relaciona a presença de um conjunto de itens com outra faixa de valores de um outro conjunto de variáveis. Uma regra de associação pode ser vista como uma expressão da forma X → Y, onde há a relação dos valores de X e Y em um certo conjunto de valores
(Ex: {fralda} → {cerveja})
Existem duas variações comuns de regras de associação: padrões sequenciais e os padrões
temporais
A técnica de regras de associação visa simplesmente descobrir o relacionamento ou correlação entre variáveis de um banco de dados
.
Já a técnica de Padrões Sequenciais busca descobrir padrões sequenciais de eventos de forma equivalente a certos relacionamentos temporais
.
Por fim, a técnica de Padrões Temporais é bastante semelhante à técnica de Padrões Sequenciais, mas sempre envolve um fator temporal que permite diferenciá-los
Existem duas medidas capazes de indicar a qualidade ou grau de certeza de uma regra de
associação. São elas: suporte e confiança.
Almoritmos
Apriori
O algoritmo apriori é um método de mineração de dados
não supervisionado
utilizado para minerar
conjuntos de dados frequentes e regras de associação relevantes
O objetido é minerar conjuntos de itens frequentes a partir de
regras de associação relevantes: com alto suporte a alta confiança
FP-Growth (FP-Growth (Frequent Pattern – Growth)
É uma técnica utilizada para descobrir padrões de associação entre itens em um conjunto de dados muito eficaz para trabalhar com grandes conjuntos de dados usando uma memória limitada
A técnica é baseada na construção de uma árvore de frequência de itens (em uma abordagem bottom-up),
que é usada para descobrir padrões frequentes nos dados
CRISP-DM (Cross Industry
Standard Process for Data Mining)
É um modelo de referência de mineração de dados que descreve um conjunto de processos para realizar projetos de mineração de dados em uma organização baseado nas melhores práticas utilizadas por profissionais e acadêmicos do ramo.
Caso você queira fazer um projeto de mineração de dados em sua organização, você poderá utilizar esse modelo de processos como referência – é importante destacar que se trata de uma metodologia não proprietária que pode ser aplicada livremente a qualquer projeto independentemente do tamanho ou tipo do negócio
É decomposto em seis fases: (1) Entendimento do Negócio; (2) Entendimento dos Dados; (3)
Preparação dos Dados; (4) Modelagem; (5) Avaliação; e (6) Implantação
4) Construção do Modelo
Também chamada de Modelagem, nessa fase ocorre a seleção das técnicas, ferramentas e algoritmos a serem utilizados, como também a elaboração e execução da modelagem sobre o conjunto de dados preparados