Please enable JavaScript.
Coggle requires JavaScript to display documents.
04 - Noções de mineração de dados - Coggle Diagram
04 - Noções de mineração de dados
Técnicas e Tarefas de Mineração
São utilizadas para encontrar os padrões e relacionamentos ocultos nos conjuntos de dados.
Classificação
Descrevemos os dados em função de algumas classes predeterminadas
Contendo um atributo chamado rótulo de classe
pode ficar representado no modelo através de uma árvore de decisão ou de um conjunto de regras
SVMs
(Support Vector Machine)
Classificador não probabilístico linear binário.
Não probabilístico
Linear
é aquele que usa uma combinação linear
consiste na multiplicação do valor de cada atributo por um valor constante, como se fosse um
“peso”
Binário
separa os exemplos em duas classes possíveis
Análise de Agrupamentos (Clusterização)
Tarefas similares a da
classificação
Enquanto que na
classificação
nós já temos um conjunto predefinido de categorias e um conjunto de treinamento para que o sistema extraia as regras de classificação, na
clusterização
esses
grupos são determinados a posteriori
e
não existe um conjunto de treinamento
. Isso é conhecido como
aprendizado não supervisionado.
K-means
Algoritmo
A ideia é separar as observações em vários grupos, inicialmente calculando as médias de cada um desses grupos. Após isso, as novas observações são atribuídas àquele grupo cuja média é mais próxima.
Regras de Associação
análise de afinidade
:warning: Exemplo
Um supermercado, onde foi observado que em uma quinta-feira à noite, vários clientes que compraram fraldas também compraram cervejas
X é a ação antecedente e Y a consequente
algoritmo comumente usado para as regras de associação é o Apriori.
Detecção de Anomalias
(outliers)
Valores fora dos padrões
Costuma ser bastante empregada com o objetivo de se detectar fraudes em sistemas
Abordagens para a detecção de outliers na mineração de dados
Tipo 2
Abordagem análoga à classificação supervisionada
usuário indica o rótulo de cada tipo de dado no conjunto de treinamento como sendo normal/anômalo e o sistema aprende a classificar as próximas entradas.
Tipo 3
Considerada semi-supervisionada
Somente dados considerados normais são pré-rotulados e o sistema aprende a identificar os outliers como sendo aqueles que não se encaixam nesse padrão.
Tipo 1
Análoga à clusterização não supervisionada
Classifica os dados sem conhecimento prévio das categorias e indica os valores que não aparentam se enquadrar em nenhuma delas como sendo potenciais outliers.
Modelagem Preditiva
Utilizar de dados históricos e atuais para realizar previsões
Pode ser realizada
Em dados estruturados
data warehouse,
Em dados não estruturados
como postagens em redes sociais.
Exemplos de Aplicações
hábitos de consumidores
Conjunto de técnicas que utiliza dados históricos para prever a probabilidade da ocorrência de um evento desconhecido.
Atributo
dependente ou alvo
a ser predito
independentes ou preditoras
utilizados para fazer a predição
Tipos de Tarefas de mineração de acordo com o propósito de sua realização:
Tarefas descritivas
encontrar padrões
correlações e relacionamentos que descrevam os dados
objetivo de possibilitar a sua análise.
Tarefas preditivas
têm como objetivo predizer valores para os dados desconhecidos
CRISP-DM
neutro em termos de aplicação
um processo aberto
não requer qualquer licenciamento para ser utilizado.
quebra o processo de mineração em seis fases(ou etapas):
Data Understanding
Entendimento dos Dados
Data Preparation
Preparação de Dados
limpeza e transformação
Business Understanding
Entendimento do Negócio
objetivos e requisitos do projeto, sempre em uma perspectiva do negócio
Os processos no CRISP-DM não são rígidos
processo de mineração de dados é cíclico