11-Classificação Não Supervisionada
USO
- Não se sabe a classe dos elementos (não há uma amostra de treinamento)
- Não se conhece sobre o processo de geração dos padrões (das classes)
- Às vezes não se sabe nem quantas classes estão envolvidas
AGRUPAMENTOS - CLUSTERING
O agrupamento é feito usando características e critérios que podem não ser adequados para a classificação verdadeira
- Qualquer critério vai impor uma estrutura sobre os dados, que pode não ser a real
- qualquer informação extra que você tenha é VALIOSA (por ex: nr de classes)
IDEAL: um bom agrupamento deveria exibir
• Baixa dispersão intraclasse
• Alta dispersão interclasse
QUANTAS CLASSES?
CRITÉRIOS
CRITÉRIO DE SIMILARIDADE
agrupar elementos de tal forma que:
- elementos da mesma classe sejam o mais similares possível entre si
- elementos de classes distintas sejam o mais diferentes possível entre si
DISPERSÃO
INTRACLASSE
INTERCLASSE
MATRIZES DE DISPERSÃO
SCATTER MATRICES
TÉCNICAS
PARTICIONAL OU NÃO HIERARQUICO
Grupos obtidos a partir de uma partição do espaço de características com respeito a um número fixo de grupos
HIERÁRQUICO
Agrupamento progressivo de elementos (formação de subclasses)
SIMPLES
Critério de parada: quando os grupos estabilizarem, por exemplo, quando o número de interações sem alteração de classificação for acima de um limiar
PRO: Rápida convergência
CON: Sofre do problema de mínimos locais
K-MÉDIAS
Critério de parada: Deslocamento de cada centróide é menor que um limiar
- Número de classes pré-definido (K)
- Distância entre pontos (objetos)
- Matriz de Distâncias ao invés de Matriz de Dispersão
- K pontos iniciais para representar cada classe (sementes)
PRO: A convergência para a menor dispersão não é garantida
Alternativas:
- Várias rodadas (com diferentes sementes) e escolher a configuração com menor matriz de dispersão intraclasse
- Juntar grupos de centróides próximos e partir em 2 grupos com alta dispersão
Agrupamentos progressivos de N objetos em classes, de acordo com algum critério (similaridade ou distância)
- Objetos mais próximos são agrupados em subgrupos antes de objetos mais distantes
- No final todos os objetos pertencem a um único e grande grupo
- Você define qual partição usar (número variável de subgrupos - classes)
ABORDAGEM AGLOMERATIVA
parte de elementos individuais e vai agrupando subgrupos
ABORDAGEM DIVISIVA
parte do grande grupo (contendo todos os elementos) e vai dividindo em subgrupos
DISTÂNCIAS
EUCLIDIANA
COMPLETE LINKAGE
GROUP AVERAGE
CENTRÓID
SINGLE LINKAGE
CHESSBOARD
BASEADO EM DISPERSAO
WARD'S LINKAGE
baseado em dispersão:
• Procura grupos elipsoides e compactos
• Melhores resultados quando os grupos são de mesmo tamanho (grupos maiores tendem a absorver grupos menores)
• Piores resultados na presença de outliers
• Considerado um dos melhores
DESEMPENHO
- Tendência de chaining , o que implica na união de grupo bem separados mas conectados por alguns poucos pontos
- Não adequado para dados gaussianos (BAYNE, 1980)
- Menos afetado por outliers
- Um dos poucos que funcionam bem para dados não elipsoides
- Desempenho pobre
DESEMPENHO
Procura por grupos compactos, elipsoides • Pobre desempenho quando há alta densidade de grupos
DESEMPENHO
- Tende a produzir resultados parecidos com o do complete linkage
- Resultados piores na presença de outliers
DESEMPENHO
- Sugerido apenas para distância Euclidiana
- Adequado para tratar grupos de diferentes tamanhos
COMO AVALIAR OS RESULTADOS
- Uma simples e possível alternativa é replicação
- Testa com vários subconjuntos
- Testa com vários algoritmos de agrupamentos
- Espera-se obter uma certa concordância de grupos
ℹ NÃO SUPERVISIONADA e NÃO PARAMÉTRICA
DESCRIÇÃO
é o tipo de aprendizado que não se sabe as classes dos elementos, não havendo certeza sobre as classes possíveis e não havendo amostra de treinamento.
A forma mais comum para tentar resolver problemas desse tipo é através de Agrupamentos (Clustering), buscando atender critérios como o de Similaridade, buscando uma Baixa Dispersao dos elementos intraclasse e a altar dispersão interclasse. Para tal há duas classes de Clustering .... Hierarquico ou Paricional....