11-Classificação Não Supervisionada

USO

  • Não se sabe a classe dos elementos (não há uma amostra de treinamento)
  • Não se conhece sobre o processo de geração dos padrões (das classes)
  • Às vezes não se sabe nem quantas classes estão envolvidas

AGRUPAMENTOS - CLUSTERING
O agrupamento é feito usando características e critérios que podem não ser adequados para a classificação verdadeira

  • Qualquer critério vai impor uma estrutura sobre os dados, que pode não ser a real
  • qualquer informação extra que você tenha é VALIOSA (por ex: nr de classes)


IDEAL: um bom agrupamento deveria exibir
• Baixa dispersão intraclasse
• Alta dispersão interclasse

QUANTAS CLASSES?
image

CRITÉRIOS

CRITÉRIO DE SIMILARIDADE
agrupar elementos de tal forma que:

  • elementos da mesma classe sejam o mais similares possível entre si
  • elementos de classes distintas sejam o mais diferentes possível entre si

DISPERSÃO

INTRACLASSE

INTERCLASSE

MATRIZES DE DISPERSÃO
SCATTER MATRICES

TÉCNICAS

PARTICIONAL OU NÃO HIERARQUICO
Grupos obtidos a partir de uma partição do espaço de características com respeito a um número fixo de grupos

HIERÁRQUICO
Agrupamento progressivo de elementos (formação de subclasses)


image

SIMPLES
Critério de parada: quando os grupos estabilizarem, por exemplo, quando o número de interações sem alteração de classificação for acima de um limiar
PRO: Rápida convergência
CON: Sofre do problema de mínimos locais

K-MÉDIAS
Critério de parada: Deslocamento de cada centróide é menor que um limiar


  • Número de classes pré-definido (K)
  • Distância entre pontos (objetos)
  • Matriz de Distâncias ao invés de Matriz de Dispersão
  • K pontos iniciais para representar cada classe (sementes)

PRO: A convergência para a menor dispersão não é garantida


Alternativas:

  • Várias rodadas (com diferentes sementes) e escolher a configuração com menor matriz de dispersão intraclasse
  • Juntar grupos de centróides próximos e partir em 2 grupos com alta dispersão
    image

Agrupamentos progressivos de N objetos em classes, de acordo com algum critério (similaridade ou distância)

  • Objetos mais próximos são agrupados em subgrupos antes de objetos mais distantes
  • No final todos os objetos pertencem a um único e grande grupo
  • Você define qual partição usar (número variável de subgrupos - classes)

ABORDAGEM AGLOMERATIVA
parte de elementos individuais e vai agrupando subgrupos

ABORDAGEM DIVISIVA
parte do grande grupo (contendo todos os elementos) e vai dividindo em subgrupos

DISTÂNCIAS

EUCLIDIANA

COMPLETE LINKAGE
image

GROUP AVERAGE
image

CENTRÓID
image

SINGLE LINKAGE
image

CHESSBOARD

BASEADO EM DISPERSAO

WARD'S LINKAGE
baseado em dispersão:
• Procura grupos elipsoides e compactos
• Melhores resultados quando os grupos são de mesmo tamanho (grupos maiores tendem a absorver grupos menores)
• Piores resultados na presença de outliers
• Considerado um dos melhores

DESEMPENHO

  • Tendência de chaining , o que implica na união de grupo bem separados mas conectados por alguns poucos pontos
  • Não adequado para dados gaussianos (BAYNE, 1980)
  • Menos afetado por outliers
  • Um dos poucos que funcionam bem para dados não elipsoides
  • Desempenho pobre

DESEMPENHO
Procura por grupos compactos, elipsoides • Pobre desempenho quando há alta densidade de grupos

DESEMPENHO

  • Tende a produzir resultados parecidos com o do complete linkage
  • Resultados piores na presença de outliers

DESEMPENHO

  • Sugerido apenas para distância Euclidiana
  • Adequado para tratar grupos de diferentes tamanhos

COMO AVALIAR OS RESULTADOS

  • Uma simples e possível alternativa é replicação
  • Testa com vários subconjuntos
  • Testa com vários algoritmos de agrupamentos
  • Espera-se obter uma certa concordância de grupos

ℹ NÃO SUPERVISIONADA e NÃO PARAMÉTRICA

DESCRIÇÃO
é o tipo de aprendizado que não se sabe as classes dos elementos, não havendo certeza sobre as classes possíveis e não havendo amostra de treinamento.
A forma mais comum para tentar resolver problemas desse tipo é através de Agrupamentos (Clustering), buscando atender critérios como o de Similaridade, buscando uma Baixa Dispersao dos elementos intraclasse e a altar dispersão interclasse. Para tal há duas classes de Clustering .... Hierarquico ou Paricional....