Please enable JavaScript.
Coggle requires JavaScript to display documents.
11-Classificação Não Supervisionada (USO Não se sabe a classe dos…
11-Classificação Não Supervisionada
USO
Não se sabe a classe dos elementos (não há uma amostra de treinamento)
Não se conhece sobre o processo de geração dos padrões (das classes)
Às vezes não se sabe nem quantas classes estão envolvidas
AGRUPAMENTOS - CLUSTERING
O agrupamento é feito usando características e critérios que podem não ser adequados para a classificação verdadeira
Qualquer critério vai impor uma estrutura sobre os dados, que pode não ser a real
qualquer informação extra que você tenha é VALIOSA (por ex: nr de classes)
IDEAL: um bom agrupamento deveria exibir
• Baixa dispersão intraclasse
• Alta dispersão interclasse
CRITÉRIOS
CRITÉRIO DE SIMILARIDADE
agrupar elementos de tal forma que:
elementos da mesma classe sejam o mais similares possível entre si
elementos de classes distintas sejam o mais diferentes possível entre si
DISPERSÃO
INTRACLASSE
INTERCLASSE
MATRIZES DE DISPERSÃO
SCATTER MATRICES
TÉCNICAS
PARTICIONAL OU NÃO HIERARQUICO
Grupos obtidos a partir de uma partição do espaço de características com respeito a um número fixo de grupos
SIMPLES
Critério de parada: quando os grupos estabilizarem, por exemplo, quando o número de interações sem alteração de classificação for acima de um limiar
PRO: Rápida convergência
CON: Sofre do problema de mínimos locais
K-MÉDIAS
Critério de parada: Deslocamento de cada centróide é menor que um limiar
Número de classes pré-definido (K)
Distância entre pontos (objetos)
Matriz de Distâncias ao invés de Matriz de Dispersão
K pontos iniciais para representar cada classe (sementes)
PRO:
A convergência para a menor dispersão não é garantida
Alternativas:
Várias rodadas (com diferentes sementes) e escolher a configuração com menor matriz de dispersão intraclasse
Juntar grupos de centróides próximos e partir em 2 grupos com alta dispersão
HIERÁRQUICO
Agrupamento progressivo de elementos (formação de subclasses)
Agrupamentos progressivos de N objetos em classes, de acordo com algum critério (similaridade ou distância)
Objetos mais próximos são agrupados em subgrupos antes de objetos mais distantes
No final todos os objetos pertencem a um único e grande grupo
Você define qual partição usar (número variável de subgrupos - classes)
ABORDAGEM AGLOMERATIVA
parte de elementos individuais e vai agrupando subgrupos
ABORDAGEM DIVISIVA
parte do grande grupo (contendo todos os elementos) e vai dividindo em subgrupos
DISTÂNCIAS
EUCLIDIANA
COMPLETE LINKAGE
DESEMPENHO
Procura por grupos compactos, elipsoides • Pobre desempenho quando há alta densidade de grupos
GROUP AVERAGE
DESEMPENHO
Tende a produzir resultados parecidos com o do complete linkage
Resultados piores na presença de outliers
CENTRÓID
DESEMPENHO
Sugerido apenas para distância Euclidiana
Adequado para tratar grupos de diferentes tamanhos
SINGLE LINKAGE
DESEMPENHO
Tendência de chaining , o que implica na união de grupo bem separados mas conectados por alguns poucos pontos
Não adequado para dados gaussianos (BAYNE, 1980)
Menos afetado por outliers
Um dos poucos que funcionam bem para dados não elipsoides
Desempenho pobre
CHESSBOARD
BASEADO EM DISPERSAO
WARD'S LINKAGE
baseado em dispersão:
• Procura grupos elipsoides e compactos
• Melhores resultados quando os grupos são de mesmo tamanho (grupos maiores tendem a absorver grupos menores)
• Piores resultados na presença de outliers
• Considerado um dos melhores
QUANTAS CLASSES?
COMO AVALIAR OS RESULTADOS
Uma simples e possível alternativa é replicação
Testa com vários subconjuntos
Testa com vários algoritmos de agrupamentos
Espera-se obter uma certa concordância de grupos
:information_source: NÃO SUPERVISIONADA e NÃO PARAMÉTRICA
DESCRIÇÃO
é o tipo de aprendizado que não se sabe as classes dos elementos, não havendo certeza sobre as classes possíveis e não havendo amostra de treinamento.
A forma mais comum para tentar resolver problemas desse tipo é através de Agrupamentos (Clustering), buscando atender critérios como o de Similaridade, buscando uma Baixa Dispersao dos elementos intraclasse e a altar dispersão interclasse. Para tal há duas classes de Clustering .... Hierarquico ou Paricional....