Please enable JavaScript.
Coggle requires JavaScript to display documents.
Introdução a ciências de dados - Coggle Diagram
Introdução a ciências de dados
Técnicas de agrupamento
:question: Dado um conjunto de objetos, como podemos agrupá-los em clusters com base na similaridade? Isso depende do que iremos considerar como semelhança. Ex: agrupar animais por serem mamíferos ou oviparo
:warning: Não há uma definição muito clara sobre o significado de cluster, nem a quantidade que se deve utilizar
:pencil2: De maneira geral, podemos considerar que o agrupamento tem o objetivo de encontrar grupos em que objetos são similares ou relacionados e que são diferentes ou não relacionados a objetos de outros grupos
:question: Mas, o que seria similaridade?
:pencil2: Ela é vista como a distância entre os objetos, podendo ser:
:fire: Medida de SIMILARIDADE, ou seja, qual é a máxima distância entre os objetos para que eles ainda sejam considerados similares? d(Xi, Xi) = máxima ou 1
Métricas de distância:
Cosseno
Pearson
:fire: Medida de DISSIMILARIDADE, ou seja, qual é a menor distância entre os objetos para que eles ainda sejam considerados do mesmo grupo? d(Xi, Xi) = 0 Quanto mais próximos, mais similares
Métricas de distância:
Euclidiana
Minkowski
:pencil2: Tipos de agrupamentos:
Partitional clustering ou Particional
Traditional hierarchical clustering ou Hierarquico
Traditional Dendogram ou Dendograma
:pencil2: Representação dos grupos
:pencil2: Estágios do agrupamento:
Seleção de atributos: a ideia é selecionar os atributos de maneira que haja o mínimo de redundância entre eles. Ex: Utilizando o PCA e reduzindo de 10 para 3 atributos
Medida de proximidade: utilizar uma medida que permita quantificar o quanto similar ou dissimilar os objetos são
Critério de Clusterização: qual critério que será utilizado para juntar dois grupos? Distância minima, distância maxima, média...?
Algoritmo de Clusterização: quais passos eu vou seguir para chegar nos meus clusters?
K Means
Calcula-se a média das distâncias entre um centróide escolhido e os objetos
Passos:
Seleciona k pontos como centróides iniciais
Formar clusters com os centróides mais próximos
Calcular a média do centróide
Repetir os passos anteriores até que os centróides não mudem ou que mudem muito pouco de posição de acordo com o critério escolhido
Definir o número de clusters
Inicialização: Um dos cuidados que se deve ter é que o algoritmo é bastante sensível à posição inicial dos centróides/sementes, por isso é importante rodar várias vezes para que os resultados sejam mais significativos
Número de clusters: a quantidade de clusters irá influenciar diretamente os resultados, por isso deve-se aplicar algumas técnicas
Método do cotovelo ou Elbow Method:
Para cada cluster, calcula-se a distância de cada ponto até o centróide e soma-se os resultados. Isso deve ser feito para 1 até n clusters. Traçando-se o resultado num gráfico, é possível ver que a partir de um momento a reta irá mudar completamente de tendência. Neste ponto estará o número mais adequado de clusters
2 more items...
Limitações:
Susceptível a problemas quando os clusters são de tamanhos diferentes
1 more item...
Possível haver problemas quando os clusters possuem diferentes densidades
1 more item...
Podem aparecer problemas quando os clusters são de diferentes formatos, geralmente não globulares
1 more item...
Agrupamento hierárquico
Trata-se de um algoritmo que permite gerar uma estrutura de árvore com os dados
Através do agrupamento hierárquico formamos primeiro os clusters hierárquicos para depois poder gerar um dendograma
Passos:
Iniciamos com clusters individuais
Definimos a matriz de proximidades
Em seguida teremos alguns clusters
Agrupar os clusters mais próximos e atualizar a matriz de proximidade. Para essa atualização há alguns métodos que podem ser utilizados:
Minimo (single linkage): deve-se calcular a distancia entre todos os pontos de um cluster com o de outro e a MENOR distancia possivel sera o valor a se utilizar
Maximo (complete linkage): deve-se calcular a distancia entre todos os pontos de um cluster com o de outro e a MAIOR distancia possivel sera o valor a se utilizar
Média dos grupos: calcula-se a distância entre todos os pontos de ambos os clusters e se faz a média
Distância entre os centróides: distância entre os pontos médios
Métodos que usam uma função objetivo
Método de Ward's: você irá definir se deve ou não juntar dois clusters. O objetivo é minimizar a perda de informação ao juntar os dois grupos. NA PRATICA Ê O MAIS UTILIZADO
3 more items...
Validação dos resultados: geralmente se utiliza um especialista para validar
Quão significante é o agrupamento?
Medidas para se avaliar um agrupamento:
Indice interno
Eu uso alguma medida que me dirá o quão bom é o agrupamento
3 more items...
Medida de pureza: mede o quão puro é cada cluster. Ela calcula quantas classes de elementos há em cada cluster, quanto menos classes tiver, melhor. Quanto mais próximo de 1, melhor
1 more item...
Indice relativo
Realiza-se uma comparação entre dois clusters
Indice externo
Eu conheço as classes e comparo os dados obtidos com os dados originais. Ex: Doente e saudável
Matriz de similaridade: ordena-se os objetos de acordo com os grupos e se inspeciona visualmente
Interpretação dos resultados: e no mundo real, o que os resultados querem dizer?