Análisis Clúster
El análisis cluster es un conjunto de técnicas multivariantes utilizadas para clasificar a un conjunto de individuos en grupos homogéneos.
Existen dos grandes tipos de análisis de clusters: no jerárquicos y jerárquicos.
Así pues, el objetivo es obtener clasificaciones (clusterings), teniendo, por lo tanto, el análisis un marcado carácter exploratorio.
Pertenece, al igual que otras tipologías y que el análisis discriminante al conjunto de técnicas que tiene por objetivo la clasificación de los individuos. La diferencia fundamental entre el análisis cluster y el discriminante reside en que en el análisis cluster los grupos son desconocidos a priori y son precisamente lo que queremos determinar; mientras que en el análisis discriminante, los grupos son conocidos y lo que pretendemos es saber en qué medida las variables disponibles nos discriminan esos grupos y nos pueden ayudar a clasificar o asignar los individuos en/a los grupos dados .
De forma más detallada, se podría decir que consiste en procedimientos de clasificación no supervisada (no existe una información previa) sobre una muestra de ‘individuos’ que intenta reorganizarlos en grupos que pretenden ser homogéneos.
El análisis cluster es el nombre genérico que recibe un tipo de procedimientos de aprendizaje NO supervisado (unsupervised learning) usados para crear clasificaciones o agrupaciones.
Se conocen como no jerárquicos a aquellos que asignan los casos o grupos diferenciados
que el propio análisis configura, sin que unos dependan de otros.
Se denominan jerárquicos a los que configuran grupos con estructura arborescente, deforma que clusters de niveles más bajos van siendo englobados en otros clusters de niveles superiores.
Una vez finalizado un análisis de clusters, el investigador dispondrá de una colección de casos agrupada en subconjuntos jerárquicos o no jerárquicos. Podrá aplicar técnicas estadísticas comparativas convencionales siempre que lo permita la relevancia práctica de los grupos creados; así como otras pruebas multivariantes, para las que ya contará con una variable dependiente grupo, aunque haya sido creada artificialmente.
El horizonte de la investigación podrá ampliarse, por ejemplo, con la aplicación logística y análisis discriminante con posibles nuevas variables independientes (no sería correcto utilizar las mismas que han servido para la confección de los grupos). También serían aplicables pruebas de asociación y análisis de correspondencias.
Antes de iniciar un análisis cluster deben tomarse tres decisiones:
Elección de la medida de proximidad entre los individuos.
Seleccionar el criterio para agrupar individuos en conglomerados.
Selección de las variables relevantes para identificar a los grupos.
Es decisiva la selección de las variables que realmente sean relevantes para identificar a los grupos, de acuerdo con el objetivo que se pretenda lograr en el estudio. De lo contrario, el análisis carecerá de sentido.
Para seleccionar la medida de proximidad es conveniente estar familiarizado con este tipo de medidas, básicamente similitudes y distancias, ya que los conglomerados que se forman lo hacen en base a las proximidades entre variables o individuos
Los grupos que se forman en cada paso dependen de la proximidad, distintas medidas de proximidad pueden dar resultados distintos para los mismos datos.
El análisis de conglomerados nos va a permitir contestar a preguntas tales como:
¿Es posible identificar grupos de clientes a los que les pueda interesar un nuevo producto que una empresa va a lanzar al mercado?
¿Se pueden clasificar las bodegas de La Ribera del Duero en función de las características químicas y ópticas del vino que producen?
¿Es posible identificar cuáles son las empresas en las que sería más deseable invertir?
1. ELECCIÓN DE LAS VARIABLES
Cualitativas: Ordinales o Nominales
Cuantitativas: Discretas o Continuas
2. ELECCIÓN DE LA MEDIDA DE ASOCIACIÓN
3. ELECCIÓN DE LA TÉCNICA CLUSTER
• Cuando se elige una distancia como medida de asociación (por ejemplo, la distancia euclídea) los grupos formados contendrán individuos parecidos de forma que la distancia entre ellos tiene que ser pequeña.
• Cuando se elige una medida de similaridad (por ejemplo, el coeficiente de correlación) los grupos formados contendrán individuos con una similaridad alta entre ellos. La correlación de Pearson y los coeficientes de Spearman y de Kendall son índices de similitud.
La medida de asociación puede ser una distancia o una similaridad.
MEDIDAS DE ASOCIACIÓN
Coeficiente de correlación (invarianza frente a traslaciones y salvo signo frente a homotecias)
Medidas para datos dicotómicos
Coseno del ángulo de dos vectores (invarianza, salvo signo, frente a homotecias)
Medida de Jaccard
Medida de Dice
Medida de Ochiai
Medida de Rogers-Tanimoto
Medida de Parejas simples
Medida de Russell y Rao
Distancia Euclídea:
Distancia de Minkowski
Distancia d1 o ciudad (City Block)
Distancia de Tchebychev o del máximo
Distancia de Mahalanobis:
Distancia X^2
Disociativos: Se parte de un solo grupo que contiene todos los casos y a través de
sucesivas divisiones se forman grupos cada vez más pequeños.
MÉTODOS NO JERÁRQUICOS: Están diseñados para la clasificación de individuos (no de variables) en K grupos. El procedimiento es elegir una partición de los individuos en k grupos e intercambiar los miembros de los clusters para tener una partición mejor.
MÉTODOS JERÁRQUICOS: Agrupar cluster para formar uno nuevo o separar alguno ya existente para dar origen a otros dos de forma que se maximice una medida de similaridad o se minimice alguna distancia.
Asociativos o Aglomerativos: Se parte de tantos grupos como individuos hay en el
estudio y se van agrupando hasta llegar a tener todos los casos en un mismo grupo.
Promedio entre Grupos
Método de la Mediana
Complete Linkage (Vecino más lejano)
Método de Ward
Simple Linkage (Vecino más próximo)
Método del Centroide
Método del Centroide
Método de la Mediana
Promedio entre Grupos
Método de Ward
Análisis de Asociación
Linkage Simple
Linkage Completo
Reasignación
Búsqueda de densidad
K Medias
Nubes Dinámicas
Métodos Taxap
Método de Fortin
Análisis Modal
Método de Wolf
Métodos Directos :
Block Clustering
Métodos Reductivos :
Análisis Factorial tipo Q
Pérez Salinas Vanessa IGE 8-AM
Análisis Multivariado