ANÁLISIS CLUSTER

¿Qué es?

Paso 4. Estimación del modelo y ajuste global

Paso 1. Objetivos del análisis cluster

Paso 3. Condiciones de aplicabilidad

Paso 2. Desarrollo del plan de análisis

Técnica que agrupa los elementos de una muestra en conglomerados

Cada conglomerado debe ser lo más homogéneo posible y lo más distinto a otro conglomerado

El gráfico que permite identificar estos grupos es el DENDOGRAMA

Principal objetivo

GENERALMENTE Uso exploratorio

Dividir un conjunto de objetos en dos o más grupos basandose en sus similitudes

Pretende clasificar un conjunto de objetos

Tambien puede ser confirmatorio

Selección de variables

Criterios teóricos y prácticos

Incluir variables que:

Caractericen a los objetos

Estén vinculadas a los objetivos

No hay forma de saber que variables con relevantes y cuales no

Esto aumenta la probabilidad de OUTLIERS

Se deben tomar 3 decisiones:

¿Qué medida de similitud entre objetos debe utilizarse?

¿Deben estandarizarse los datos?

¿Existen outliers para eliminar?

Estos provocan:

Un segmento de la población ha sido infrarrepresentado

Casos que difieren de la media

distancia euclídea

distancia euclídea al cuadrado

distancia de Mahalanobis

Restarle a cada una de las puntuaciones su media y dividir por la desviación típica

Aspectos a tomar en cuenta

Representatividad de la muestra

Multicolinealidad

Muestreo adecuado

Eliminación de outliers

Aquellas variables que estén afectadas de esta propiedad tendrán una influencia mayor en el establecimiento de los grupos

Maximizar la distancia entre los grupos que se formen

Minimizar la distancia entre los distintos elementos de caga grupo

Métodos a utilizar

Método jerárquico

Análisis no jerárquico

Decidir cuántos conglomerados elegir

Depende del criterio del investigador

Paso 5. Interpretación de los conglomerados

Que valores medios toman en cada uno de ellos las variables que se utilizaron para caracterizarlos

Paso 6. Validación del Modelo

Solución representativa de la población

Aplicable a otros individuos que no estén en la muestra, entable en el tiempo.

Análisis no Jerárquico

Se establezca aleatoriamente