Please enable JavaScript.
Coggle requires JavaScript to display documents.
AGRUPACIÓN JERÁRQUICA - Coggle Diagram
AGRUPACIÓN
JERÁRQUICA
¿Qué es?
Técnica de aprendizaje no supervisado
Agrupa datos similares
Forma una jerarquía de clusters
Resultado → dendrograma
Usos:
Segmentación de clientes
Genómica
Organización de documentos
Conceptos importantes
Criterios de vinculación
Simple enganche
Distancia mínima
Forma Cadena
Enlace completo
Distancia máxima
Clusters compactados
Enlace mdio
Distancia promédio
Equlibrio entre vinculacion simple y completa
Método de ward
Minimiza varianza
Clusters equilibrados
Dendrograma
Estructura de forma de árbol
Muestra divisiones
Su altura es igual a la distancia entre clusters
Permite decidir el número de clusters
Implementación en Python
Librerías
Pandas
SciPy
Matplotlib
Scikit-learn
Numpy
Procesos
Preparar datos
Escalar datos
Generar linkage matrix
Crear dendrograma
Cortar dendrograma
Obtener clusters
Funciones importantes
linkage()
dendrogram()
fcluster()
Ventajas y desventajas
Ventajas
No es necesario definir el número de clusters al inicio
Visual e intuitivo
Flexible
No requiere supuestos fuertes sobre la forma de los clusters
Desventajas
No permite reasignaciones
Dificultad con grandes volúmenes de datos
Dependencia del criterio de distancia y enlace
Puede generar resultados inestables
Aplicaciones
Machine Learning
Bioinformática
Marketing
Minería de datos
Reconocimiento de patrones
Comparación con K-Means
K - means
Necesita número de clusters
Más rápido
Bueno para datasets grandes
Agrupación jerárquica
No necesita definir clusters antes
Más visual e interpretable
Mejor para explorar estructura
Áreas con mejor desempeño
Conjuntos de datos pequeños
No se necesita jeraquía visula
Forma de racimo complejo
Tipos de agrupación jerárquica
Divisiva (Top-Down)
Todos los datos comienzan en un solo cluster
Más costosa computacionalmente
Se divide progresivamente
Puede simularse con K-means
Aglomerativa (Bottom-Up)
Cada dato inicia como cluster individual
Se unen los más cercanos
Continúa hasta formar un solo grupo
Pasos
Cluster individual
Calcular distancias
Unir clusters cercanos
Actualizar matriz
Repetir