Please enable JavaScript.
Coggle requires JavaScript to display documents.
3.13 Métodos de Agrupamiento. - Coggle Diagram
3.13 Métodos de Agrupamiento.
Los métodos de agrupamiento, también conocidos como clustering, son técnicas de análisis no supervisado que buscan agrupar datos en grupos o clústeres, de tal manera que los objetos dentro de un mismo clúster sean más similares entre sí que con los objetos de otros clústeres. Estas técnicas son esenciales para descubrir patrones ocultos en los datos.
K-means Clustering
Descripción: Método iterativo que divide los datos en K clústeres, donde K es un número definido por el usuario.
Ventajas: Simple y rápido para implementar.
Desventajas: Sensible a la selección inicial de centroides y al número de clústeres K.
Proceso:
Inicialización: Selección de K centroides iniciales.
Asignación: Cada punto se asigna al centroide más cercano.
Actualización: Los centroides se recalculan como el promedio de todos los puntos asignados.
Repetición: Se repiten los pasos de asignación y actualización hasta que los centroides no cambien significativamente.
Hierarchical Clustering (Agrupamiento Jerárquico)
Descripción: Crea una jerarquía de clústeres utilizando un enfoque de aglomeración (aglomerativo) o división (divisivo).
Proceso Aglomerativo:
Cada punto empieza como su propio clúster.
Se fusionan los dos clústeres más cercanos.
Este proceso se repite hasta que todos los puntos están en un único clúster.
Proceso Divisivo:
Empieza con un solo clúster que contiene todos los puntos.
Divide iterativamente el clúster en dos hasta que cada punto está en su propio clúster.
Ventajas: No requiere predefinir el número de clústeres.
Desventajas: Computacionalmente costoso para grandes conjuntos de datos.
DBSCAN (Density-Based Spatial Clustering of Applications with Noise)
Descripción: Agrupa puntos densamente conectados y marca como ruido los puntos aislados.
Proceso:
Para cada punto, se encuentra el número de puntos dentro de un radio especificado (ε).
Si el número de puntos es mayor que un umbral especificado (minPts), se considera un punto central y se forma un clúster.
Se expande el clúster hasta que no se puedan añadir más puntos.
Ventajas: No requiere especificar el número de clústeres y puede encontrar clústeres de forma arbitraria.
Desventajas: Sensible a los parámetros ε y minPts.
Gaussian Mixture Models (GMM)
Descripción: Asume que los datos están generados a partir de una mezcla de varias distribuciones gaussianas con parámetros desconocidos.
Proceso:
Estima los parámetros de las gaussianas utilizando el algoritmo Expectation-Maximization (EM).
Asigna probabilidades a cada punto de pertenecer a cada clúster.
Ventajas: Capacidad de modelar clústeres con formas elípticas y proporcionar probabilidades de pertenencia.
Desventajas: Más complejo y computacionalmente costoso que K-means.