Please enable JavaScript.
Coggle requires JavaScript to display documents.
El análisis de clúster y el análisis de correspondencia - Coggle Diagram
El análisis de clúster y el análisis de correspondencia
son técnicas de análisis de datos utilizadas en estadística y minería de datos para encontrar patrones y relaciones en conjuntos de datos.
Métodos de distancia en el análisis de clúster
Distancia euclidiana
Es la distancia más comúnmente utilizada y se calcula como la raíz cuadrada de la suma de las diferencias al cuadrado entre las coordenadas de dos puntos en un espacio n-dimensional.
Distancia de Minkowski
Es una generalización de la distancia euclidiana y la distancia de Manhattan, y se define como la raíz n-ésima de la suma de las diferencias elevadas a la n-ésima potencia.
Distancia de coseno
Se utiliza comúnmente en el análisis de textos y se calcula como el coseno del ángulo entre dos vectores representativos de los puntos en un espacio n-dimensional.
Es útil cuando los datos se representan como vectores de frecuencia.
Distancia de Manhattan
ambién conocida como distancia de la ciudad, calcula la distancia entre dos puntos como la suma de las diferencias absolutas de sus coordenadas.
Distancia de Mahalanobis
calcula como la distancia entre dos puntos en un espacio n-dimensional, teniendo en cuenta la matriz de covarianza de los datos
Es útil cuando las variables no son independientes.
Métodos de optimización en el análisis de clúster
Algoritmo k-means
Divide los datos en k grupos tratando de minimizar la varianza dentro de cada clúster.
Algoritmo de clustering jerárquico
Construye una jerarquía de clústeres en forma de un árbol jerárquico.
Density-Based Spatial Clustering of Applications with Noise
Este algoritmo encuentra clústeres basados en la densidad de los puntos. Es capaz de identificar clústeres de cualquier forma y puede detectar valores atípicos como puntos de ruido.
Algoritmo de mezcla gaussiana
Modela los datos como una combinación de distribuciones gaussianas y asigna probabilidades a cada punto de pertenecer a cada clúster.
Es útil cuando los datos tienen una distribución subyacente desconocida.