Please enable JavaScript.
Coggle requires JavaScript to display documents.
SEGUNDO PARCIAL - Coggle Diagram
SEGUNDO PARCIAL
ANALISIS DE CORRESPONDENCIAS
Permite representar gráficamente las asociaciones entre filas y
Técnica estadística utilizada para explorar relaciones en datos categóricos en tablas de contingencia.
Permite comparar categorías de una variable en función de cómo se relacionan con las categorías de otra variable
Utilizada para analizar tablas de contingencia, que son tablas que muestran la frecuencia de ocurrencia de diferentes categorías de dos variables cualitativas.
BIPLOT
ANÁLISIS DE CORRESPONDENCIAS MULTIPLE
Objetivo
Reducir la dimensionalidad de los datos y representar las relaciones entre categorías de múltiples variables en un espacio de menor dimensión,
Explorar la estructura de los datos categóricos en encuestas y estudios de mercado.
Es una técnica estadística utilizada para analizar datos categóricos.
Identificar patrones y relaciones entre categorías de varias variables.
Reducir la dimensionalidad de los datos categóricos para facilitar su interpretación.
Visualizar datos categóricos en gráficos que muestren las asociaciones entre categorías y observaciones.
ANALISIS DE CONGLOMERADOS O CLUSTERS
Se denomina comúnmente análisis clúster, es una técnica diseñada para clasificar distintas observaciones en grupos.
Cada grupo (conglomerado o clúster) sea homogéneo respecto a las variables utilizadas para caracterizarlo, es decir, que cada observación contenida en el sea parecida a todas las que estem incluidas en ese grupo.
Que los grupos sean lo mas distintos posible unos de otros respecto a las variables consideradas.
Para distinguir el análisis de conglomerados de otras técnicas que los grupos son desconocidos a priori y es necesario derivarlos de las observaciones
Inicialmente el investigador dispone de n observaciones (individuos, empresas, etc.) de las que tiene información sobre k variables (edad, estado civil y numero de hijos)
TIPOS DE ESCALAMIENTO MULTIDIMENSIONAL
4.4.1 ESCALAMIENTO MULTIDIMENSIONAL CLÁSICO Aparece en la literatura bajo las siglas CMDS y es el tipo que hemos utilizado para ilustrar la técnica en la sección 4.2 es decir, esta formado por una única matriz de proximidades y es cuadrada.
:
4.4.2. ESCALAMIENTO MULTIDIMENSIONAL PONDERADO Parece lógico plantearse la cuestión de si es posible analizar varias matrices de proximidades simultáneamente cuando tenemos la sospecha de que pueden proceder de individuos o colectivos con esquemas perceptuales distintos
4.4.3. ESCALAMIENTO MULTIDIMENSIONAL CLÁSICO DESDOBLADO La ultima variante que trataremos de MDS es aquella cuyo input no es una matriz o matrices cuadradas, con los estímulos formando filas y columnas, sino rectangular, donde los estímulos forman las columnas y las variables que caracterizan a dichos estímulos forman las filas.
Métodos para la Selección del Número de Conglomerados
1. Índice CH (Calinski-Harabasz):
Este índice se basa en la relación entre la varianza interna de los conglomerados y la varianza entre ellos. Un valor alto de CH indica una mejor separación entre los conglomerados.
2. Índice CCC (Calinski-Harabasz-Lance):
Una variante del índice CH que incorpora la información sobre la distancia entre los puntos de datos y sus centroides.
3. Índice Pseudo t2:
Este índice se basa en la comparación de la varianza total de los datos con la varianza residual después de la agrupación. Un valor alto de Pseudo t2 indica una mejor separación entre los conglomerados.
Índice DB (Davies-Bouldin):
Este índice se basa en la relación entre la distancia promedio dentro de un conglomerado y la distancia mínima entre conglomerados. Un valor bajo de DB indica una mejor separación entre los conglomerados.
5. Estadístico de Huber:
Este método se basa en la identificación de puntos atípicos que podrían afectar la formación de los conglomerados. Un valor alto del estadístico de Huber indica que la solución con un número menor de conglomerados es más robusta.
6. Índice Dindex:
Este índice se basa en la comparación de la densidad de puntos dentro de los conglomerados con la densidad en las regiones entre ellos. Un valor alto de Dindex indica una mejor separación entre los conglomerados.
Análisis de Componentes Principales (ACP)
Funcionamiento del ACP
El ACP funciona identificando las direcciones de máxima variabilidad en un conjunto de datos. Estas direcciones se representan por los componentes principales, que son vectores lineales que apuntan en la dirección de mayor variabilidad. El primer componente principal captura la mayor cantidad de variabilidad posible, el segundo componente principal captura la segunda mayor cantidad de variabilidad, y así sucesivamente.
Beneficios del ACP
El ACP ofrece varias ventajas, incluyendo:
Reducción de la dimensionalidad: Permite simplificar el análisis de datos complejos al reducir el número de variables a considerar.
Identificación de patrones: Ayuda a identificar patrones y relaciones subyacentes en los datos que podrían ser difíciles de detectar en el espacio original de alta dimensión.
Mejora de la interpretación: Facilita la interpretación de los datos al transformar las variables correlacionadas en variables no correlacionadas.
Preparación de datos para otros métodos: Puede utilizarse como paso previo a otros métodos de análisis de datos, como la regresión o la clasificación.
3.2 MEDIDAS DE SIMILARIDAD
CASO 3.1 Relación entre publicidad y las ventas
supongamos que un investigador tiene información del presupuesto que un conjunto de empresas ha destinado a publicidad el ultimo año y de las ventas que han logrado ese mismo ejercicio
3.2.1. Medidas de similaridad para variables métricas En el caso en que las variables que se utilizan para caracterizar las observaciones sean métricas, es decir, de intervalo o de razón
A. DISTANCIA EUCLÍDEA Si consideramos i y j de las n posibles y si llamamos Xip y Xjp al valor que toma la variable Xp de las k existentes en dichas observaciones, la distancia euclídea Dij entre ambas
B. DISTANCIA EUCLÍDEA AL CUADRADO El calculo de la raíz cuadrada al que obliga la aplicación de la distancia euclídea, tal y como se aprecia puede ser demasiado exigente en termino de capacidad de computo del ordenador
C. DISTANCIA DE MINKOWSKI Las dos distancias desceitas anteriormente son un caso particular de la distancia de Minkowski, que viene dada por
D, DISTANCIA city block o "MANHATTAN" Si en la expresión de la distancia de Minkowski tomaremos n=1, obtendríamos la denominada distancia city block en alusión al hecho de que la distancia entre dos observaciones se calcula siguiendo el camino transeúnte