Please enable JavaScript.
Coggle requires JavaScript to display documents.
Técnicas factoriales exploratorias - Coggle Diagram
Técnicas factoriales exploratorias
Análisis factorial exploratorio
No se trata simplemente de una técnica de reducción de dimensiones, sino que trata de identificar la presencia de variables latentes (factores) a partir de la información de variables observadas.
Supongamos que tenemos una base de datos con “p” variables observadas estandarizadas (con media o y varianza 1). El modelo AFE supone que cada una de estas variables está relacionada con un conjunto de “m” factores comunes, y otro conjunto de “p” factores específicos (o errores). Cada factor común se relaciona con la variable observada mediante una ponderación (o carga factorial).
Para este modelo se asumen las siguientes hipótesis:
Los factores comunes tienen media cero, varianza 1 y son incorrelados entre sí. Por tanto, su matriz de covarianzas es una matriz identidad.
Los factores comunes y los errores son incorrelados entre sí. Por tanto su matriz de covarianzas es nula.
Los errores tienen media cero, incorrelados entre sí y con varianzas distintas. Por tanto, su matriz de covarianzas es una matriz diagonal.
Propiedades Del Modelo AFE
La varianza de cada variable Xj observada es igual a 1, y tomando en cuenta las hipótesis anteriores, esto significa que la variabilidad observada de Xj se descompone en una varianza explicada por los factores comunes (o comunalidad) más la variabilidad del error (o especificidad). Es decir:
El objetivo del AFE es determinar los “m” factores comunes y respectivas cargas factoriales asociadas a cada variable, de manera que la comunalidad sea la más alta posible y, recíprocamente, la especificidad tienda a cero.
Métodos de extracción de factores
Existen varias formas de determinar el número de factores a extraer.
Determinar el número de grados de libertad que se tiene en el modelo, esto implica que el número de ecuaciones debe ser mayor o igual al número de parámetros a estimar, para esto, se suele simplificar ciertas condiciones sobre el modelo general, por ejemplo, limitando el número “m” de factores a ser extraídos.
Descomposición por valores y vectores propios, es decir, recurriendo al ACP. Si definimos a V como la matriz de vectores propios de la matriz de correlación muestral R (obtenida a partir de las variables observadas) y L la correspondiente matriz diagonal con sus valores propios. En este caso, se obtiene que m = p, pero en la práctica se seleccionan solamente aquellos primeros factores donde la varianza explicada sea la más alta posible. La varianza que no sea explicada por estos factores corresponderá a la variabilidad del error.
Método de “ejes principales”, utiliza un procedimiento iterativo que combina métodos de regresión con el ACP, para obtener estimaciones de las comunalidades.
Método de máxima verosimilitud, extracción Alpha, mínimos cuadrados no ponderados, entre otros.
La elección del método de extracción dependerá del cumplimiento del supuesto de normalidad multivariante de los datos observados. De manera genera, si este supuesto se cumple, la elección del método no suele interferir mucho en los resultados finales, pero en caso contrario, se suele recurrir al método de máxima verosimilitud o de mínimos cuadrados no ponderados.
Otro aspecto a considerar es determinar el número “m” de factores a extraer. Una opción suele ser recurrir al gráfico de sedimentación (similar al ACP), o utilizar lo que se conoce como “análisis paralelo” que se basa en simulación estadística. En cualquier caso, se tratará de seleccionar aquellos factores cuya variabilidad explicada (valor propio) sea el más alto posible.
Rotación de la solución factorial
Existen dos tipos de rotaciones:
ortogonales
, en los que sus ejes de rotación forman un ángulo de 90 grados y
no ortogonales u oblícuos
, en los que sus ejes de rotación forman distintos ángulos.
Existen varias formas de realizar estas rotaciones. El método de rotación dependerá de las condiciones de análisis, sin embargo el más utilizado en la práctica suele ser el
Varimax.
Método Quartimax:
Minimiza el número de factores necesarios para explicar cada variable.
Método Equamax:
Es combinación del método varimax, que simplifica los factores, y el método quartimax, que simplifica las variables. Se minimiza tanto el número de variables que saturan alto en un factor como el número de factores necesarios para explicar una variable.
Criterio Oblimin directo:
(no ortogonal). Necesita
un valor delta que servirá para ajustar los ejes en función de las saturaciones buscan una mejor aproximación, pero considerando que la varianza se distribuirá entre todos los factores y no habremos logrado el objetivo de reducir la dimensionalidad.
Rotación Promax:
(no ortogonal) permite que los factores estén correlacionados. Esta rotación se puede calcular más rápidamente que una rotación oblimin directa, es útil para conjuntos de datos grandes.
Varimax:
(ortogonal) Minimiza el número de variables que tienen saturaciones altas en cada factor, simplifica la interpretación de los factores.
Indicadores de bondad de ajuste
Realizado el AFE y habiendo obtenido los factores y las cargas factoriales, es necesario verificar el cumplimiento de las hipótesis de la técnica.
Medida KMO:
Determina si la muestra original se puede ajustar al AFE, debe ser mayor a 0.7 para que los datos se adecuen al análisis factorial.
RMSR:
Compara los resultados de la correlación muestral original con la correlación obtenida a partir de la solución basada en los factores comunes. Si es inferior a 0.8, se considera que el ajuste del AFE es aceptable.
Contraste de esfericidad de Bartlett:
Verifica si las variables originales están correlacionadas entre sí, de lo contrario la reducción mediante el AFE no tendría sentido.
En algunos casos es necesario estimar las puntuaciones factoriales de cada individuo muestral para determinar su relación con los factores comunes, esto se suele realizar a partir de la matriz de observaciones y usando un software estadístico apropiado.
Métodos Biplot
Son técnicas multivariantes que cumplen un papel esencial, son técnicas de representación gráfica de conjuntos de datos masivos. Están íntimamente relacionados con técnicas multivariantes como el ACP y AFE, así como con técnicas de análisis de tablas de 2 y 3 entradas, tales como el Análisis de
Correspondencias Múltiples y la familia de técnicas STATIS.
JK - Biplot:
Opuesta al caso anterior, reproduce de mejor forma la información de los individuos, sin priorizar la representación de variables.
HJ – Biplot:
Reproduce de manera conjunta la información de variables como la de los individuos.
GH - Biplot:
Prioriza la representación de la información relacionada con las variables, deja en segundo plano a los individuos u observaciones.
Análisis exploratorio de tablas de tres entradas
Análisis de Correspondencias
Técnica de reducción de dimensiones entre las categorías de dos o más variables no métricas. Se basa en una tabla de contingencia (frecuencias) entre variables categóricas, y determina un espacio que contiene “casi” la misma información que el espacio generado por la totalidad de los datos.
El análisis de la
inercia
determina que tan “cerca o lejos” se encuentra la variable analizada
respecto al centroide.
Importancia de la inercia – la prueba chi cuadrado
La técnica de reducción por análisis de correspondencias es significativa siempre y cuando la Inercia total sea alta (caso contrario, todos los puntos estarían cercanos a los centroides y no habría forma de separar la inercia del plano y la residual)
Si la mayoría de los puntos están cercanos al centroide, implica que las variables X y Y no presentan asociaciones hacia alguna coordenada H o J en específico. Esto se traduce en el hecho de que las probabilidades en las tablas serían muy parecidas entre sí. (homogeneidad de frecuencias entre filas y columnas)
Para probar estadísticamente que no hay homogeneidad o dependencia entre variables (es decir, que la inercia es alta y puede ser descompuesta en coordenadas con altas correspondencias), se requiere realizar una prueba de hipótesis basada en el estadístico
Chi cuadrado.
Si este valor es estadísticamente significativo (por lo general menos a 5%), entonces se puede asumir que las variables fila y columna son independientes (por tanto, la técnica de reducción es apropiada)
El objetivo de esta técnica se basa en buscar cuales son las coordenadas donde se tiene mayor correspondencia, y por tanto, las coordenadas que tengan poca correspondencia pueden ser “eliminadas o reducidas” del análisis. Busca reducir dimensiones, no variables, de manera que la inercia en estas dimensiones sea la más alta posible.
Busca generar espacios de 1, 2 o 3 dimensiones que conserven la mayor cantidad de la inercia total (por lo general, esta cantidad se mide en porcentaje)
Análisis de Correspondencias Múltiples y tablas de tres entradas
Matriz de Burt:
En la cual se tiene un conjunto anidado de tablas cruzadas, o un conjunto donde se tiene la información de las variables por columnas e individuos como filas (raw data).
Matriz de indicadores:
Las filas corresponden a cada uno de los individuos, y las columnas representan a funciones indicadores que toman el valor de 1 o 0 si el individuo presenta o no respectivamente, el atributo correspondiente a cada uno de los posibles niveles de las variables.
La familia de métodos STATIS y el análisis Triádico
Se aplican un mismo conjunto de individuos (I filas) de los cuales han sido observadas un conjunto de variables (P columnas), registradas durante varios momentos distintos (K tablas o capas). Este conjunto de datos implica la construcción de una matriz tridimensional con I filas, P columnas y K capas.
Analiza la información de dicha matriz tridimensional en tres momentos:
1. Análisis de la Inter-estructura,
en la cual se obtiene la información o estructura común presente en los diferentes casos (capas).
2. Análisis de Compromiso o consenso:
Se establece una matriz de compromiso basada en las medias de máximas inercias, es decir, establece el grado de correlación de cada una de las subtablas (de orden IxP) respecto a la matriz de orden KxK.
3. Análisis de la intra-estructura:
Implica proyectar las P variables y los I individuos a partir de la información de la matriz de compromiso. Se realiza exclusivamente para la técnica denominada Análisis Triádico Parcial (ATP)