Análisis previo de datos
Valores perdidos
Diagnósticos de aleatoriedad
Tratamiento de Valores Perdidos
Condiciones de los VPCA
Deben ser independientes del resto de valores
Deben ser independientes de los valores perdidos
1.Deben ser independientes de los valores perdidos
- Analizar si existe correlación entre los valores perdidos de la
variable analizadas y los valores perdidos de otras variables
Eliminación de los casos
Imputación de valores: Se puede reemplazar los datos perdidos por la media de los valores observados
Casos Atípicos o outliers
Detección univariante de casos atípicos
. Detección bivariante de casos atípicos
Detección multivariante de casos atípicos
Estandarizamos los valores de cada variable (Z).
Test de Grubbs
Útil si la variable de análisis se considera como dependiente de otra.
Supuestos básicos de análisis multivariante
Homocedasticidad
Linealidad
Normalidad
Análisis univariante
Análisis multivariante
Se puede utilizar las pruebas de asimetría (A=0) y de curtosis (C=3), gráficos Q‐Q (si n>20), o pruebas como Kolmogorov‐Smirnov (muestras grandes) o Shapiro Wilks
Chi‐cuadrado
En el caso de datos agrupados. ANOVA
Independencia de las observaciones
Se realizan gráficos de dispersión bivariante entre todas las variables y se analiza la linealidad en dichos gráficos y sus respectivos valores R
En el caso de datos no agrupados. Regresión lineal
Dos observaciones son independientes cuando los valores que toman las variables en un caso no se ven afectadas por los valores de otro caso
Sesión 3
Elaborado por: Diego Rivera