Please enable JavaScript.
Coggle requires JavaScript to display documents.
Inferencia Estadística Bivariante - Coggle Diagram
Inferencia Estadística Bivariante
Correlación y medidas de asociación
Las pruebas estadísticas permiten conocer la fuerza de asociación o relación entre dos variables cuantitativas o categóricas
Si ambas variables se encuentran bajo una distribución normal, calculamos la correlación de Pearson, si no se cumple este supuesto de normalidad o se trata de variables ordinales se debe calcular la correlación de Spearman.
Diagramas de dispersión y relación entre variables
Verifican la posible relación entre dos variables, cada punto representa un par de observaciones (x,y) de las variables de estudio.
Existen relaciones lineales, no lineales (exponencial, logarítmica, etc.).
Es fundamental determinar si es posible construir un modelo lineal entre ambas variables, lo que se conoce como modelos de regresión lineal.
Correlación de Pearson
Describe cuantitativamente el grado de relación lineal entre dos variables numéricas normales.
Correlación de Spearman
Se usa para variables numéricas que no sean normales o en el
caso de datos ordinales, se basa en la sustitución del valor original de cada variable por sus rangos. Si existe una
correlación fuerte, los rangos deben ser consistentes: bajos rangos de X se correlacionarán con bajos rangos de Y.
Interpretación y uso de los coeficientes de correlación
Causalidad y correlación
La presencia de una correlación estadística entre dos variables no necesariamente implica causalidad.
Otras medidas de asociación
Test chi cuadrado de independencia (Chi cuadrado de Pearson), para dos variables cualitativas cualesquiera y muestras “grandes”
Test exacto de Fisher, para dos variables dicotómicas con muestras pequeñas
Coeficiente de contingencia K y coeficiente de contingencia corregido K* Medida de asociación [0, 1) entre variables cuantitativas en muestras grandes.
V de Cramers Medida de asociación [0, 1] entre variables nominales (significativa si > 0.3)
Coeficiente Phi Medida de intensidad entre variables dicotómicas
Gamma, Tau-b, Tau-c, Lambda, Eta, Kappa de Cohen, etc.
Regresión lineal simple
Para representar la dependencia de una variable Y con respecto a otra variable X se utilizan los modelos de regresión.
Conocer de qué modo la variable Y depende de X. Describen la forma de dependencia. Una vez construido el modelo de regresión, sirve para realizar predicciones del valor de Y cuando se conoce el valor de X.
El modelo lineal: supuestos básicos
Linealidad:
Significa que la función de regresión es una recta.
Homocedasticidad:
Implica que la varianza del error es la misma sin importar el valor que tome X.
Normalidad:
Los errores tienen una distribución normal.
Independencia:
Los errores son mutuamente independientes.
RLS mediante mínimos cuadrados ordinarios
El objetivo es obtener una recta (es decir, hallar los “mejores” coeficientes betas) de manera que minimicen el posible error de predicción (residuo) que se obtenga con dicha recta, para eliminar el problema del signo de los residuos, se elevan cada uno de estos al cuadrado y se suman.
Inferencias sobre los parámetros del modelo RLS
Estimado el modelo RLS, es importante realizar ciertos contrastes de hipótesis para determinar si estos parámetros se pueden anular del modelo, o si el modelo es consistente de manera general.
Descomposición de la variabilidad del modelo RLS
Luego de estimar del modelo RLS por MCO, interesa verificar si realmente Y es función de X o en su defecto, Y es independiente de X. Si esto sucede, básicamente podríamos predecir Y con un modelo.
Coeficiente de determinación
Es un valor entre cero y uno, y cuanto más próximo a uno más cerca estarán las observaciones de la recta ajustada, en el caso de un modelo lineal simple, el coeficiente de determinación coincide con el cuadrado del coeficiente de correlación de Pearson entre la variable explicativa y la variable respuesta.
Coeficiente de determinación ajustado
Sin embargo, este coeficiente puede verse afectado por el tamaño muestral y por el número de variables independientes (aunque para el caso de RLS, solo hay una).
Predicción en modelo RLS
a. Predecir únicamente la función de regresión (media condicionada)
b. Incluir el término de error en la predicción (predicción puntual), tiene mayor amplitud ya que no considera el error.
Análisis de Varianza
Contraste de igualdad de medias de distintas poblaciones independientes.
Análisis de varianza de un factor
Sirve para probar la igualdad de varias medias poblacionales (no solamente de 2 en 2). Se basa en el estadístico F. El proceso estadístico se basa en la comparación de los efectos de diferentes tratamientos al ser aplicados estos en diferentes muestras (que contienen varias unidades experimentales) en varias (c) poblaciones.
Descomposición de la variabilidad y test F
Al igual que en el caso de la regresión lineal, verifica si la variabilidad de la muestra total, es decir considerando la media global Y es similar a la variabilidad dentro de cada grupo, es decir respecto a cada media grupal.
Comparaciones múltiples
Probar la igualdad entre pares de medias
poblacionales. Sin embargo, esto no es conveniente hacerlo directamente puesto que la probabilidad de cometer un error tipo I (es decir, rechazar la igualdad cuando esta es verdadera) aumenta a medida que el número de comparaciones aumenta.
Los métodos más comunes para realizar
comparaciones múltiples: método de Bonferroni, Tukey, Scheffé, Duncan, entre otros. Estas pruebas se realizan utilizando algún software estadístico, y solo se aplican en el caso de que la hipótesis nula del análisis de varianza sea rechazado.