Inferencia Estadística Bivariante

Correlación y medidas de asociación

Las pruebas estadísticas permiten conocer la fuerza de asociación o relación entre dos variables cuantitativas o categóricas

Si ambas variables se encuentran bajo una distribución normal, calculamos la correlación de Pearson, si no se cumple este supuesto de normalidad o se trata de variables ordinales se debe calcular la correlación de Spearman.

Diagramas de dispersión y relación entre variables

Verifican la posible relación entre dos variables, cada punto representa un par de observaciones (x,y) de las variables de estudio. Captura de pantalla 2022-04-11 a la(s) 12.06.49

Existen relaciones lineales, no lineales (exponencial, logarítmica, etc.).

Es fundamental determinar si es posible construir un modelo lineal entre ambas variables, lo que se conoce como modelos de regresión lineal.

Correlación de Pearson

Describe cuantitativamente el grado de relación lineal entre dos variables numéricas normales.

Correlación de Spearman

Se usa para variables numéricas que no sean normales o en el
caso de datos ordinales, se basa en la sustitución del valor original de cada variable por sus rangos. Si existe una
correlación fuerte, los rangos deben ser consistentes: bajos rangos de X se correlacionarán con bajos rangos de Y. Captura de pantalla 2022-04-11 a la(s) 12.15.17

Interpretación y uso de los coeficientes de correlación

Captura de pantalla 2022-04-11 a la(s) 12.17.07

Causalidad y correlación

La presencia de una correlación estadística entre dos variables no necesariamente implica causalidad.

Otras medidas de asociación

Test chi cuadrado de independencia (Chi cuadrado de Pearson), para dos variables cualitativas cualesquiera y muestras “grandes”

Test exacto de Fisher, para dos variables dicotómicas con muestras pequeñas

Coeficiente de contingencia K y coeficiente de contingencia corregido K* Medida de asociación [0, 1) entre variables cuantitativas en muestras grandes.

V de Cramers Medida de asociación [0, 1] entre variables nominales (significativa si > 0.3)

Coeficiente Phi Medida de intensidad entre variables dicotómicas

Gamma, Tau-b, Tau-c, Lambda, Eta, Kappa de Cohen, etc.

Regresión lineal simple

Para representar la dependencia de una variable Y con respecto a otra variable X se utilizan los modelos de regresión.

Conocer de qué modo la variable Y depende de X. Describen la forma de dependencia. Una vez construido el modelo de regresión, sirve para realizar predicciones del valor de Y cuando se conoce el valor de X.

El modelo lineal: supuestos básicos

Captura de pantalla 2022-04-11 a la(s) 12.29.03

Linealidad: Significa que la función de regresión es una recta.
Homocedasticidad: Implica que la varianza del error es la misma sin importar el valor que tome X.
Normalidad: Los errores tienen una distribución normal.
Independencia: Los errores son mutuamente independientes.

RLS mediante mínimos cuadrados ordinarios

El objetivo es obtener una recta (es decir, hallar los “mejores” coeficientes betas) de manera que minimicen el posible error de predicción (residuo) que se obtenga con dicha recta, para eliminar el problema del signo de los residuos, se elevan cada uno de estos al cuadrado y se suman.

Inferencias sobre los parámetros del modelo RLS

Estimado el modelo RLS, es importante realizar ciertos contrastes de hipótesis para determinar si estos parámetros se pueden anular del modelo, o si el modelo es consistente de manera general.

Descomposición de la variabilidad del modelo RLS

Luego de estimar del modelo RLS por MCO, interesa verificar si realmente Y es función de X o en su defecto, Y es independiente de X. Si esto sucede, básicamente podríamos predecir Y con un modelo.

click to edit

Coeficiente de determinación

Coeficiente de determinación ajustado

Es un valor entre cero y uno, y cuanto más próximo a uno más cerca estarán las observaciones de la recta ajustada, en el caso de un modelo lineal simple, el coeficiente de determinación coincide con el cuadrado del coeficiente de correlación de Pearson entre la variable explicativa y la variable respuesta.

Sin embargo, este coeficiente puede verse afectado por el tamaño muestral y por el número de variables independientes (aunque para el caso de RLS, solo hay una).

Predicción en modelo RLS

a. Predecir únicamente la función de regresión (media condicionada)
b. Incluir el término de error en la predicción (predicción puntual), tiene mayor amplitud ya que no considera el error.

Análisis de Varianza

Contraste de igualdad de medias de distintas poblaciones independientes.

Análisis de varianza de un factor

Sirve para probar la igualdad de varias medias poblacionales (no solamente de 2 en 2). Se basa en el estadístico F. El proceso estadístico se basa en la comparación de los efectos de diferentes tratamientos al ser aplicados estos en diferentes muestras (que contienen varias unidades experimentales) en varias (c) poblaciones.

Descomposición de la variabilidad y test F

Al igual que en el caso de la regresión lineal, verifica si la variabilidad de la muestra total, es decir considerando la media global Y es similar a la variabilidad dentro de cada grupo, es decir respecto a cada media grupal.

Comparaciones múltiples

Probar la igualdad entre pares de medias
poblacionales. Sin embargo, esto no es conveniente hacerlo directamente puesto que la probabilidad de cometer un error tipo I (es decir, rechazar la igualdad cuando esta es verdadera) aumenta a medida que el número de comparaciones aumenta.

Los métodos más comunes para realizar
comparaciones múltiples: método de Bonferroni, Tukey, Scheffé, Duncan, entre otros. Estas pruebas se realizan utilizando algún software estadístico, y solo se aplican en el caso de que la hipótesis nula del análisis de varianza sea rechazado.