Please enable JavaScript.
Coggle requires JavaScript to display documents.
tema 10: Correlación y regresión - Coggle Diagram
tema 10: Correlación y
regresión
Correlación
es una medida numérica de la fuerza de la relación entre dos variables que representan datos cuantitativos.
Conceptos básicos de correlación
Existe una correlación entre dos variables cuando los valores de una de ellas están
relacionados de alguna manera con los valores de la otra.
Exploración de los datos
antes de realizar cualquier análisis estadístico formal, primero debemos utilizar un diagrama de dispersión para explorar los datos de manera visual
Si los puntos graficados muestran un patrón distintivo, podemos concluir que existe una correlación entre las dos variables en una muestra de datos pareados
Redondeo del coeficiente de correlación lineal r
Al calcular a mano r y otros estadísticos de este capítulo, hacer un redondeo a la mitad de un cálculo suele generar errores importantes
Propiedades del coeficiente de correlación lineal r
El valor de r está siempre entre 21 y 1, inclusive. Es decir
El valor de r no cambia si todos los valores de cualquiera de las variables se convierten a una escala diferente
El valor de r no se ve afectado por la elección de x o y. Intercambie todos los valores de x y y, y el valor de r no sufrirá cambios
r mide la fuerza de una relación lineal. No está diseñada para medir la fuerza de una relación que no sea lineal
r es muy sensible a los valores atípicos, en el sentido de que un solo valor atípico puede afectar su valor de manera drástica
Interpretación del coeficiente
de correlación lineal r
después del calculo tenemos que:
interpretar su significado
Si utilizamos los criterios presentados en el recuadro anterior, podemos basar nuestra interpretación en un valor P o en un valor crítico de la tabla A-6
Figura 10-3 Valores críticos de la tabla A-6 y el valor
calculado de r
Interpretación de r: Variación explicada
Si concluimos que existe una correlación lineal entre x y y
podemos obtener una ecuación lineal que exprese y en términos de x, y la ecuación puede utilizarse para predecir valores de y a partir de valores dados de x
El valor de r2 es la proporción de la variación de y que se explica por la
relación lineal entre x y y.
Errores comunes en las correlaciones
Un error común es concluir que la correlación implica causalidad. Con los datos muestrales de la tabla 10-2,
Otro error proviene de los datos basados en promedios. Los promedios eliminan la variación individual y pueden inflar el coeficiente de correlación.
Un tercer error implica la propiedad de linealidad. Si no hay una correlación lineal,
podría existir una correlación no lineal, como se observa en la figura 10-2d)
Método del valor P para la prueba de hipótesis de una correlación
El método de prueba de hipótesis anterior supone cálculos relativamente sencillos.
Los paquetes de cómputo suelen utilizar el método del valor P basado en la prueba r
Los siguientes son los componentes fundamentales de una prueba t
hipotesis
H0: r = 0 (No existe una correlación lineal).
H1: r Z 0 (Existe una correlación lineal).
Estadístico de prueba
Conclusión
Si el valor P es menor que o igual al nivel de significancia, rechace H0 y concluya que existe evidencia suficiente para sustentar la afirmación de una correlación lineal
Redondeo de la pendiente b1 y de b0 (la intersección con el eje y)
Es difícil dar una regla universal sencilla
para redondear los valores de b1 y b0, pero esta regla servirá en la mayor parte de las situaciones de este libro
Uso de la ecuación de regresión para efectuar predicciones
Es necesario considerar lo siguiente al realizar
predicciones
Use la ecuación de regresión para hacer predicciones únicamente si la gráfica de la recta de regresión en el diagrama de dispersión confirma que la recta de regresión se ajusta a los puntos razonablemente bien
Use la ecuación de regresión para hacer predicciones únicamente si el coeficiente de correlación lineal r indica que existe una correlación lineal entre las dos variables
Use la recta de regresión para realizar predicciones únicamente si los datos no se alejan mucho del ámbito de los datos muestrales disponibles
Si la ecuación de regresión no parece ser útil para realizar predicciones, el mejor valor de predicción de una variable es su estimación puntual, que es la media muestra
Interpretación de la ecuación de regresión: Cambio marginal
Cuando se trabaja con dos variables relacionadas por una ecuación de regresión, el cambio marginal en una variable es la cantidad que esta se modifica cuando la
La pendiente b1 en la ecuación de regresión representa el cambio marginal que ocurre en y cuando x cambia una unidad.
Valores atípicos y puntos influyentes
En un diagrama de dispersión, un valor atípico es un punto que aparece muy lejos de los otros puntos de datos.
Los datos muestrales pareados pueden incluir uno o más puntos influyentes, los cuales son puntos que afectan fuertemente la gráfica de la recta de regresión.
Residuos y la propiedad de los
mínimos cuadrados
Para una muestra de datos pareados x y y, un residuo es la diferencia entre un valor y muestral observado y el valor de y predicho por medio de la ecuación de regresión. Es decir
residuo 5 y observada 2 y predicha 5 y 2 y