Correlación y regresión lineal simple

Diagrama de dispersión

Clasificación del análisis de regresión lineal.

Representación de la ecuación de regresión lineal simple

Uso del análisis de regresión lineal

Coeficiente de relación de Pearson

Tipos de variables de regresión lineal

Es una prueba que mide la relación estadística entre dos variables continuas.

Puede tomar un rango de valores de +1 a -1.

Un valor de 0 indica que no hay asociación entre las dos variables.

Un valor mayor que 0 indica una asociación positiva.

Un valor menor que 0 indica una asociación negativa.

Requisitos para la correlación de Pearson

La escala de medida debe ser una escala de intervalo o relación.

Las variables deben estar distribuida de forma aproximada.

La relación que se quiere estudiar entre ambas variables es lineal (de lo contrario, el coeficiente de Pearson no la puede detectar).

No debe haber valores atípicos en los datos.

Ecuación en muestra

Ecuación en población

Representación gráfica de dos variables para un conjunto de datos.

Ambas variables se representan como un punto en el plano cartesiano. De acuerdo la relación que exista entre ellas se define el tipo de correlación.

Correlación positiva

Correlación negativa

Correlación nula

Ambas variables aumentan o disminuyen

Una variable se comporta de forma contraria o a la otra

No se encuentra un comportamiento entre las variables

El coeficiente de correlación en un diagrama de dispersión

Se usa la letra r para expresarla

Correlación es positiva perfecta.

Correlación negativa

Correlación positiva

r=1

0<r<1

-1<r<0

Correlación nula

r=0

Correlación negativa perfecta

r=-1

Las dos variables deben de ser cuantitativas.

El análisis de regresión lineal es una técnica estadística utilizada para estudiar la relación entre variables.

En función del número de variables independientes

En función del tipo de función

En función de la naturaleza de la relación que exista entre las dos variables

La variable X puede ser la causa del valor de la variable Y.

Regresión simple

Regresión lineal

Regresión múltiple

Regresión no lineal

Predice un amplio rango de fenómenos,

Medidas económicas

En física se utiliza para caracterizar la relación entre variables o para calibrar medidas.

Puede utilizarse para explorar explorar y cuantificar la relación entre una variables.

Lleva asociados una serie de procedimientos de diagnóstico que informan sobre la estabilidad e idoneidad del análisis y que proporcionan pistas sobre cómo perfeccionarlo

Cuando f(X) no es una función lineal.

Cuando la variable Y depende únicamente de una única variable X.


Cuando la variable Y depende de varias variables (X1, X2, ..., Xr)

Cuando f(X) es una función lineal.

El objetivo de un modelo de regresión es encontrar una relación entre las variables que se ajuste lo mejor posible a los datos.

En el caso de un modelo de regresión lineal simple, el objetivo es encontrar la recta de regresión.

Para ser válido, el modelo de regresión lineal simple necesita que se satisfaga lo siguiente

  1. Linealidad
  1. Homocedasticidad
  1. Homogeneidad
  1. Independencia
  1. Normalidad

Para comprobar la linealidad, se representa gráficamente la nube de puntos
asociada al conjunto de observaciones.

Datos homocedásticos

Datos heterocedásticos

click to edit

La nube de puntos de los datos tiene una anchura más o menos constante a lo largo de la recta de regresión.

Cuando la varianza de los errores no es igual en todas las observaciones realizadas.

Las perturbaciones tienen esperanza nula.

Las perturbaciones son variables aleatorias independientes.

Los errores tienen una distribución normal.

click to edit

click to edit

click to edit

click to edit

click to edit

click to edit

Regresión lineal simple

Regresión lineal múltiple

Rectas de regresión

Sólo se maneja una variable independiente, por lo que sólo cuenta con dos parámetros.

Es posible analizar la relación entre dos o más variables a través de ecuaciones

Maneja varias variables independientes.

Son las rectas que mejor se ajustan a la nube de puntos (o también llamado diagrama de dispersión) generada por una distribución conjunta.

En medicina, las primeras evidencias relacionando la mortalidad con el fumar tabaco vinieron de estudios que utilizaban la regresión lineal.

JavaScript para regresión lineal.