Please enable JavaScript.
Coggle requires JavaScript to display documents.
Estadística Descriptiva - Coggle Diagram
Estadística Descriptiva
Unidad I. Introducción a la estadística y sus aplicaciones
Orígenes de la estadística
La palabra Estadística tiene dos acepciones en general, por un lado, es el hecho de estudiar las características de una población y sus integrantes; y por otro lado es una disciplina científica que entre muchas otras utilidades puede usarse para deducir relaciones entre variables,
Estadística significa ciencia del Estado, y proviene del término alemán Statistik. ¿Por qué la ciencia del Estado? Porque en sus orígenes la estadística se utilizaba exclusivamente con fines estatales,
Normalmente los primeros estudios estadísticos que se hacían eran los censos, que son estudios descriptivos sobre todos los integrantes de una población.
La Historia ofrece gran cantidad de ejemplos de actividad estadística. En antiguas civilizaciones como Babilonia, Egipto, China, Roma etc. era normal que se elaboraran recuentos de la población.
La Edad Antigua
la actividad estadística consistía principalmente en elaborar censos, tanto de población como de tierras.
En Egipto la actividad estadística comenzó con la Dinastía I, en el año 3050 a.C. Los faraones ordenaban la ejecución de censos con fines similares a los que acabamos de describir.
En Egipto la actividad estadística comenzó con la Dinastía I, en el año 3050 a.C. Los faraones ordenaban la ejecución de censos con fines similares a los que acabamos de describir.
En China, en el año 2238 a.C. el emperador Yao manda elaborar un censo general que recogió datos sobre la actividad agrícola, industrial y comercial.
En la antigua Grecia también se realizaron censos para cuantificar la distribución y posesión de la tierra y otras riquezas, organizar el servicio militar y determinar el derecho a voto de los ciudadanos.
Los censos y la actividad estadística tuvieron especial importancia en la antigua Roma. Durante el Imperio Romano se establecieron registros de nacimientos y defunciones, y se elaboraron estudios sobre los ciudadanos del Imperio, sus tierras y riquezas. El
La Edad Media
Cabe destacar el trabajo de Isidoro de Sevilla quien llevó a cabo una tarea de recopilación y clasificación de datos de diversa naturaleza cuyos resultados publicó en la obra Originum sive Etymologiarum.
En la América prehispánica también se elaboraban censos. Por ejemplo en lo que actualmente es el país de México, en el año 1116 durante la segunda migración de las tribus chichimecas el rey Xólotl ordenó que fueran censados todos sus súbditos.
También pueden citarse varios censos, como el de Carlomagno en 762, para conocer la extensión de tierras pertenecientes a la Iglesia, o el registro de propiedades, extensión y valor de las tierras de la Iglesia que se preparó en 1085 por orden de Guillermo I el Conquistador
La Edad Moderna
Se continúa con la obtención de información a través de censos. Por ejemplo, en España podemos destacar el Censo de Pecheros (1528), el de los Obispos (1587), el Censo de los Millones (1591), o el Censo del Conde de Aranda (1768) entre otros.
En Inglaterra la epidemia de peste de la década de 1500 provoca que comiencen a publicarse semanalmente datos sobre defunciones (Bills of Mortality). Con el tiempo a estos datos de mortalidad se le añadieron datos de nacimientos por sexo.
El comerciante inglés John Graunt está considerado uno de los fundadores de la estadística moderna. En su obra Natural and political observations (1662) realiza un análisis de los datos recogidos en las tablas de mortalidad anteriore
Gaspar Neumann, un profesor alemán del siglo XVII demostró, basándose en los registros de defunciones de la época, que la creencia popular de que en los años acabados en siete moría más gente era falsa.
El desarrollo científico-matemático que se dio en la Edad Moderna aportó mucho a la Estadística. Científicos como Copérnico, Galileo, Bacon, Descartes etc. contribuyeron con sus investigaciones y experimentos al desarrollo del método científico,
La Edad Contemporánea
Se continúan haciendo estudios de población tipo censos, por ejemplo, en España podemos destacar el censo de Floridablanca (1787) y Godoy (1797).
En Estados Unidos en 1790 bajo el mandato del presidente George Washington se elabora el primer censo de población del país.
El desarrollo de las Matemáticas y de otras ciencias proporcionó técnicas analíticas que permiten establecer relaciones entre variables, el grado de influencia de una sobre otra y predicciones.
Los trabajos de científicos como Laplace, Gauss y Legendre desarrollaron dos conceptos muy usados en el análisis estadístico: la teoría sobre los errores en la observación, y el método de los mínimos cuadrados.
En el siglo XIX y XX la Teoría de la Probabilidad y la Estadística continuaron desarrollándose. Destacan entre otros los trabajos de Andréi Markov, Aleksandr Liapunov y Pafnuti Chebyshev en el campo de la Probabilidad, y los trabajos de Irving Fisher y John Tukey en el campo de la Estadística.
Ramas de la estadística
Recopilación de datos
Esta es la rama de la estadística que se responsabiliza por el proceso de recabar información de todas las fuentes pertinentes para encontrar una solución a un problema concreto.
Datos primarios
Se trata de la información que se obtiene directamente de la fuente; es decir, de primera mano a través de experimentos, encuestas u observaciones.
Métodos de recolección de datos
Método cuantitativo Este método es el más barato y rápido, y se basa en cálculos matemáticos usando información proveniente de preguntas de opción múltiple en encuestas de opinión y los principios de correlación y regresión para obtener indicadores promedio.
Método cualitativo Esta metodología no conlleva cálculos matemáticos en lo absoluto; de hecho, está estrechamente vinculada con elementos que no se pueden cuantificar, incluidas las entrevistas presenciales o telefónicas, preguntas abiertas en cuestionarios, observaciones de campo y casos de estudio prácticos.
Datos secundarios
Se recopilan de fuentes indirectas, lo que significa que la información ya está disponible y los estadísticos se encargan exclusivamente de analizar los datos, sin importar si los datos ya se publicaron o no por otra entidad investigadora.
Estadística descriptiva
Se enfoca en recolectar y describir o resumir los hallazgos básicos que arrojan las investigaciones, incluyendo el tipo de muestreo y de medición que se utilizaron, sin formular u ofrecer conclusiones.
Estadística inferencial
se enfoca en extraer conclusiones basadas en otros factores diversos además de los datos, incluyendo las opiniones y observaciones de los especialistas, y las probabilidades de que suceda algún evento económico o social
Base de formular deducciones
Pruebas T: se utilizan para comprobar la veracidad de los datos mediante comparar los promedios extraídos de dos grupos de datos distintos.
Modelajes lineales: es un esquema avanzado para comparar cómo ciertas variaciones afectan al análisis de datos.
Estadística experimental
Se centra en desarrollar nuevas estadísticas a partir de muestreos limitados o en mejorar los resultados existentes que ofrezcan un valor añadido a los usuarios de los datos a partir de investigaciones exploratorias.
Estadística casual
Se basa en la correlación y causación cuando se considera que dos o más variables están vinculadas; es decir, si los valores de una variación aumentan o disminuyen, sucede lo mismo en los valores de la otra variable
Conceptos básicos
Población
Se precisa como un conjunto finito o infinito de individuos u objetos que presentan características comunes.
Cuando la población es muy grande, es obvio que la observación de todos los elementos se dificulte en cuanto al trabajo, tiempo y costos necesario para hacerlo. Para solucionar este inconveniente se utiliza una muestra estadística.
Es a menudo imposible o poco práctico observar la totalidad de los individuos, sobre todos si estos son muchos. En lugar de examinar el grupo entero llamado población o universo, se examina una pequeña parte del grupo llamada muestra.
Dominio
Es el conjunto de todos los valores posibles de la variable independiente. Es decir, el dominio es el valor de todos los valores de x que funcionarán y harán que la función retorne valores reales de y.
Podemos determinar el dominio de la función al buscar los valores de la variable independiente (usualmente la x), los cuales sí podemos usar en la función.
Caracteres
Al hacer un trabajo estadístico hay que decidir los caracteres (las propiedades) que desean estudiarse. Un carácter puede ser cuantitativo o cualitativo.
Escalas de medición
La escala nominal consiste en situar a cada individuo o elemento en una u otra clase dada (por ejemplo, hombre/mujer; lugar de nacimiento).
La escala ordinal sitúa los posibles valores en orden (primero, segundo, ...), sin que la distancia entre dos posiciones consecutivas sea necesariamente constante, fija.
La escala de intervalo permite asignar a cada individuo un número para así indicar su posición exacta a lo largo de una escala continua.
La escala de proporción (o proporcional) es la más perfecta. En ella existe un cero absoluto y, además, tiene sentido hablar de doble o mitad (un ejemplo de esta medida sería la longitud).
Unidad II. Análisis estadístico de una variable
Tablas y gráficos estadísticos
Una tabla estadística es un conjunto de datos dispuestos en filas y columnas, en las que se muestran ciertas características que describen la forma en que se comportan una o varias variables.
Las tablas estadísticas generan los llamados gráficos estadísticos, como los que observas a continuación, que son mucho más visuales en cuanto a la forma de presentar la información.
Uso de un gráfico estadístico
Ayudar a visualizar datos complejos de manera sencilla y accesible.
Presentar información de forma precisa y clara lo que facilita comparar y comprender cómo evolucionan las diferentes variables.
Ofrecer información clara a cualquier persona porque pueden ajustarse al nivel del público al que se presenta:
Tipos de gráficos
Pictogramas
Emplea símbolos o imágenes para representar datos numéricos correspondientes a las variables.
Para ello utilizan figuras relacionadas con el tema a las que se les da un tamaño o cantidad proporcional a la frecuencia que representa cada una.
Los pictogramas muchas veces se usan como una primera aproximación a la lectura e interpretación de datos estadísticos porque usan figuras que representan casi literalmente el concepto de la variable.
Gráfico de barras
Es un gráfico que usa barras horizontales o verticales para mostrar datos.
Gráfico circular
Es un gráfico en el que los datos están representados por sectores de un círculo.
Gráfico de línea
Es un gráfico que utiliza segmentos de línea para mostrar cambios en los datos. Los datos generalmente representan una cantidad que cambia con el tiempo.
Medidas de posición
Son valores que permiten dividir el conjunto de datos en partes porcentuales iguales y se usan para clasificar una observación dentro de una población o muestra.
Dividen un conjunto de datos en grupos con el mismo número de individuos. Para calcular las medidas de posición es necesario que los datos estén ordenados de menor a mayor.
Ejemplos
Cuartiles. Los cuartiles son los tres valores de la variable que dividen a un conjunto de datos ordenados en cuatro partes iguales. % de los datos. Se dividen por 4.
Deciles. Es cualquiera de los nueve valores que dividen a un grupo de datos ordenados en diez partes iguales, de manera que cada parte representa1/10 de la muestra o población.
Percentiles. Es una medida de posición usada en estadística que indica, una vez ordenados los datos de menor a mayor, el valor de la variable por debajo del cual se encuentra un porcentaje dado de observaciones en un grupo.
Medidas de dispersión
Son números que indican si una variable se mueve mucho, poco, más o menos que otra. La razón de ser de este tipo de medidas es conocer de manera resumida una característica de la variable estudiada.
Tipos
Rango. El rango es un valor numérico que indica la diferencia entre el valor máximo y el mínimo de una población o muestra estadística. Su fórmula es: R = Máxx – Mínx
Varianza La varianza es una medida de dispersión que representa la variabilidad de una serie de datos respecto a su media. Formalmente se calcula como la suma de los residuos al cuadrado divididos entre el total de observaciones.
Desviación típica La desviación típica es otra medida que ofrece información de la dispersión respecto a la media. Su cálculo es exactamente el mismo que la varianza, pero realizando la raíz cuadrada de su resultado. Es decir, la desviación típica es la raíz cuadrada de la varianza.
Coeficiente de variación Su cálculo se obtiene de dividir la desviación típica entre el valor absoluto de la media del conjunto y por lo general se expresa en porcentaje para su mejor comprensión.
Medidas de concentración y forma
Medidas de forma
Son aquellas que nos muestran si una distribución de frecuencia tiene características especiales como simetría, asimetría, nivel de concentración de datos y nivel de apuntamiento que la clasifiquen en un tipo particular de distribución.
Tipos
Coeficiente de asimetría de Fisher. Una distribución es simétrica cuando al trazar una vertical, en el diagrama de barras o histograma de una variable, según sea esta discreta o continua, por el valor de la media, esta vertical se transforma en eje de simetría y entonces decimos que la distribución es simétrica.
Coeficiente de curtosis o apuntamiento de Fisher La otra medida de forma que vamos a considerar es el apuntamiento, al igual que con la simetría hemos de tomar una referencia para ver si la distribución de los datos es apuntada o no.
Medidas de concentración
Se aplican a variables en las que tenga sentido plantearse la consideración del grado de reparto entre cada uno de los individuos de la suma total de los valores de la variable
Son medidas de reparto del total de la variable. Trataremos de estudiar si el reparto es más o menos equitativo o desigual
Unidad III. Números índices
Números índices simples
Un índice simple es el cociente entre la magnitud en el período corriente y la magnitud en el período base. Generalmente se multiplica por cien y se lee en porcentaje.
Propiedades
Existencia: todo número índice ha de existir, ser finito y distinto de cero.
Identidad: si el período base y el actual coinciden, el índice vale la unidad.
Circular: sean los períodos 0, t y t',
Inversión: el índice con los periodos invertidos resulta la inversa del índice.
Encadenamiento: es una generalización de la propiedad circular.
Proporcionalidad: si en el período actual todas las magnitudes sufren una variación proporcional, esto es, , el número índice queda afectado en la misma proporción.
Homogeneidad: el número índice no debe quedar afectado por un cambio en las unidades de medida.
Adición: el índice de una suma de magnitudes es la media ponderada de los índices simples.
Multiplicación: el índice de un producto de magnitudes es el producto de los índices simples.
Números índices complejos no ponderados
Surgen cuando se estudia la evolución de una magnitud que tiene más de un componente y a todos ellos se les asigna la misma importancia o peso relativo.
Índices de la media simple
Índice de la media aritmética simple. Es una media aritmética de los índices simples.
Índice de la media geométrica En este caso se utiliza la media geométrica de los índices simples (Hi) para calcular el índice complejo It/0 (H).
Índice de la media armónica El promedio que utilizamos, en este caso, es la media armónica de los índices simples (Hi).
Números índices complejos ponderados
Surgen cuando a los componentes de la magnitud compleja que se está estudiando se le asigna a cada uno un determinado coeficiente de ponderación wi.
Este tipo de números índices son los que realmente se emplean en el análisis de la evolución de los fenómenos complejos de naturaleza económica: índice de precios de consumo (IPC), índice de producción industrial (IPI), índice de precios hoteleros (IPH), etc.
Importancia
• Determinamos los elementos (magnitudes) que componen el consumo habitual de una familia,
• Averiguamos los precios de esos elementos.
• Averiguamos la importancia relativa (wi) de cada elemento en el consumo habitual de la familia.
Índice de Laspeyres El índice de Laspeyres compara el costo de comprar las cantidades del período base a los precios del período actual. Es una media aritmética ponderada de índices simples de precios, donde la ponderación es wi = pi0 qit.
Índice de Paasche Es la media aritmética ponderada de los índices simples de cada artículo utilizándose como ponderación para cada bien: wi=pi0. qit, esto es, el valor a precio del período base de la cantidad consumida en el período actual.
Índice de Fisher Dada una magnitud compleja H, compuesta por k magnitudes simples, se define el índice de Fisher de la magnitud H y se denota por Ft/0 (H), como la raíz cuadrada del producto del índice de Paasche por el índice de Laspeyres:
Unidad IV. Análisis estadístico de dos o más variables
Distribuciones bidimensionales
Una distribución se llama bidimensional, o de dos variables, si para cada elemento de la población o muestra se cogen las medidas relativas a dos caracteres cualitativos o cuantitativ
Distribuciones marginales
Proporciona la probabilidad de un subconjunto de valores del conjunto sin necesidad de conocer los valores de las otras variables. Esto contrasta con la distribución condicional, que proporciona probabilidades contingentes sobre el valor conocido de otras variables.
Relación estadística
Dos variables X e Y están relacionadas estadísticamente cuando conocida la primera se puede estimar aproximadamente el valor de la segunda.
Variable estadística bidimensional
Una variable estadística bidimensional es el conjunto (X, Y) de valores que pueden tomar dos caracteres diferentes X e Y medidos sobre cada uno de los individuos de una población o muestra.
Distribuciones bidimensionales
Son aquellas en las que se estudian al mismo tiempo dos variables de cada elemento de la población: por ejemplo: peso y altura de un grupo de estudiantes; superficie y precio de las viviendas de una ciudad; potencia y velocidad de una gama de coches deportivos.
Métodos de ajuste
El método de ajuste de una ecuación matemática a los datos experimentales mediante el criterio de los mínimos cuadrados se denomina regresión. Este conjunto de técnicas matemáticas tiene como fin obtener el valor de aquellos parámetros que minimizan el sumatorio de los residuales al cuadrado, así como establecer el intervalo de confianza de los mismos para evaluar la bondad del ajuste conseguido.
Tipos
Regresión lineal La regresión lineal la solución es única y el método exacto. Para discernir sobre la bondad del ajuste se utilizan diferentes criterios unos se refieren a los residuales y otro a los parámetros.
Regresión no lineal En la regresión no lineal la solución es aproximada y el método es iterativo (de búsqueda, de gradiente, ...). Debido a esto se acepta como aproximada la estadística de regresión lineal anteriormente expuesta, lo cual sólo sería cierto en condiciones asintóticas de infinito número de puntos, por ello se suelen admitir amplios coeficientes de variación de los parámetros.
Regresión y correlación lineal simple
Correlación lineal Para estudiar la relación lineal existente entre dos variables continuas es necesario disponer de parámetros que permitan cuantificar dicha relación. Uno de estos parámetros es la covarianza, que indica el grado de variación conjunta de dos variables aleatorias.
Coeficiente de Pearson. Es una prueba que mide la relación estadística entre dos variables continuas. Si la asociación entre los elementos no es lineal, entonces el coeficiente no se encuentra representado adecuadamente.
Coeficiente Tau de Kendall En estadística, el coeficiente de correlación de rango de Kendall, comúnmente conocido como coeficiente τ de Kendall (con la letra griega τ, tau), es una estadística utilizada para medir la asociación ordinal entre dos cantidades medidas. Una prueba τ es una prueba de hipótesis no paramétrica para la dependencia estadística basada en el coeficiente τ
Unidad V. Análisis de los hallazgos
Chi cuadrado
Es un procedimiento estadístico utilizado para determinar si existe una diferencia significativa entre los resultados esperados y los observados en una o más categorías.
Importancia
Debido a la forma en que se calcula el valor de Chi-Cuadrado, es extremadamente sensible al tamaño de la muestra: cuando el tamaño de la muestra es demasiado grande (~500), casi cualquier pequeña diferencia parecerá estadísticamente significativa.
El cálculo estadístico de Chi-Cuadrado y su comparación con un valor crítico de la distribución Chi-Cuadrado permite al investigador evaluar si los recuentos de celdas observados son significativamente diferentes de los recuentos de celdas esperados.
Es una excelente opción para comprender e interpretar la relación entre dos variables categóricas.
Tipos de pruebas
Prueba de bondad de ajuste. La prueba de bondad de ajuste Chi-cuadrado se utiliza para comparar una muestra recogida aleatoriamente que contiene una única variable categórica con una población mayor.
Prueba de independencia La prueba de independencia de Chi-Cuadrado busca una asociación entre dos variables categóricas dentro de la misma población.
Prueba de homogeneidad de Chi-Cuadrado La prueba de homogeneidad de Chi-Cuadrado se organiza y ejecuta exactamente igual que la prueba de independencia.
Regresión y correlación
La correlación cuantifica como de relacionadas están dos variables, mientras que la regresión lineal consiste en generar una ecuación (modelo) que, basándose en la relación existente entre ambas variables, permita predecir el valor de una a partir de la otra.
Correlación lineal El coeficiente de correlación lineal es el cociente entre la covarianza y el producto de las desviaciones típicas de ambas variables. Para estudiar la relación lineal existente entre dos variables continuas es necesario disponer de parámetros que permitan cuantificar dicha relación. Uno de estos parámetros es la covarianza, que indica el grado de variación conjunta de dos variables aleatorias.
Coeficiente de Pearson El coeficiente de correlación de Pearson es la covarianza estandarizada, y su ecuación difiere dependiendo de si se aplica a una muestra, Coeficiente de Pearson muestral (r), o si se aplica la población Coeficiente de Pearson poblacional (ρ).
Coeficiente de Spearman (Spearman’s rho) Es una medida no paramétrica de la correlación de rango (dependencia estadística del ranking entre dos variables). Se utiliza principalmente para el análisis de datos.
Coeficiente Tau de Kendall Trabaja con rangos, por lo que requiere que las variables cuya relación se quiere estudiar sean ordinales o que se puedan transformar en rangos. Al ser no paramétrico, es otra alternativa al Coeficiente de correlación de Pearson cuando no se cumple la condición de normalidad. Parece ser más aconsejable que el coeficiente de Spearman cuando el número de observaciones es pequeño o los valores se acumulan en una región por lo que el número de ligaduras al generar los rangos es alto
Regresión lineal
En estadística, la regresión lineal o ajuste lineal es un modelo matemático usado para aproximar la relación de dependencia entre una variable dependiente Y, m variables independientes Xi con m E Z+ y un término aleatorio E.
Historia
La primera forma de regresión lineal documentada fue el método de los mínimos cuadrados que fue publicada por Legendre en 1805, Gauss publicó un trabajo en donde desarrollaba de manera más profunda el método de los mínimos cuadrados, y en dónde se incluía una versión del teorema de Gauss-Márkov
El término regresión se utilizó por primera vez en el estudio de variables antropométricas: al comparar la estatura de padres e hijos, donde resultó que los hijos cuyos padres tenían una estatura muy superior al valor medio, tendían a igualarse a este, mientras que aquellos cuyos padres eran muy bajos tendían a reducir su diferencia respecto a la estatura media
Importancia
Son relativamente simples y proporcionan una fórmula matemática fácil de interpretar para generar predicciones. La regresión lineal es una técnica estadística establecida y se aplica fácilmente al software y a la computación.
Es la técnica más utilizada, es una forma que permite modelar una relación entre dos conjuntos de variables. El resultado es una ecuación que se puede utilizar para hacer proyecciones o estimaciones sobre los datos.
Las empresas lo utilizan para convertir datos sin procesar de manera confiable y predecible en inteligencia empresarial y conocimiento práctico. Los científicos de muchos campos, incluidas la biología y las ciencias del comportamiento, ambientales y sociales, utilizan la regresión lineal para realizar análisis de datos preliminares y predecir tendencias futuras
Funcionamiento
En esencia, una técnica de regresión lineal simple intenta trazar un gráfico lineal entre dos variables de datos, x e y. Como variable independiente, x se traza a lo largo del eje horizontal.
Las variables independientes también se denominan variables explicativas o variables predictivas. La variable dependiente, y, se traza en el eje vertical.
También puede hacer referencia a los valores y como variables de respuesta o variables pronosticadas.
Regresión lineal en el machine learning
En el machine learning, los programas de computación denominados algoritmos analizan grandes conjuntos de datos y trabajan hacia atrás a partir de esos datos para calcular la ecuación de regresión lineal.
Los científicos de datos primero entrenan el algoritmo en conjuntos de datos conocidos o etiquetados y, a continuación, utilizan el algoritmo para predecir valores desconocidos. Los datos de la vida real son más complicados que el ejemplo anterior.
Relación lineal. Debe existir una relación lineal entre las variables independientes y las dependientes. Para determinar esta relación, los científicos de datos crean una gráfica de dispersión (una colección aleatoria de valores x e y) para ver si caen a lo largo de una línea recta. De lo contrario, puede aplicar funciones no lineales, como la raíz cuadrada o el registro, para crear matemáticamente la relación lineal entre las dos variables.
Independencia residual Los científicos de datos utilizan residuos para medir la precisión de la predicción. Un residuo es la diferencia entre los datos observados y el valor previsto. Los residuos no deben tener un patrón identificable entre ellos. Por ejemplo, no querrá que los residuos crezcan con el tiempo
Normalidad Las técnicas de representación gráfica, como las gráficas Q-Q, determinan si los residuos se distribuyen normalmente. Los residuos deben caer a lo largo de una línea diagonal en el centro de la gráfica. Si los residuos no están normalizados, puede probar los datos para detectar valores atípicos aleatorios o valores que no sean típicos.
Homocedasticidad La homocedasticidad supone que los residuos tienen una variación constante o desviación estándar de la media para cada valor de x. De lo contrario, es posible que los resultados del análisis no sean precisos. Si no se cumple esta suposición, es posible que tenga que cambiar la variable dependiente.
Tipos
Regresión lineal simple La regresión lineal simple se define mediante la función lineal: Y= β0*X + β1 + ε β0 y β1 son dos constantes desconocidas que representan la pendiente de regresión, mientras que ε (épsilon) es el término de error.
Regresión lineal múltiple En el análisis de regresión lineal múltiple, el conjunto de datos contiene una variable dependiente y múltiples variables independientes. La función de línea de regresión lineal cambia para incluir más factores, de la siguiente manera: Y = β0*x0 + β1x1 + β2x2+…… βNxN+ ε
Regresión logística Los científicos de datos utilizan la regresión logística para medir la probabilidad de que se produzca un evento. La predicción es un valor entre 0 y 1, donde 0 indica un evento que es poco probable que ocurra y 1 indica una probabilidad máxima de que suceda. Las ecuaciones logísticas usan funciones logarítmicas para calcular la línea de regresión.