Please enable JavaScript.
Coggle requires JavaScript to display documents.
Conjunto de datos - Coggle Diagram
Conjunto de datos
Descripción numérica
Medidas de tendencia central
Las medidas de tendencia central son medidas estadísticas que pretenden resumir en un solo valor a un conjunto de valores. Representan un centro en torno al cual se encuentra ubicado el conjunto de los datos. Las medidas de tendencia central más utilizadas son: media, mediana y moda.
Media
La medida de tendencia central más conocida y utilizada es la media aritmética o promedio aritmético. Se representa por la letra griega µ cuando se trata del promedio del universo o población y por Ȳ (léase Y barra) cuando se trata del promedio de la muestra.
Ejemplo
Encuentre la media del conjunto {2, 5, 5, 6, 8, 8, 9, 11}.Hay 8 números en el conjunto. Súmelos, y luego divida entre 8.
Así, la media es 6.75.
Mediana
Otra medida de tendencia central es la mediana. La mediana es el valor de la variable que ocupa la posición central, cuando los datos se disponen en orden de magnitud. Es decir, el 50% de las observaciones tiene valores iguales o inferiores a la mediana y el otro 50% tiene valores iguales o superiores a la mediana.
Ejemplo
Si el número de observaciones es par, la mediana corresponde al promedio de los dos valores centrales. Por ejemplo, en la muestra 3, 9, 11, 15, la mediana es (9+11)/2=10.
Moda
La moda de una distribución se define como el valor de la variable que más se repite. En un polígono de frecuencia la moda corresponde al valor de la variable que está bajo el punto más alto del gráfico. Una muestra puede tener más de una moda.
Ejemplo
Encuentre la moda del conjunto {2, 3, 5, 5, 7, 9, 9, 9, 10, 12}.El 2, 3, 7, 10 y 12 aparecen una vez cada uno.El 5 aparece dos veces y el 9 aparece tres veces.Así, el 9 es la moda.
Medidas de dispersión
Las medidas de dispersión entregan información sobre la variación de la variable. Pretenden resumir en un solo valor la dispersión que tiene un conjunto de datos. Las medidas de dispersión más utilizadas son: Rango de variación, Varianza, Desviación estándar, Coeficiente de variación.
Rango de variación
Se define como la diferencia entre el mayor valor de la variable y el menor valor de la variable.
Varianza
Interpretación de la varianza (válida también para la desviación estándar): un alto valor de la varianza indica que los datos están alejados del promedio. Es difícil hacer una interpretación de la varianza teniendo un solo valor de ella.
Ejemplo
Consideremos a modo de ejemplo una muestra de 4 observaciones.Según la fórmula el promedio calculado es 7, veamos ahora el cálculo de las medidas de dispersión:s2 = 34 / 3 = 11,33 Varianza de la muestra.
Desviación estándar
La desviación estándar es un índice numérico de la dispersión de un conjunto de datos (o población). Mientras mayor es la desviación estándar, mayor es la dispersión de la población.
Ejemplo
Retomando el ejemplo de la varianza:La desviación estándar de la muestra (s) será la raíz cuadrada de 11,33 = 3,4.
Coeficiente de variación
Es una medida de la dispersión relativa de los datos. Se define como la desviación estándar de la muestra expresada como porcentaje de la media muestral.
Ejemplo
Una distribución tiene \bar{X}=140 y \sigma =28,28 y otra \bar{X}=150 y \sigma =24. ¿Cuál de las dos presenta mayor dispersión?
La primera distribución presenta mayor dispersión.
Regla empírica
En estadística, la regla 68-95-99.7, también conocida como regla empírica, es una abreviatura utilizada para recordar el porcentaje de valores que se encuentran dentro de una banda alrededor de la media en una distribución normal con un ancho de dos, cuatro y seis veces la desviación típica, respectivamente.
Ejemplo
El peso promedio de niños de un año en un país se distribuye normalmente con una media de 10 kilogramos y una desviación estándar de aproximadamente 1 kilogramo.
Estimar el porcentaje de niños de un año en el país que tienen un peso promedio entre 8 y 12 kilogramos.
8 = 10 – 2 = 10 – 2(1) = µ – 2 s
12 = 10 + 2 = 10 + 2(1) = µ + 2 s
Por tanto: [8, 12] = [µ – 2s, µ + 2s]
Según la regla empírica se puede afirmar que el 68.27% de los niños de un año del país tienen entre 8 y 12 kilogramos de peso.
Descripción gráfica de un conjunto de datos
Histograma
En estadística, un histograma es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados.
Ejemplo
tabla de frecuencias
La distribución de frecuencias o tabla de frecuencias es una ordenación en forma de tabla de los datos estadísticos, asignando a cada dato su frecuencia correspondiente.
Ejemplo
La siguiente tabla de frecuencias expresa el peso para 40 trabajadores.
Diagrama de caja
Un diagrama de caja es un método estandarizado para representar gráficamente una serie de datos numéricos a través de sus cuartiles. De esta manera, el diagrama de caja muestra a simple vista la mediana y los cuartiles de los datos, pudiendo también representar los valores atípicos de estos.
Ejemplo
Descripción de datos categóricos
Diagrama de barras
Un gráfico de barras o gráfico de columnas, es una forma de representar gráficamente un conjunto de datos o valores mediante barras rectangulares de longitud proporcional a los valores representados.
Ejemplo
Gráfica circular
Un gráfico circular o gráfica circular, también llamado "gráfico de pastel ", "gráfico de tarta", "gráfico de torta"o"gráfica de 360 grados", es un recurso estadístico que se utiliza para representar porcentajes y proporciones.
Ejemplo
Diagrama de pareto
El diagrama de Pareto, también llamado curva cerrada o Distribución A-B-C, es una gráfica para organizar datos de forma que estos queden en orden descendente, de izquierda a derecha y separados por barras.
Ejemplo
Error típico
En estadística, un error típico se refiere a las variaciones que son a menudo inevitables. El error típico puede definirse también como la variación producida por factores distorsionantes tanto conocidos como desconocidos
Ejemplo
En una muestra de 64 alumnos con una puntuación media de 56 y una desviación típica de 24, el error estándar de la media es 24 : 8 = 3, y los extremos del intervalo de estimación para la media de las puntuaciones en la población serían 56 – (2 x 3) = 50 y 56 + (2 x 3) = 62.