Please enable JavaScript.
Coggle requires JavaScript to display documents.
Estadística descriptiva: medidas numéricas - Coggle Diagram
Estadística descriptiva:
medidas numéricas
3.1 Medidas de localización
Media
La
media proporciona una medida de localización central de los datos
Mediana
. Es el valor de en medio en los datos ordenados de menor a mayor (en forma ascendente)
Ordenar los datos de menor a mayor (en forma ascendente).
a.
Si el número de observaciones es impar, la mediana es el valor de en medio.
b.
Si el número de observaciones es par, la mediana es el promedio de las dos observaciones de en medio.
Moda
La moda es el valor que se presenta con mayor frecuencia
Percentiles
En los conjuntos de datos que no tienen muchos valores repetidos, el percentil p divide a los datos en dos partes.
Cuartiles
los puntos de división se les conoce como cuartiles y están definidos como sigue
Q1 primer cuartil, o percentil 25
Q2 segundo cuartil, o percentil 50
Q3 tercer cuartil, o percentil 75
3.2 Medidas de variabilidad
la variabilidad en los tiempos de entrega puede ser la consideración más importante en la elección de un proveedor
Rango
La razón es que el rango se basa sólo en dos observaciones y, por tanto, los valores
extremos tienen una gran influencia sobre él
Rango = Valor mayor -Valor menor
Rango intercuartílico
En otras
palabras, el rango intercuartílico es el rango en que se encuentra el 50% central de los datos.
IQR = Q3 - Q1
Varianza
Para calcular la varianza, estas desviaciones respecto de la media se elevan al cuadrado
La
varianza poblacional
se denota con la letra griega A2
la
varianza muestral
, que se denota por s2
Desviación estándar
se emplea
s
para denotar la desviación estándar muestral y
A
para denotar la desviación estándar poblacional
Coeficiente de variación
mide la desviación estándar en relación con la media.
3.3 Medidas de la forma de la distribución, de la posición relativa y de la detección de observaciones atípicas
Una medida
numérica importante de la forma de una distribución es el sesgo.
Forma de la distribución
se muestran cuatro histogramas elaborados a partir de distribuciones de frecuencias relativas
Los histogramas A y B son moderadamente sesgados
El histograma A es sesgado
a la izquierda, su sesgo es 0.85.
El histograma B es sesgado a la derecha
El histograma C es simétrico
. El histograma D es muy sesgado a la derecha
Puntos z
. Las medidas de localización relativa ayudan
a determinar qué tan lejos de la media se encuentra un determinado valor.
Para cada valor xi existe otro valor llamado punto z
Teorema de Chebyshev
proporción de los valores que se tienen en los datos debe estar dentro de un determinado número de desviaciones estándar de la media.
De acuerdo con este teorema para z =2, 3 y 4 desviaciones estándar se tiene
1.-Por lo menos 0.75, o 75%, de los valores de los datos deben estar dentro de z = 2 desviaciones estándar de la media.
2.- Al menos 0.89, o 89%, de los valores deben estar dentro de z = 3 desviaciones estándar
de la media
3.- Por lo menos 0.94, o 94%, de los valores deben estar dentro de z = 4 desviaciones estándar de la media.
Regla empírica
teorema de Chebyshev es que se aplica a cualquier conjunto de datos, sin
importar la forma de la distribución de los datos
regla empírica determinar el porcentaje de los valores de los datos que deben encontrarse dentro de un determinado número de desviaciones estándar de la media.
REGLA EMPÍRICA
Cerca de 68% de los valores de los datos se encontrarán a no más de una desviación estándar desde la media
Aproximadamente 95% de los valores de los datos se encontrarán a no más de dos
desviaciones estándar desde la media
Casi todos los valores de los datos estarán a no más de tres desviaciones estándar de
la media.
Detección de observaciones atípicas
tiene una o más observaciones cuyos valores son mucho más grandes o mucho más pequeños que la mayoría de los datos a eso se los llama observaciones atípicas.
Para identificar las observaciones atípicas se emplean los valores estandarizados (puntos z
Recuerde que la regla empírica permite concluir que en los datos con una distribución en forma de
campana, casi todos los valores se encuentran a no más de tres desviaciones estándar de la media