PC 3 - CONOCIENDO LA ESTADÍSTICA INFERENCIAL

UNIDAD 3

Unidad 2

Unidad 4

Unidad 1

Intervalo de confianza para la media-Varianza desconocida

Intervalo de confianza para la propocición

T de student para una muestra

T de Student para muestras
independientes

U de Mann-Whitney Wilcoxon

Anova: Tukey

Kruskall Wallis

Tamaño del efecto (D de Cohen)

Kappa de Cohen

R de Pearson Rho de Spearman

Chi Cuadrado

Intervalo de confianza para la media - varianza conocida

¿Qué es?

Cuando la varianza de la población es desconocida y estamos interesados en estimar la media poblacional, se utiliza un intervalo de confianza para la media con la varianza desconocida. En este caso, se utiliza la distribución t de Student en lugar de la distribución normal, ya que la estimación de la desviación estándar se realiza a partir de la muestra.

click to edit

En muchas situaciones prácticas, no conocemos la verdadera varianza de la población. Sin embargo, en algunos casos especiales, puede ser posible o asumirse que la varianza poblacional es conocida. En estas situaciones, se puede utilizar esta información adicional para realizar inferencias estadísticas más prec

Cuando hablamos de la varianza conocida en estadísticas, nos referimos al hecho de que conocemos el valor de la varianza de la población subyacente de la que se está extrayendo una muestra.

La fórmula para calcular el intervalo de confianza para la diferencia de medias cuando se conocen las varianzas de las dos poblaciones con un nivel de confianza de 1-α es la siguiente:
image

Análisis de normalidad (Kolmogorov-Smirnov y Shapiro-Wilk)

Kolmogorov-Smirnov

Shapiro-Wilk


Prueba de Kolmogórov-Smirnov: características:


La prueba de Kolmogórov-Smirnov es una propia perteneciente a la estadística, concretamente a la estadística inferencial. La estadística inferencial pretende extraer información sobre las poblaciones. Se trata de una prueba de bondad de ajuste, es decir, sirve para verificar si las puntuaciones que hemos obtenido de la muestra siguen o no una distribución normal. Es decir, permite medir el grado de concordancia existente entre la distribución de un conjunto de datos y una distribución teórica específica. Su objetivo es señalar si los datos provienen de una población que tiene la distribución teórica especificada, es decir, lo que hace es contrastar si las observaciones podrían razonablemente proceder de la distribución especificada.


La prueba de Kolmogórov-Smirnov aborda la siguiente pregunta: ¿Provienen las observaciones de la muestra de alguna distribución hipotética?

image

La prueba de Kolmogórov-Smirnov es un tipo de prueba no paramétrica. Las pruebas no paramétricas (también llamadas de distribución libre) son utilizadas en estadística inferencial, y tienen las siguientes características: Plantean hipótesis sobre bondad de ajuste, independencia, el nivel de medida de las variables es bajo (ordinal): no tienen excesivas restricciones, son aplicables a muestras pequeñas y son robustas.

Según Novales (2010), este test se emplea para contrastar normalidad cuando el tamaño de la muestra es menor a 50 observaciones y en muestras grandes es equivalente al test de Kolmogórov-Smirnov. El método consiste en comenzar ordenando la muestra de menor a mayor valor, obteniendo el nuevo vector muestral. Cuando la muestra es como máximo de tamaño 50, se puede contrastar la normalidad con la prueba de Shapiro-Wilk, procediéndose a calcular la media y la varianza muestral. Se rechaza la hipótesis nula de normalidad si el estadístico Shapiro-Wilk -W- es menor que el valor crítico proporcionado por la tabla elaborada por los autores para el tamaño de la muestra y el nivel de significancia dado.

image

Shapiro-Wilk, como prueba de normalidad, fue introducido considerando que el gráfico de probabilidad normal que examina el ajuste de un conjunto de datos de muestra para la distribución normal es semejante a la de regresión lineal - la línea diagonal del gráfico es la recta de ajuste perfecto-, con la diferencia de que esta línea es similar a los residuos de la regresión. Mediante el análisis de la magnitud de esta variación -análisis de varianza-, la calidad del ajuste puede ser examinado. La prueba puede aplicarse a muestras grandes, como fue sugerido por Royston, que también produjo algoritmos para implementar su extensión y que se implementa en algunos softwares especializados estadísticos

¿Qué es la prueba t-Student para una muestra?
La prueba t-Student para una muestra es una técnica utilizada para determinar si la media de una muestra es estadísticamente diferente de una media poblacional conocida o hipotética. Esta prueba se utiliza cuando la población no sigue una distribución normal o cuando el tamaño de la muestra es pequeño (menos de 30).


La prueba de Student se basa en el cálculo de la estadística t, que se obtiene dividiendo la diferencia entre la media de la muestra y la media hipotética o conocida por la desviación estándar de la muestra dividida por la raíz cuadrada del tamaño de la muestra.


Si el valor de la estadística t calculada es mayor que el valor crítico de t obtenido de una tabla de distribución t de Student con un nivel de significancia determinado y grados de libertad (n-1), se rechaza la hipótesis nula de que las dos medias son iguales y se concluye que hay evidencia suficiente para afirmar que la media de la muestra es significativamente diferente de la media hipotética o conocida.

image

La prueba t de Student para una muestra, también conocida como t de Student univariada o t de una muestra, es una prueba estadística utilizada para determinar si la media de una muestra es significativamente diferente de una media poblacional hipotética o conocida. Esta prueba es adecuada cuando la varianza de la población es desconocida.

image


La prueba t de Student para una muestra, también conocida como t de Student univariada o t de una muestra, es una prueba estadística utilizada para determinar si la media de una muestra es significativamente diferente de una media poblacional hipotética o conocida. Esta prueba es adecuada cuando la varianza de la población es desconocida.

¿Cómo funciona la prueba U de Mann-Whitney?
La prueba U de Mann-Whitney realiza una comparación estadística de la media y determina si existe una diferencia en la variable dependiente para dos grupos independientes.
De esta forma, puede mostrar si la distribución de la variable dependiente es la misma para los dos grupos y, por tanto, de la misma población.
La prueba U de Mann-Whitney funciona a partir de clasificar todos los valores dependientes en orden ascendente, donde el valor más bajo recibe una puntuación de uno, y posteriormente utiliza la suma de los rangos de cada grupo en el cálculo de la estadística de la prueba.

Características que deben tener los datos para ser analizados por la prueba U de Mann-Whitney
Un punto importante a considerar son las características que los datos deben tener para poder ser analizados por la prueba U de Mann Whitney, entre las cuales destacan los siguientes:

¿Qué es la prueba U de Mann-Whitney?
La prueba U de Mann-Whitney es una prueba no paramétrica alternativa a la prueba t de muestras independientes (una prueba de hipótesis estadística utilizada para determinar si una media poblacional desconocida es diferente de un valor específico).

click to edit

click to edit

click to edit

click to edit

Con frecuencia debemos de tratar de estimar la media de una población sin conocer la varianza. Recordemos que si tenemos una muestra aleatoria tomada de una población normal, entonces la variable aleatoria

Intervalo de confianza para la media, varianza desconocida

image

click to edit

image

click to edit

Durante un año electoral vemos artículos en el periódico que indican intervalos de confianza en términos de proporciones o porcentajes. Por ejemplo, un sondeo para un candidato determinado que se presenta a las elecciones presidenciales puede mostrar que el candidato tiene el 40 % de los votos con una diferencia de tres puntos porcentuales (si la muestra es lo suficientemente grande). A menudo, las encuestas electorales se calculan con un 95 % de confianza, por lo que los encuestadores tendrían un 95 % de confianza en que la verdadera proporción de votantes que favorecen al candidato estaría entre el 0,37 y el 0,43.

El procedimiento para calcular el intervalo de confianza de una proporción poblacional es similar al de la media poblacional, pero las fórmulas son un poco diferentes, aunque conceptualmente idénticas. Aunque las fórmulas son diferentes, se basan en el mismo fundamento matemático que nos proporciona el teorema central del límite. Por ello, veremos el mismo formato básico utilizando los mismos tres datos: el valor muestral del parámetro en cuestión, la desviación típica de la distribución muestral correspondiente y el número de desviaciones típicas que necesitamos para tener la confianza en nuestra estimación que deseamos.

click to edit

el intervalo de confianza para la proporción proporciona una estimación del rango plausible para la proporción poblacional basándose en la información de la muestra, asumiendo que la distribución de la proporción muestral puede aproximarse a una distribución normal mediante el Teorema del Límite Central.

El intervalo de confianza para la proporción es una herramienta estadística utilizada para estimar el rango plausible en el cual se espera que se encuentre la verdadera proporción de una característica en una población, con un cierto nivel de confianza

Supuestos
Para poder aplicar la prueba de Kolmogórov-Smirnov correctamente, se deben asumir una serie de supuestos. Primeramente, la prueba asume que los parámetros de la distribución de prueba se han especificado previamente. Este procedimiento estima los parámetros a partir de la muestra.
Por otro lado, la media y la desviación estándar de la muestra son los parámetros de una distribución normal, los valores mínimo y máximo de la muestra definen el rango de la distribución uniforme, la media muestral es el parámetro de la distribución de Poisson y la media muestral es el parámetro de la distribución exponencial.
La capacidad de la prueba de Kolmogórov-Smirnov para detectar desviaciones a partir de la distribución hipotetizada puede disminuir gravemente. Para contrastarla con una distribución normal con parámetros estimados, se debe considerar la posibilidad de utilizar la prueba de K-S Lillliefors.

Aplicación
La prueba de Kolmogorov-Smirnov se puede aplicar sobre una muestra para comprobar si una variable (por ejemplo, las notas académicas o los ingresos €) se distribuyen normalmente. Esto a veces es necesario saberlo, ya que muchas pruebas paramétricas requieren que las variables que emplean sigan una distribución normal.

¿Cómo se calcula?
El resultado de la prueba de Kolmogórov-Smirnov se representa mediante la letra Z. La Z se calcula a partir de la diferencia mayor (en valor absoluto) entre las funciones de distribución acumuladas teórica y observada (empírica).


Ventajas
Algunas de las ventajas de la prueba de Kolmogórov-Smirnov son: Es más poderosa que la prueba Chi cuadrado (χ²) (también prueba de bondad de ajuste). Es fácil de calcular y usar, y no requiere agrupación de los datos. El estadístico es independiente de la distribución de frecuencias esperada, solo depende del tamaño de la muestra.

Es importante destacar que, aunque la prueba de Shapiro-Wilk es efectiva para detectar desviaciones de la normalidad, puede ser influenciada por el tamaño de la muestra. Para tamaños de muestra muy grandes, la prueba puede ser suficientemente sensible para detectar incluso desviaciones pequeñas de la normalidad, lo que puede hacer que se rechace la hipótesis nula incluso en casos prácticos donde las desviaciones de la normalidad no son de importancia práctica.

El estadístico de prueba de Shapiro-Wilk (W) se calcula a partir de las desviaciones entre los valores observados y los valores esperados bajo la hipótesis de normalidad. Cuanto más pequeño sea el valor de W, mayor será la evidencia en contra de la normalidad.

El procedimiento Prueba T para muestras independientes compara las medias de dos grupos de casos. Lo ideal es que para esta prueba los sujetos se asignen aleatoriamente a dos grupos, de forma que cualquier diferencia en la respuesta sea debida al tratamiento (o falta de tratamiento) y no a otros factores. Este caso no ocurre si se comparan los ingresos medios para hombres y mujeres. El sexo de una persona no se asigna aleatoriamente. En estas situaciones, debe asegurarse de que las diferencias en otros factores no enmascaren o resalten una diferencia significativa entre las medias. Las diferencias de ingresos medios pueden estar sometidas a la influencia de factores como los estudios (y no solamente el sexo)

Estadísticos. Para cada variable: tamaño de la muestra, media, desviación estándar y error estándar de la media. Para la diferencia entre las medias: media, error estándar e intervalo de confianza (puede especificar el nivel de confianza). Pruebas: prueba de Levene sobre la igualdad de varianzas y pruebas t de varianzas combinadas y separadas sobre la igualdad de las medias.

Prueba T para muestras independientes: Consideraciones sobre los datos

Ejemplo. Se asigna aleatoriamente un grupo de pacientes con hipertensión arterial a un grupo con placebo y otro con tratamiento. Los sujetos con placebo reciben una pastilla inactiva y los sujetos con tratamiento reciben un nuevo medicamento del cual se espera que reduzca la tensión arterial. Después de tratar a los sujetos durante dos meses, se utiliza la prueba t para dos muestras para comparar la tensión arterial media del grupo con placebo y del grupo con tratamiento. Cada paciente se mide una sola vez y pertenece a un solo grupo.

Datos. Los valores de la variable cuantitativa de interés se hallan en una única columna del archivo de datos. El procedimiento utiliza una variable de agrupación con dos valores para separar los casos en dos grupos. La variable de agrupación puede ser numérica (valores como 1 y 2, o 6,25 y 12,5) o de cadena corta (como sí y no). También puede usar una variable cuantitativa, como la edad, para dividir los casos en dos grupos especificando un punto de corte (el punto de corte 21 divide la edad en un grupo de menos de 21 años y otro de más de 21).

Supuestos. Para la prueba t de igualdad de varianzas, las observaciones deben ser muestras aleatorias independientes de distribuciones normales con la misma varianza de población. Para la prueba t de varianzas desiguales, las observaciones deben ser muestras aleatorias independientes de distribuciones normales. La prueba t para dos muestras es bastante robusta a las desviaciones de la normalidad. Al contrastar las distribuciones gráficamente, compruebe que son simétricas y que no contienen valores atípicos.

Prueba t para muestras independientes
La prueba t para muestras independientes (o prueba t no pareada) es una prueba estadística que determina si existe una diferencia entre dos grupos no relacionados
La prueba t para muestras independientes se utiliza para hacer una afirmación sobre la población basándose en dos muestras independientes. Para hacer esta afirmación se compara el valor medio de las dos muestras. Si la diferencia de medias es lo suficientemente grande, se supone que los dos grupos difieren.

¿Por qué necesitas la prueba t para muestras independientes?
Supongamos que quieres comprobar si hay una diferencia entre dos grupos de la población, por ejemplo, si hay una diferencia de salario entre hombres y mujeres. Es oviamente imposible preguntar a todos los hombres y mujeres por su salario, así que tomamos una muestra. Creamos una encuesta y la enviamos aleatoriamente a la gente. Para poder hacer una afirmación sobre la población basándonos en esta muestra necesitamos la prueba t independiente.


¿Cómo funciona la prueba t para muestras independientes?
La prueba t para muestras independientes pone la diferencia de medias en relación con el error típico de la media. El error típico de la media indica cuánto se dispersa el valor medio; indica lo lejos que es probable que esté la media muestral de los datos de la verdadera media poblacional. Si la fluctuación del valor medio es grande, indica que es muy probable que exista una gran diferencia entre los valores medios de los dos grupos, incluso por azar.


image

¿Qué son las muestras independientes?
Las muestras independientes existen si ningún caso o persona de un grupo puede asignarse a un caso o persona del otro grupo. Esto ocurre, por ejemplo, cuando se compara el grupo de mujeres y el de hombres, o el grupo de estudiantes de psicología con el de estudiantes de matemáticas

La prueba U de Mann-Whitney se utiliza para comparar dos medias muestrales que provienen de la misma población, así como para probar si dos medias muestrales son iguales o no. La prueba U de Mann-Whitney, también conocida como prueba de Mann-Whitney-Wilcoxon y como prueba de suma de rangos Wilcoxon, forma parte del grupo más grande de pruebas de dependencia. Las pruebas de dependencia suponen que las variables del análisis pueden dividirse en variables independientes y dependientes.

Importancia de la prueba U de Mann-Whitney
A diferencia de la prueba t de muestras independientes, la prueba U de Mann-Whitney permite sacar diferentes conclusiones sobre los datos en función de las suposiciones que se hagan sobre la distribución de los mismos.
Estas conclusiones pueden ir desde simplemente afirmar si las dos poblaciones difieren hasta determinar si hay diferencias en las medianas entre los grupos. Estas diferentes conclusiones dependen de la forma de las distribuciones de los datos.

2: La variable independiente debe consistir en dos grupos
La variable independiente debe consistir en dos grupos categóricos e independientes. Algunos ejemplos de variables independientes que cumplen este criterio son el género (2 grupos: hombre o mujer), el estado de empleo (2 grupos: empleado o desempleado), fumador (2 grupos: sí o no), etc.

3: Debe haber independencia de las observaciones de cada grupo
Esto significa que no hay relación entre las observaciones de cada grupo o entre los propios grupos.
Por ejemplo, debe haber diferentes participantes en cada grupo y ningún participante debe estar en más de un grupo. Esta cuestión radica más en el diseño de la investigación que en algo que se pueda comprobar, pero es un supuesto importante de la prueba U de Mann-Whitney.

1: La variable dependiente debe medirse a nivel ordinal o continuo
Ejemplos de variables ordinales son los ítems de la escala de Likert (una escala de 7 puntos que van desde «muy de acuerdo» hasta «muy en desacuerdo»), entre otras formas de clasificar categorías (por ejemplo, una escala de 5 puntos que explique cuánto le ha gustado un producto a un cliente, desde «No mucho» hasta «Sí, mucho»).
Algunos ejemplos de variables continuas son el tiempo de revisión (medido en horas), la inteligencia (medida mediante la puntuación del coeficiente intelectual), el rendimiento en los exámenes (medido de 0 a 100), el peso (medido en kg), etc.

  1. Las dos variables se distribuyen de forma anormal
    La prueba U de Mann-Whitney puede utilizarse cuando las dos variables no se distribuyen de forma regular.
    Sin embargo, para saber cómo interpretar los resultados de una prueba U de Mann-Whitney, tienes que determinar si la distribución de las puntuaciones para ambos grupos de la variable independiente (por ejemplo, «hombres» y «mujeres» para la variable independiente «género») tienen la misma forma.

¿Cómo interpretar los resultados de la prueba U de Mann-Whitney?
A continuación te presentaremos los pasos que debes realizar para interpretar los resultados de la prueba U de Mann-Whitney:

2: Determina si la diferencia es estadísticamente significativa
Para determinar si la diferencia entre las medianas es estadísticamente significativa, compara el valor p con el nivel de significación.

3: Identificar los valores atípicos
Los valores atípicos, que son valores de datos que se alejan de otros valores, pueden afectar en gran medida a los resultados de tu análisis.

1: Establece el intervalo de confianza
El primer paso consiste en determinar un intervalo de confianza para la diferencia entre dos medianas de población.

En primer lugar, considera la diferencia de las medianas de la muestra y, a continuación, examina el intervalo de confianza

La diferencia es una estimación de la diferencia entre las medianas de la población. Como este valor se basa en los datos de la muestra y no en toda la población, es poco probable que la diferencia de la muestra sea igual a la diferencia de la población.

Para estimar mejor la diferencia poblacional, utiliza el intervalo de confianza para la diferencia. El intervalo de confianza proporciona un rango de valores probables para la diferencia entre dos medianas poblacionales.

Normalmente, un nivel de significación (denotado como α o alfa) de 0,05 funciona bien. Un nivel de significación de 0,05 indica un riesgo del 5 % de concluir que existe una diferencia cuando en realidad no la hay.

Valor p ≤ α: La diferencia entre las medianas es estadísticamente significativa (Rechazar hipótesis). Si el valor p es menor o igual que el nivel de significación, la decisión es rechazar la hipótesis nula.

Valor p > α: La diferencia entre las medianas no es estadísticamente significativa (No se rechaza la hipótesis). Si el valor p es mayor que el nivel de significación, la decisión es no rechazar la hipótesis nula.

Por ello es importante que trates de identificar la causa de los valores atípicos. Corrige los errores de introducción de datos o de medición, o bien, considera la posibilidad de eliminar los valores de los datos para eventos anormales y puntuales (también llamados causas especiales). Una vez realizado lo anterior, repite el análisis.

entajas de realizar la prueba t

La prueba t de Student tiene varias ventajas que la hacen una técnica estadística útil en diferentes contextos de investigación. Algunas de las principales ventajas son:

Sensibilidad al tamaño de la muestra: A diferencia de otras pruebas estadísticas, es sensible al tamaño de la muestra, lo que significa que se puede utilizar con muestras pequeñas o grandes.

Distribución normal no requerida: La prueba t es robusta ante desviaciones de la normalidad de la población, especialmente cuando el tamaño de la muestra es grande.

Simplicidad de cálculo: Es una técnica estadística relativamente simple y fácil de calcular, lo que facilita su aplicación en diversos contextos.

Amplia aplicación: La prueba se aplica en diversas áreas, como la investigación médica, la investigación educativa, la investigación de mercado, la ingeniería, entre otros.

Identificación de la significancia estadística: La prueba t permite identificar si una diferencia observada entre la media de la muestra y la media poblacional hipotética o conocida es significativa o no desde un punto de vista estadístico.

R de Pearson

Rho de Spearmean

La prueba de Chi-Cuadrado es un procedimiento estadístico utilizado para determinar si existe una diferencia significativa entre los resultados esperados y los observados en una o más categorías.

image

Importancia de la prueba chi-cuadrado en la investigación
La prueba de Chi-cuadrado es una excelente opción para comprender e interpretar la relación entre dos variables categóricas.

¿Qué es el método de Tukey para comparaciones múltiples?
El método de Tukey se utiliza en ANOVA para crear intervalos de confianza para todas las diferencias en parejas entre las medias de los niveles de los factores mientras controla la tasa de error por familia en un nivel especificado. Es importante considerar la tasa de error por familia cuando se hacen comparaciones múltiples, porque la probabilidad de cometer un error de tipo I para una serie de comparaciones es mayor que la tasa de error para cualquier comparación individual. Para contrarrestar esta tasa de error más elevada, el método de Tukey ajusta el nivel de confianza de cada intervalo individual para que el nivel de confianza simultáneo resultante sea igual al valor que usted especifique.

La prueba de Tukey, a menudo denominada procedimiento de Tukey o prueba de Tukey HSD (por "Honestly Significant Difference"), es un método estadístico utilizado en el análisis de varianza (ANOVA) para comparar todas las combinaciones posibles de medias entre varios grupos. Este método es particularmente útil cuando se realiza un ANOVA de una vía (un factor) y se desea identificar qué grupos difieren significativamente entre sí después de haber encontrado diferencias significativas en las medias globales

image

Ejemplo de los intervalos de confianza de Tukey
Usted está midiendo los tiempos de respuesta de circuitos integrados de memoria. Tomó una muestra de 25 circuitos integrados de cinco fabricantes diferentes.

Usted decide examinar las 10 comparaciones entre las cinco plantas para determinar específicamente cuáles medias son diferentes. Usando el método de Tukey, usted especifica que todo el conjunto de comparaciones debe tener una tasa de error por familia de 0.05 (equivalente a un nivel de confianza simultáneo de 95%). Minitab calcula que los 10 niveles de confianza individuales deben ser de 99.35% para obtener el nivel de confianza conjunto de 95%. Estos intervalos de confianza de Tukey más amplios ofrecen estimaciones menos precisas del parámetro de población, pero limitan a un máximo de 5% la probabilidad de que uno o más intervalos de confianza no contengan la verdadera diferencia. Entendiendo este contexto, usted puede examinar entonces los intervalos de confianza para determinar si alguno de ellos no incluye el cero, lo que indica una diferencia significativa.

image


Intervalos de confianza con niveles de confianza individuales de 95% :

Intervalos de confianza con niveles de confianza individuales de 99.35% para obtener un nivel de confianza conjunto de 95% utilizando el método de Tuke

image

Comparación de los intervalos de confianza de 95% con los intervalos de confianza más amplios de 99.35% utilizados por el método de Tukey en el ejemplo anterior. La línea de referencia en 0 muestra cómo los intervalos de confianza más amplios de Tukey pueden cambiar sus conclusiones. Los intervalos de confianza que contienen cero indican que no hay diferencia. (Por razones de espacio, solo se muestran 5 de las 10 comparaciones).

El procedimiento de Tukey calcula una estadística de comparación (o estadística de rango), que se compara con un valor crítico ajustado para controlar el error experimentado. Si la diferencia entre dos grupos es mayor que esta estadística crítica, se concluye que hay una diferencia significativa entre esos dos grupos

La principal ventaja de la prueba de Tukey es que controla eficazmente la tasa global de error de tipo I, evitando así aumentar la probabilidad de cometer errores de tipo I cuando se realizan múltiples comparaciones.

La prueba H de Kruskal-Wallis es una prueba no paramétrica basada en el rango que puede utilizarse para corroborar si existen diferencias relevantes a nivel estadístico entre dos o más grupos de una variable independiente en una variable dependiente ordinal o continua.

¿Cuándo se puede utilizar la prueba de Kruskal Wallis?
Cuando decidas analizar tus datos mediante una prueba H de Kruskal-Wallis, parte del proceso consiste en comprobar que los datos que se desean analizar pueden realmente analizarse mediante una prueba H de Kruskal-Wallis.

image

La prueba determina si las medianas de dos o más grupos son diferentes. De esta forma, calcula un estadístico de prueba y lo compara con un punto de corte de la distribución

El estadístico de prueba utilizado se denomina estadístico H. Las hipótesis de la prueba son:

H0: las medianas de la población son iguales.

¿Cuál es la importancia del test de Kruskal Wallis?
La prueba de Kruskal Wallis se considera la alternativa no paramétrica al ANOVA unidireccional, y una extensión de la prueba U de Mann-Whitney para permitir la comparación de más de dos grupos independientes.

La prueba H se utiliza cuando no se cumplen los supuestos del ANOVA (como el supuesto de normalidad). A veces se denomina ANOVA unidireccional sobre rangos, ya que en la prueba se utilizan los rangos de los valores de los datos en lugar de los puntos de datos reales.

H1: las medianas de la población no son iguales

Al ser no paramétrica, la prueba no asume que los datos provienen de una distribución particular. La prueba de Kruskal Wallis te dirá si hay una diferencia significativa entre los grupos. Sin embargo, no te dirá qué grupos son diferentes.

Ventajas de utilizar los modelos de Kruskal Wallis
Algunas de las ventajas de utilizar los modelos de Kruskal Wallis son

Puede aplicarse a un gran número de situaciones.

Se puede entender fácilmente de forma intuitiva.

Puede utilizarse con tamaños de muestra más pequeños.

Es generalmente robusto y no suele verse afectado por valores extremos en los datos, como los valores atípicos.

Necesita menos supuestos o menos estrictos sobre la naturaleza de la distribución de la población.

Tiene un alto nivel de eficiencia relativa asintótica en comparación con las pruebas paramétricas clásicas.

Puede utilizarse con diversos tipos de datos.

Sólo es apropiado utilizar una prueba H de Kruskal-Wallis si tus datos «pasan» por cuatro supuestos que son necesarios para que una prueba H de Kruskal-Wallis pueda arrojar un resultado válido:

Supuesto No. 1: Es necesario medir a nivel ordinal o continuo su variable dependiente.

Supuesto No. 2: Dos o más de dos grupos categóricos e independientes conforman su variable independiente. La prueba H de Kruskal-Wallis se utiliza cuando se tienen tres o más grupos categóricos independientes, pero puede utilizarse sólo para dos grupos.

Supuesto No. 3: Es necesario que haya independencia de las observaciones, es decir, no se presente ninguna relación entre las observaciones de los grupos o entre los grupos.

¿Cómo realizar la prueba de Kruskal Wallis?
Ahora que ya conoces en qué consiste la prueba de Krustal Wallis, cuál es su importancia y cómo saber si se puede utilizar la prueba de Kruskal Wallis, es momento de presentarte cómo realizarla paso a paso:

Paso 1: Ordena los datos de todos los grupos o muestras en orden ascendente en un conjunto combinado.

Paso 2: Asigna rangos a los puntos de datos ordenados. Asigna a los valores empatados el rango medio.

Paso 3: Suma los diferentes rangos de cada grupo/muestra.

Paso 4: Calcula el estadístico H

Conclusión
Como toda prueba no paramétrica, el uso de la prueba de Kruskal Wallis es conveniente cuando se trabaja con muestras pequeñas, con la finalidad de corroborar los resultados obtenidos con base en el uso de la teoría basada en la norma

click to edit

image

La d de Cohen es una medida del tamaño del efecto como diferencia de medias estandarizada. Es decir, nos informa de cuántas desviaciones típicas de diferencia hay entre los resultados de los dos grupos que se comparan (grupo experimental y grupo de control, o el mismo grupo antes y después de la intervención).

La D de Cohen mide específicamente el tamaño del efecto de la diferencia entre dos medias.

En una entrada anterior sobre la g de Hedges (otra diferencia de medias estandarizada) se puede encontrar una explicación sobre qué es lo que se está midiendo que se puede aplicar a la d de Cohen. En otra entrada anterior sobre el tamaño del efecto se pueden encontrar algunas referencias para juzgar si ese resultado es pequeño, moderado o grande.

El cálculo de la d es sencillo cuando se dispone de la media de los resultados y la desviación típica de cada grupo. Pero cuando uno comienza a informarse se encuentra con que, incluso para ese caso elemental, distintos autores proponen distintas fórmulas, y entonces es cuándo comienza la incertidumbre

En algo están todos de acuerdo: para calcular la d de Cohen restamos las medias, la del grupo que recibe el tratamiento menos la del grupo de control, o si en el diseño sólo hay un grupo, la de después del tratamiento menos la de antes. Una vez que se tiene el resultado de la diferencia de medias, hay que dividirlo entre la desviación típica de ese resultado en la población. Aquí es donde empiezan las diferencias.

image


La D de Cohen funciona mejor para tamaños de muestra más grandes (> 50). Para tamaños de muestra más pequeños, tiende a inflar demasiado los resultados. Hay disponible un factor de corrección que reduce el tamaño del efecto para muestras pequeñas en unos pocos puntos porcentuales: Nota : el sesgo hacia el sesgo de muestras pequeñas es ligeramente menor para un método alternativo, Hedges’ g , que usa n-1 para cada muestra.


La D de Cohen funciona mejor para tamaños de muestra más grandes (> 50). Para tamaños de muestra más pequeños, tiende a inflar demasiado los resultados. Hay disponible un factor de corrección que reduce el tamaño del efecto para muestras pequeñas en unos pocos puntos porcentuales: Nota : el sesgo hacia el sesgo de muestras pequeñas es ligeramente menor para un método alternativo, Hedges’ g , que usa n-1 para cada muestra.

Interpretación de la regla general
Si no está familiarizado con el significado de las desviaciones estándar y las puntuaciones z, o tiene problemas para visualizar el resultado de la D de Cohen, use estas pautas generales de «regla general » (que Cohen dijo que deben usarse con precaución):


Efecto pequeño = 0,2

Efecto Medio = 0.5

Efecto grande = 0,8

Los efectos “pequeños” son difíciles de ver a simple vista. Por ejemplo, Cohen informó que la diferencia de altura entre las niñas de 15 y 16 años en los EE. UU. es aproximadamente de este tamaño del efecto. «Medio» es probablemente lo suficientemente grande como para ser discernido a simple vista, mientras que los efectos que son «grandes» definitivamente se pueden ver a simple vista (Cohen llama a esto «groseramente perceptible y, por lo tanto, grande»). Por ejemplo, la diferencia de altura entre las niñas de 13 y 18 años es de 0,8. Un efecto por debajo de 0,2 puede considerarse trivial, incluso si sus resultados son estadísticamente significativos .

image

Kappa de Cohen (κ)
Kappa es una medida de concordancia propuesta por Cohen en 1960, que se basa en comparar la concordancia observada en un conjunto de datos, respecto a la que podríaocurrir por mero azar. Es útil para todas las tablas, pero tiene algunas peculiaridades cuando se aplica a tablas de 2*2. Para el caso de más de dos evaluadores, clasificaciones, métodos, etc., Fleiss generalizó el método de Cohen, por lo que a veces se conoce también como Kappa de Fleiss.

Está claro que una medida simple de concordancia, sería la proporción de coincidencias frente al total de sujetos. En la tabla de 2*2, y con la nomenclatura que habitualmente utilizamos sería (a+d) / n. No obstante, aunque no hubiera ninguna relación entre los dos métodos de clasificación o evaluación o entre los observadores, o entre las dos escalas de evaluación, podría haber algún grado de coincidencia por mero azar- Si empleáramos una moneda para clasificar una población asignandole una situación según salga cara o cruz, y volvemos a evaluarlo mediante el lanzamiento de otra moneda, lo más probable es que haya aproximadamente un 50% de coincidencias. Si se quiere eliminar ese sesgo, hay que eliminar de alguna forma la concordancia esperada por azar.

Si denominamos Co a la proporción de la concordancia observada (en tanto por uno), y Ca, a la proporción de concordancia que se esperaría por mero azar, K sería igual a:


K= (Co – Ca) / (1- Ca)

Si K es cero, ello significa que la concordancia observada coincide con la que ocurriría por puro azar. Valores positivos señalan mayor concordancia que la que se esperaría por el puro azar. Si el resultado fuera 1, se trataría de una concordancia perfecta. Si K toma un valor negativo, significa existencia de discordancia, que solamente en la tabla de 2*2, podría llegar hasta -1, lo que señalaría una discordancia total entre las dos clasificaciones o evaluaciones.


Con todo, hay que calcular también el intervalo de confianza en el que se mueve K, ya que, aunque K tenga valores positivos, si el intervalo de confianza es muy amplio, habría que reconsiderar la significación, es decir, si es suficiente para decidir que ambas clasificaciones, observadores, etc. son similares.

Ejemplo de Kappa de Cohen
Supongamos que has desarrollado una herramienta de medición, por ejemplo un cuestionario, que los médicos pueden utilizar para determinar si una persona está deprimida o no. Ahora le das esta herramienta a un médico y le pides que evalúe con ella a 50 personas.

Por ejemplo, tu método muestra que la primera persona está deprimida, la segunda está deprimida y la tercera no está deprimida. La gran pregunta ahora es ¿Llegará un segundo médico a la misma conclusión?

image

Entonces, con un segundo médico, el resultado podría ser ahora el siguiente: Para la primera persona, ambos médicos llegan al mismo resultado, pero para la segunda persona, el resultado difiere. Así que te interesa saber cuál es la concordancia de los médicos, y aquí es donde entra en juego el Kappa de Cohen.

Fiabilidad entre evaluadores
Si las evaluaciones de los dos médicos coinciden muy bien, la fiabilidad entre evaluadores es alta. Y es esta fiabilidad entre evaluadores la que se mide con el Kappa de Cohen.
La Kappa de Cohen es, por tanto, una medida de la fiabilidad con la que dos evaluadores miden lo mismo.

Casos de uso de la Kappa de Cohen
Hasta ahora hemos considerado el caso en que dos personas miden lo mismo. Sin embargo, el Kappa de Cohen también puede utilizarse cuando el mismo evaluador realiza la medición en dos momentos diferentes

image

Fiabilidad y validez del Kappa de Cohen
Es importante tener en cuenta que el coeficiente Kappa de Cohen sólo puede indicarte la fiabilidad con la que ambos evaluadores miden lo mismo. No te dice si lo que miden los dos evaluadores es lo correcto.

image

En el primer caso hablamos de fiabilidad (si ambos miden lo mismo) y en el segundo de validez (si ambos miden lo correcto). El Kappa de Cohen sólo puede utilizarse para medir la fiabilidad.

Calcular el Kappa de Cohen
Ahora surge la pregunta, ¿cómo se calcula el Kappa de Cohen? No es difícil. Creamos una tabla con las frecuencias de las respuestas correspondientes.

Para ello tomamos a nuestros dos calificadores, cada uno de los cuales ha calificado si una persona está deprimida o no. Ahora contamos con qué frecuencia ambos han valorado lo mismo y con qué frecuencia no.

Así que hacemos una tabla con el Calificador 1 con "no deprimido" y "deprimido" y el Calificador 2 con "no deprimido" y "deprimido". Ahora simplemente llevamos una hoja de recuento y contamos con qué frecuencia se da cada combinación.

Kappa de Cohen ponderado
El Kappa de Cohen tiene en cuenta el acuerdo entre dos calificadores, pero sólo es relevante si ambos calificadores miden lo mismo o no. En el caso de una variable ordinal, es decir, una variable con una gradación, como las calificaciones escolares, es deseable, por supuesto, que también se tengan en cuenta las gradaciones. La diferencia entre "muy bueno" y "satisfactorio" es mayor que entre "muy bueno" y "bueno".

image

image

Rho de Spearman es una medida de dependencia no paramétrica en la cual se calcula la jerarquía media de las observaciones, se hace el cuadrado a la diferencias y se incorpora en la fórmula.

En otras palabras, asignamos una clasificación a las observaciones de cada variable y estudiamos la relación de dependencia entre dos variables dadas.

Las correlaciones clasificadas son una alternativa no paramétrica como medida de dependencia entre dos variables cuando no podemos aplicar el coficiente de correlación de Pearson.

Generalmente se asigna la letra giega rho al coeficiente de correlación.

Procedimiento Rho Spearman

Partimos de una muestra de n observaciones (Ai,Bi).

Clasificar las observaciones de cada variable ajustándolas por empate.

Utilizamos una función de excel que nos clasifique las observaciones y que las ajuste automáticamente si encuentra empates entre los elementos. Esta función recibe el nombre de JERARQUIA.MEDIA(clasificación Ai;clasificación An;orden).

El último factor de la función es opcional y nos dice en qué orden queremos ordenar las observaciones. Un número distinto de cero ordenará las observaciones en orden ascendente. Por ejemplo, asignará al menor elemento una clasificación de 1. Si colocamos un cero en la variable orden, asignará al mayor elemento una clasificación de 1 (orden descendente).

Coeficiente de correlación de Spearman
La correlación de rangos de Spearman examina la relación entre dos variables, siendo la contrapartida no paramétrica de la correlación de Pearson. Por lo tanto, en este caso no se requiere una distribución normal de los datos.

Existe una diferencia importante entre ambos coeficientes de correlación. La correlación de Spearman utiliza los rangos de los datos en lugar de los datos en sí, de ahí el nombre de correlación de rangos.

Ecuación de correlación de Spearman
Si no hay empates de rango, esta ecuación también se puede utilizar para calcular la correlación de Spearman.

image

El coeficiente de correlación de Pearson se utiliza para estudiar la relación (o correlación) entre dos variables aleatorias cuantitativas (escala mínima de intervalo); por ejemplo, la relación entre el peso y la altura.

Es una medida que nos da información acerca de la intensidad y la dirección de la relación. En otras palabras, se trata de un índice que mide el grado de covariación entre distintas variables relacionadas linealmente.

Debemos tener clara la diferencia entre relación, correlación o covariación entre dos variables (= variación conjunta) y causalidad (también llamada pronóstico, predicción o regresión), ya que son conceptos diferentes.

¿Cómo se interpreta?
El coeficiente de correlación de Pearson comprende valores entre el -1 y el +1. Así, dependiendo de su valor, tendrá un significado u otro.

Si el coeficiente de correlación de Pearson es igual a 1 o a -1, podemos considerar que la correlación que existe entre las variables estudiadas es perfecta.

Si el coeficiente es mayor que 0, la correlación es positiva (“A más, más, y a menos menos). En cambio, si es menor que 0 (negativo), la correlación es negativa (“A más, menos, y a menos, más). Finalmente, si el coeficiente es igual a 0, sólo podemos afirmar que no hay relación lineal entre las variables, pero puede haber algún otro tipo de relación.

Consideraciones
El coeficiente de correlación de Pearson aumenta si aumenta la variabilidad de X y/o Y (las variables), y disminuye en el caso contrario. Por otro lado, para afirmar si un valor es alto o bajo, debemos comparar nuestros datos con otras investigaciones con las mismas variables y en circunstancias parecidas.

Para representar las relaciones de diferentes variables que combinan linealmente, podemos utilizar la llamada matriz de varianzas-covarianzas o la matriz de correlaciones; en la diagonal de la primera nos encontraremos con valores de la varianza, y en la de la segunda nos encontraremos con unos (la correlación de una variable consigo misma es perfecta, =1).

Coeficiente elevado al cuadrado

Cuando elevamos al cuadrado el coeficiente de correlación de Pearson, su significado cambia, e interpretamos su valor en relación a los pronósticos (indica causalidad de la relación). Es decir, en este caso, puede tener cuatro interpretaciones o significados:

  1. Varianza asociada
    Indica la proporción de la varianza de Y (una variable) asociada a la variación de X (la otra variable). Por lo tanto, sabremos que "1-coeficiente Pearson al cuadrado" = "proporción de la varianza de Y que no está asociada a la variación de X".
  1. Diferencias individuales
    Si multiplicamos el coeficiente de correlación de Pearson x100, nos estará indicando el % de las diferencias individuales en Y que están asociadas / dependen de / son explicadas por las variaciones o diferencias individuales en X. Por lo tanto, "1-coeficiente Pearson al cuadrado x 100" = % de las diferencias individuales en Y que no está asociado / depende de / es explicado por las variaciones o diferencias individuales en X.
  1. Índice de reducción del error
    El coeficiente de correlación de Pearson elevado al cuadrado también puede interpretarse como un índice de la reducción de error en los pronósticos; es decir, se trataría de la proporción del error cuadrático medio eliminado usando Y’ (la recta de regresión, elaborada a partir de los resultados) en vez de la media de Y como pronóstico. En este caso también se multiplicaría el coeficiente x 100 (indica el %).

Por lo tanto, "1-coeficiente Pearson al cuadrado" = error que se sigue cometiendo al usar la recta de regresión en vez de la media (siempre multiplicado x 100 = indica el %).

  1. Índice de aproximación de los puntos
    Finalmente, la última interpretación del coeficiente de correlación de Pearson elevado al cuadrado indicaría la aproximación de los puntos a la recta de regresión comentada. Cuando mayor sea el valor del coeficiente (más cercano a 1), más se aproximarán los puntos a Y’ (a la recta).

Se trata de una prueba no paramétrica que es utilizada por los investigadores para examinar las diferencias entre variables categóricas en la misma población. También puede utilizarse para validar o proporcionar un contexto adicional para las frecuencias observadas.

La idea básica de la prueba es que se comparan los valores de los datos reales con lo que se esperaría si la hipótesis nula fuera cierta.

De esta forma, se busca determinar si una diferencia entre los datos observados y los esperados se debe al azar, o si se debe a una relación entre las variables que se están estudiando.

La tabulación cruzada presenta las distribuciones de dos variables categóricas simultáneamente, con las intersecciones de las categorías de las variables que aparecen en las celdas de la tabla.

Debido a la forma en que se calcula el valor de Chi-Cuadrado, es extremadamente sensible al tamaño de la muestra: cuando el tamaño de la muestra es demasiado grande (~500), casi cualquier pequeña diferencia parecerá estadísticamente significativa.

También es sensible a la distribución dentro de las celdas. Esto puede solucionarse utilizando siempre variables categóricas con un número limitado de categorías.

Tipos de pruebas de Chi-Cuadrado
Existen diferentes tipos de pruebas de Chi-Cuadrado: Prueba de bondad de ajuste, prueba de independencia y prueba de homogeneidad. Ahora te presentaremos en qué consiste cada uno:

Prueba de bondad de ajuste
La prueba de bondad de ajuste Chi-cuadrado se utiliza para comparar una muestra recogida aleatoriamente que contiene una única variable categórica con una población mayor.

Esta prueba se utiliza con mayor frecuencia para comparar una muestra aleatoria con la población de la que se ha recogido potencialmente.

Prueba de independencia
La prueba de independencia de Chi-Cuadrado busca una asociación entre dos variables categóricas dentro de la misma población.

A diferencia de la prueba de bondad de ajuste, la prueba de independencia no compara una única variable observada con una población teórica, sino dos variables dentro de un conjunto de muestras entre sí.

Prueba de homogeneidad de Chi-Cuadrado
La prueba de homogeneidad de Chi-Cuadrado se organiza y ejecuta exactamente igual que la prueba de independencia.

La principal diferencia que hay que recordar entre ambas es que la prueba de independencia busca una asociación entre dos variables categóricas dentro de la misma población, mientras que la prueba de homogeneidad determina si la distribución de una variable es la misma en cada una de varias poblaciones (asignando así la propia población como segunda variable categórica).

¿Cómo realizar una prueba de Chi-Cuadrado?
Ahora que ya sabes un poco más acerca de qué es una prueba Chi-Cuadrado, te presentaremos cómo llevarla a cabo a través de 5 pasos principales:

Define tus hipótesis nula y alternativa antes de iniciar la recolección de datos.

Decide cuál será el valor alfa. Esto implica decidir el riesgo que estás dispuesto a asumir de llegar a una conclusión errónea. Por ejemplo, supongamos que fijamos un valor α=0,05 para las pruebas de independencia. En este caso, has decidido un riesgo del 5 % de concluir que las dos variables son independientes, cuando en realidad no lo son.


Comprueba los datos para ver si hay errores.

Comprueba los supuestos de la prueba.

Realiza la prueba y obtén tus conclusiones.

Conclusión
Como puedes ver, la estadística de la prueba de chi-cuadrado consiste en encontrar la diferencia al cuadrado entre los valores de los datos reales y los esperados, y dividir esa diferencia entre los valores de los datos esperados. Esto se hace para cada punto de datos y se suman los valores.

click to edit