CONFIABILIDAD
- Se asume que la prueba mide una característica relativamente estable.
- La falta de confiabilidad es resultado de errores de medición producidos por estados internos temporales como:
- La baja motivación
- Falta de disposición
- Condiciones externas (ambiente de prueba incómodo o con distracciones).
CORRELACIÓN Y PREDICCIÓN
Los coeficientes de correlación, errores estándar y formulas de predicción son elementos fundamentales.
- Distribución Bivariada (Diagrama de dispersión): relación entre dos variables
- Coeficiente de correlación (r): proporciona un resumen numérico de la relación representada en una distribución bivariada.
- Todos los coeficientes de correlación pueden interpretarse del mismo modo que el coeficiente de Pearson.
El valor de r puede variar entre -1.00 y +1.00
- Relación lineal positiva entre dos variables: r de +1.00
- Relación linear negativa perfecta: r de -1.00
- Una de r de .00 representa una ausencia de relación entre las dos variables.
Linea de regresión
Y'= bX + a
Y': ( ' ) indicar que esta es un Y predicha y no una Y conocida
b= pendiente de la linea de regresión
a= intercepción con el eje y
Cuando mayor sea r, menor será la dispersión. Mientras menor sea r, mayor será la dispersión.
Error estándar de estimación:
DEy= desviación estándar de la prueba que se esta pronosticando
rxy= correlación entre la prueba que se pronosticará
Factores que influyen en los coeficientes de correlación
- Coeficiente de correlación de Pearson:
- Solo explica el grado de regresión lineal entre dos variables.
- Si hay cierto grado de no linealidad, la correlación de Pearson subestimara el verdadero grado de relación
- Premisa de homoscedasticidad:(dispersión igual) Se asume que las puntuaciones Y tienen una distribución normal en torno a cualquier puntuación Y pronosticadas (Y') y que el grado de dispersión es igual para cualquier punto a lo largo de la linea de predicción.
- es posible que la distribución bivariada muestre heteroscedasticidad (dispersión diferente)
- La correlación es una cuestión de posición relativa dentro de cada grupo.
La correlación no existe o supone puntuaciones absolutas iguales
- La desviación estándar o varianza define la variabilidad de un grupo.
- La variabilidad suele denominarse heterogeneidad (diferencia) o homogeneidad (similitud)
- Un grupo muy heterogéneo genera una correlación inflada
- Un grupo muy homogéneo genera una correlación deflactada.
Calcular r en un grupo mas heterogéneo de una r obtenida en un grupo mas homogéneo
Calcular r en un grupo mas homogéneo
r m= Correlación en el grupo menos restringido
rM= correlación en el grupo mas restringido
Sm ( o DEm)= desviación estándar en el grupo menos restringidos
SM (o DEM)= desviación estándar en el grupo mas restringido
La corrección de homogeneidad de grupo no influye mucho en las correlaciones muy bajas y en las correlaciones muy elevadas
PRINCIPALES FUENTES DE INESTABILIDAD
Nada que genere una variación no sistemática en las puntuaciones de las pruebas es una fuente de inestabilidad
- se identifican 4 categorias
1. Calificación de la prueba:
- una de las mas fáciles de entender
- La variaciones en los criterios de calificación pueden influir en los reactivos de pruebas simples.
- La falta de acuerdo entre los calificadores puede generar una variación no sistemática en las puntuaciones de las pruebas de las personas.
- Las maquinas que califican reactivos "de opción" suelen eliminar las variaciones, aunque estas no estén libres de error.
- Cuando mas juicio exija la calificación, mas preocupante será la fuente de inestabilidad o falta de confiabilidad.
2. Contenido de la prueba:
Las variaciones en el muestreo de los reactivos de una prueba pueden generar un error no sistemático en las puntuaciones de la misma.
3. Aplicación de la prueba:
- Una prueba debe contar con procedimiento estandarizados para su aplicación.
- Factores como: instrucciones, limites de tiempo y las disposiciones físicas para la aplicación.
- los detalles de la aplicación pueden ejercer cierta influencia en las puntuaciones de la prueba. (ruido en el corredor, condiciones de iluminación poco adecuadas)
- Las variaciones en la aplicación de la prueba pueden constituir fuentes de varianza en las puntuaciones de la prueba.
4. Condiciones personales:
- Las condiciones temporales de los examinados pueden ejercer influencias no sistemáticas en sus puntuaciones en las pruebas.
- Las variaciones en los factores no generan automáticamente inestabilidad o falta de confiabilidad
- El grado de influencia que estos factores ejercen en las puntuaciones de las pruebas es una cuestión empírica.
MARCO CONCEPTUAL: TEORÍA DE LA PUNTUACIÓN VERDADERA
La confiabilidad de la prueba puede formularse en 3 marcos conceptuales
- Teoría clásica de la prueba (TCP)
- Teoría de respuesta al item (TRI)
- Teoría de la generalizabilidad (TG).
Teoría clásica de la prueba (TCP)
- Empieza con un marco conceptual útil e interesante
Terminos claves: - Puntuación observada (O):* Puntuación real de una persona en una prueba, la puntuación natural de la persona
- Puntuación verdadera (V): puntuación que obtendría si se eliminaran o suprimieran todas las fuentes de inestabilidad.
- puntuación obtenida de varias aplicaciones de la prueba en distintos momentos y con condiciones distintas.
- Puntuación de error (E): diferencia entre la puntuación verdadera y la observada.
- puede ser positiva o negativa
- es la suma de todas las influencias no sistemáticas en la puntuación verdadera de una persona
Puntuación de error (E) expresa la relación entre las puntuaciones observadas, verdadera y de error.
V= O + I - E
METODOS PARA DETERMINAR LA CONFIABILIDAD
- Confiabilidad de Test- Retest
- Confiabilidad entre calificadores
- Confiabilidad de la forma alterna
- Confiabilidad de consistencia interna
Confiabilidad de Test- Retest:
- Se obtiene aplicando la misma prueba a los mismos individuos en dos ocasiones diferentes.
- El margen temporal entre las dos ocasiones suele ser desde un dia hasta un mes.
- El coeficiente de confiabilidad es la correlación entre las puntuaciones en la primera y segunda evaluaciones.
- Ayuda a evaluar la influencia que los cambios ejercen en las condiciones personales.
- No aborda la influencia de los cambios en el contenido de la prueba, ya que se emplea el mismo instrumento.
- La confiabilidad test-retest puede o no abordar las variaciones debidas a la aplicación de la prueba.
Tiene tres inconvenientes:
- No explica el error no sistemático debido a las variaciones en el contenido de la prueba.
- Es un fastidio sacar la confiabilidad tesr-retest de cualquier pruebas, excepto las mas sencillas y breves.
- El intervalo debe ser lo suficientemente largo para que la primera prueba ejerza una influencia mínima en la segunda.
Confiabilidad entre calificadores
- Se evalúa la variación no sistemática debida solo a quienes califican la prueba, implica a dos personas.
- En ocasiones se denomina confiabilidad entre observadores o entre jueces.
- El coeficiente de confiabilidad entre calificadores es la correlación entre las puntuaciones que asigna primeo y el segundo calificadores.
- Es importante que los dos o mas calificadores o jueces trabajen en forma independiente, ninguno de los dos deben influir en el otro.
- Coeficiente de correlación intraclase (CCI):
- Se calcula a partir de los cuadrados medios (CM) elaborados en un análisis de varianza (ANOVA)
- Se interpreta como el coeficiente de correlación de Pearson (r)
Confiabilidad de la forma alterna (Confiabilidad de forma paralela o de forma equitativa)
- Exige que haya dos formas de la prueba, deben ser iguales o muy similares en terminos de la cantidad de reactivos, limites de tiempo, especificaciones de contenido, etc.
- Consiste en aplicar ambas formas de la prueba a los mismos examinados
- La confiabilidad de la forma alterna es la correlación entre las puntuaciones obtenidas de las dos formas
- Pueden aplicarse en sucesión inmediata si son relativamente breves y pocos exigentes.
- En el caso mas sencillo cuando las dos formas se aplican en sucesión inmediata, el método mide:
- la inestabilidad o falta de confiabilidad debida al muestreo de contenido.
- En las pruebas mas largas, suelen aplicarse con un intervalo entre pruebas de unos cuentos días a unas cuantas semanas. Mide:
- Inestabilidad debida al muestreo de contenido
- Cambios en las condiciones personales
- Variaciones en las condiciones de la aplicación.
Confiabilidad de consistencia interna
- Método de división por mitades de Spearman
- Las fórmulas de Kuder-Richardson
- Coeficiente alfa de Cronbach
Método de división por mitades de Spearman:
- Una sola prueba se considera compuesta por dos partes (formas paralelas) que miden la misma cosa.
- Puede aplicarse una prueba y asignar calificaciones separadas a sus dos mitades seleccionadas de manera arbitraria.
- La segunda prueba incluye reactivos mas difíciles, los examinados pueden estar mas cansados.
- Confiabilidad non-par: resultado de dividir la prueba en reactivos de numero par y non
- La correlación entre las dos mitades no da la confiabilidad de la prueba completa. Solo da la confiabilidad de una
rc=confiabilidad corregida completa
rdm= correlación entre las dos pruebas divididas por la mitad
Fórmulas de Kuder-Richardson
KR-20 y KR-21
KR-20: uso mas generalizado
- K= cantidad de reactivos en la prueba
- p= porcentaje corregido y q es (1-p)
- Sx (o DEx)= desviación estándar de la prueba
KR-21:
- n= cantidad de reactivos
- M= media de las puntuaciones totales de la prueba
- Sx= deviación estándar de las puntuaciones de la prueba
Coeficiente alfa (alfa de Cronbach)
- Los reactivos pueden contar con cualquier calificación continua
- k= cantidad de reactivos de la prueba
- Sx (o DEx)= desviación estándar de las puntuaciones de la prueba
- Si (o DEi)= Desviación estándar de las puntuaciones de los reactivos
- Todos los procedimientos de consistencia interna no son apropiadas para las pruebas de velocidad
CONFIABILIDAD EN LA TEORIA DE RESPUESTA AL ITEM
- La confiabilidad es un problema en las pruebas elaboradas
- El análisis de confiabilidad de la TRI depende del funcionamiento de los reactivos dentro de la prueba.
- Los reactivos operan de forma independiente
TEORIA DE LA GENERALIZABILIDAD (TG)
- Constituye un esfuerzo por evaluar simultáneamente muchas fuentes de inestabilidad o falta de confiabilidad.
- Cada persona tiene una puntuación verdadera (puntuación universal o puntuación de dominio)
- Puntuación verdadera es la puntuación promedio a lo largo de todas las ocasiones, formas y calificadores.
- Permite que el investigador especifique y estime varios componentes de varianza de la puntuación verdadera, varianza de error y varianza de puntuaciones observadas.
Análisis de varianza ( ANOVA):
- Proporciona el marco de base para un estudio de generalizabilidad
- Permite estudiar de manera simultanea el efecto de diversas variables independientes en una variable dependiente.
- Permite estudiar las interacciones, el efecto único que genera la combinación de dos o mas variables independientes.
click to edit