CONFIABILIDAD

  • Se asume que la prueba mide una característica relativamente estable.
  • La falta de confiabilidad es resultado de errores de medición producidos por estados internos temporales como:
    • La baja motivación
    • Falta de disposición
    • Condiciones externas (ambiente de prueba incómodo o con distracciones).

CORRELACIÓN Y PREDICCIÓN
Los coeficientes de correlación, errores estándar y formulas de predicción son elementos fundamentales.

  • Distribución Bivariada (Diagrama de dispersión): relación entre dos variables
  • Coeficiente de correlación (r): proporciona un resumen numérico de la relación representada en una distribución bivariada.
    • Todos los coeficientes de correlación pueden interpretarse del mismo modo que el coeficiente de Pearson.

El valor de r puede variar entre -1.00 y +1.00

  • Relación lineal positiva entre dos variables: r de +1.00
  • Relación linear negativa perfecta: r de -1.00
  • Una de r de .00 representa una ausencia de relación entre las dos variables.

Linea de regresión
Y'= bX + a
Y': ( ' ) indicar que esta es un Y predicha y no una Y conocida
b= pendiente de la linea de regresión
a= intercepción con el eje y

Cuando mayor sea r, menor será la dispersión. Mientras menor sea r, mayor será la dispersión.

Error estándar de estimación:
image
DEy= desviación estándar de la prueba que se esta pronosticando
rxy= correlación entre la prueba que se pronosticará

Factores que influyen en los coeficientes de correlación

  1. Coeficiente de correlación de Pearson:
  • Solo explica el grado de regresión lineal entre dos variables.
  • Si hay cierto grado de no linealidad, la correlación de Pearson subestimara el verdadero grado de relación
  1. Premisa de homoscedasticidad:(dispersión igual) Se asume que las puntuaciones Y tienen una distribución normal en torno a cualquier puntuación Y pronosticadas (Y') y que el grado de dispersión es igual para cualquier punto a lo largo de la linea de predicción.
  • es posible que la distribución bivariada muestre heteroscedasticidad (dispersión diferente)
  1. La correlación es una cuestión de posición relativa dentro de cada grupo.
    La correlación no existe o supone puntuaciones absolutas iguales
  1. La desviación estándar o varianza define la variabilidad de un grupo.
  • La variabilidad suele denominarse heterogeneidad (diferencia) o homogeneidad (similitud)
  • Un grupo muy heterogéneo genera una correlación inflada
  • Un grupo muy homogéneo genera una correlación deflactada.

Calcular r en un grupo mas heterogéneo de una r obtenida en un grupo mas homogéneo
image
Calcular r en un grupo mas homogéneo
image


r m= Correlación en el grupo menos restringido
rM= correlación en el grupo mas restringido
Sm ( o DEm)= desviación estándar en el grupo menos restringidos
SM (o DEM)= desviación estándar en el grupo mas restringido

La corrección de homogeneidad de grupo no influye mucho en las correlaciones muy bajas y en las correlaciones muy elevadas

PRINCIPALES FUENTES DE INESTABILIDAD
Nada que genere una variación no sistemática en las puntuaciones de las pruebas es una fuente de inestabilidad

  • se identifican 4 categorias

1. Calificación de la prueba:

  • una de las mas fáciles de entender
  • La variaciones en los criterios de calificación pueden influir en los reactivos de pruebas simples.
  • La falta de acuerdo entre los calificadores puede generar una variación no sistemática en las puntuaciones de las pruebas de las personas.
  • Las maquinas que califican reactivos "de opción" suelen eliminar las variaciones, aunque estas no estén libres de error.
  • Cuando mas juicio exija la calificación, mas preocupante será la fuente de inestabilidad o falta de confiabilidad.

2. Contenido de la prueba:
Las variaciones en el muestreo de los reactivos de una prueba pueden generar un error no sistemático en las puntuaciones de la misma.

3. Aplicación de la prueba:

  • Una prueba debe contar con procedimiento estandarizados para su aplicación.
  • Factores como: instrucciones, limites de tiempo y las disposiciones físicas para la aplicación.
  • los detalles de la aplicación pueden ejercer cierta influencia en las puntuaciones de la prueba. (ruido en el corredor, condiciones de iluminación poco adecuadas)
  • Las variaciones en la aplicación de la prueba pueden constituir fuentes de varianza en las puntuaciones de la prueba.

4. Condiciones personales:

  • Las condiciones temporales de los examinados pueden ejercer influencias no sistemáticas en sus puntuaciones en las pruebas.
  • Las variaciones en los factores no generan automáticamente inestabilidad o falta de confiabilidad
  • El grado de influencia que estos factores ejercen en las puntuaciones de las pruebas es una cuestión empírica.

MARCO CONCEPTUAL: TEORÍA DE LA PUNTUACIÓN VERDADERA
La confiabilidad de la prueba puede formularse en 3 marcos conceptuales

  • Teoría clásica de la prueba (TCP)
  • Teoría de respuesta al item (TRI)
  • Teoría de la generalizabilidad (TG).

Teoría clásica de la prueba (TCP)

  • Empieza con un marco conceptual útil e interesante
    Terminos claves:
    • Puntuación observada (O):* Puntuación real de una persona en una prueba, la puntuación natural de la persona
    • Puntuación verdadera (V): puntuación que obtendría si se eliminaran o suprimieran todas las fuentes de inestabilidad.
      • puntuación obtenida de varias aplicaciones de la prueba en distintos momentos y con condiciones distintas.
    • Puntuación de error (E): diferencia entre la puntuación verdadera y la observada.
      • puede ser positiva o negativa
      • es la suma de todas las influencias no sistemáticas en la puntuación verdadera de una persona

Puntuación de error (E) expresa la relación entre las puntuaciones observadas, verdadera y de error.
V= O + I - E

METODOS PARA DETERMINAR LA CONFIABILIDAD

  • Confiabilidad de Test- Retest
  • Confiabilidad entre calificadores
  • Confiabilidad de la forma alterna
  • Confiabilidad de consistencia interna

Confiabilidad de Test- Retest:

  • Se obtiene aplicando la misma prueba a los mismos individuos en dos ocasiones diferentes.
  • El margen temporal entre las dos ocasiones suele ser desde un dia hasta un mes.
  • El coeficiente de confiabilidad es la correlación entre las puntuaciones en la primera y segunda evaluaciones.
  • Ayuda a evaluar la influencia que los cambios ejercen en las condiciones personales.
  • No aborda la influencia de los cambios en el contenido de la prueba, ya que se emplea el mismo instrumento.
  • La confiabilidad test-retest puede o no abordar las variaciones debidas a la aplicación de la prueba.

Tiene tres inconvenientes:

  • No explica el error no sistemático debido a las variaciones en el contenido de la prueba.
  • Es un fastidio sacar la confiabilidad tesr-retest de cualquier pruebas, excepto las mas sencillas y breves.
  • El intervalo debe ser lo suficientemente largo para que la primera prueba ejerza una influencia mínima en la segunda.

Confiabilidad entre calificadores

  • Se evalúa la variación no sistemática debida solo a quienes califican la prueba, implica a dos personas.
  • En ocasiones se denomina confiabilidad entre observadores o entre jueces.
  • El coeficiente de confiabilidad entre calificadores es la correlación entre las puntuaciones que asigna primeo y el segundo calificadores.
  • Es importante que los dos o mas calificadores o jueces trabajen en forma independiente, ninguno de los dos deben influir en el otro.
  • Coeficiente de correlación intraclase (CCI):
    • Se calcula a partir de los cuadrados medios (CM) elaborados en un análisis de varianza (ANOVA)
    • Se interpreta como el coeficiente de correlación de Pearson (r)

Confiabilidad de la forma alterna (Confiabilidad de forma paralela o de forma equitativa)

  • Exige que haya dos formas de la prueba, deben ser iguales o muy similares en terminos de la cantidad de reactivos, limites de tiempo, especificaciones de contenido, etc.
  • Consiste en aplicar ambas formas de la prueba a los mismos examinados
  • La confiabilidad de la forma alterna es la correlación entre las puntuaciones obtenidas de las dos formas
  • Pueden aplicarse en sucesión inmediata si son relativamente breves y pocos exigentes.
  • En el caso mas sencillo cuando las dos formas se aplican en sucesión inmediata, el método mide:
    • la inestabilidad o falta de confiabilidad debida al muestreo de contenido.
  • En las pruebas mas largas, suelen aplicarse con un intervalo entre pruebas de unos cuentos días a unas cuantas semanas. Mide:
    • Inestabilidad debida al muestreo de contenido
    • Cambios en las condiciones personales
    • Variaciones en las condiciones de la aplicación.

Confiabilidad de consistencia interna

  • Método de división por mitades de Spearman
  • Las fórmulas de Kuder-Richardson
  • Coeficiente alfa de Cronbach

Método de división por mitades de Spearman:

  • Una sola prueba se considera compuesta por dos partes (formas paralelas) que miden la misma cosa.
  • Puede aplicarse una prueba y asignar calificaciones separadas a sus dos mitades seleccionadas de manera arbitraria.
  • La segunda prueba incluye reactivos mas difíciles, los examinados pueden estar mas cansados.
  • Confiabilidad non-par: resultado de dividir la prueba en reactivos de numero par y non
  • La correlación entre las dos mitades no da la confiabilidad de la prueba completa. Solo da la confiabilidad de una

image

rc=confiabilidad corregida completa
rdm= correlación entre las dos pruebas divididas por la mitad

Fórmulas de Kuder-Richardson
KR-20 y KR-21

KR-20: uso mas generalizado

  • K= cantidad de reactivos en la prueba
  • p= porcentaje corregido y q es (1-p)
  • Sx (o DEx)= desviación estándar de la prueba

image

KR-21:

  • n= cantidad de reactivos
  • M= media de las puntuaciones totales de la prueba
  • Sx= deviación estándar de las puntuaciones de la prueba

image

Coeficiente alfa (alfa de Cronbach)

  • Los reactivos pueden contar con cualquier calificación continua
  • k= cantidad de reactivos de la prueba
  • Sx (o DEx)= desviación estándar de las puntuaciones de la prueba
  • Si (o DEi)= Desviación estándar de las puntuaciones de los reactivos
  • Todos los procedimientos de consistencia interna no son apropiadas para las pruebas de velocidad

CONFIABILIDAD EN LA TEORIA DE RESPUESTA AL ITEM

  • La confiabilidad es un problema en las pruebas elaboradas
  • El análisis de confiabilidad de la TRI depende del funcionamiento de los reactivos dentro de la prueba.
  • Los reactivos operan de forma independiente

image

TEORIA DE LA GENERALIZABILIDAD (TG)

  • Constituye un esfuerzo por evaluar simultáneamente muchas fuentes de inestabilidad o falta de confiabilidad.
  • Cada persona tiene una puntuación verdadera (puntuación universal o puntuación de dominio)
  • Puntuación verdadera es la puntuación promedio a lo largo de todas las ocasiones, formas y calificadores.
  • Permite que el investigador especifique y estime varios componentes de varianza de la puntuación verdadera, varianza de error y varianza de puntuaciones observadas.

Análisis de varianza ( ANOVA):

  • Proporciona el marco de base para un estudio de generalizabilidad
  • Permite estudiar de manera simultanea el efecto de diversas variables independientes en una variable dependiente.
  • Permite estudiar las interacciones, el efecto único que genera la combinación de dos o mas variables independientes.

click to edit