Administración, Calificación y análisis de reactivos

Administración, Calificación y análisis de reactivos

Neutralidad significa que una prueba mide un rasgo, constructo u objetivo con una validez equivalente en distintos grupos
Una prueba está sesgada (no neutral) si no mide el rasgo de interés de la misma manera en diferentes grupos.
Tratan con la cuestión de si una prueba mide el mismo constructo subyacente en diferentes grupos

Pasos para realizar una prueba

1. Definición del propósito de la prueba

APLICACIÓN DE LOS TESTS

Los procedimientos para administrar y calificar pruebas varían según el tipo de prueba y las personas a las que está dirigida.
El desempeño también puede alterarse
por factores como:
- Disposición y motivación del examinado
- Cantidad de sueño durante la
  noche previa a la prueba
- Molestias físicas
- Angustia relativa a la prueba
- Problemas emocionales
- Medicamentos que se estén consumiendo.
- La apariencia y el comportamiento
- La situación

Formulación del propósito de la prueba
Incluye una descripción del rasgo que se medirá y del público al que está dirigida.
El propósito debe formularse teniendo en mente la clase de interpretación que se hará de las puntuaciones de la prueba.
Se formulan de manera sencilla.
En el enunciado se identifica la variable o constructo que se quiere medir
Se incluye una referencia al grupo meta

2. Cuestiones preliminares del diseño

3. Preparación de reactivos

Incluye:

Modo de aplicación: ¿La prueba se aplicará de manera individual o también podrá aplicarse de manera grupal?
Extensión: ¿Aproximadamente cuánto tiempo se llevará la prueba?
Formato de los reactivos: ¿Qué formato de reactivos se utilizará: opción múltiple, verdadero-falso, de acuerdo-en desacuerdo, respuesta abierta?
Numero de puntuaciones: ¿Cuántas puntuaciones proporcionará la prueba?
Informes de las puntuaciones: ¿Qué clase de informes se producirán?
Capacitación para la aplicación: ¿Cuánto entrenamiento se necesitará para aplicar y calificar la prueba
Investigación de los antecedentes.

4. Análisis de reactivos

Incluye su redacción y revisión.
Un reactivo consta de cuatro partes
- Estímulo al que el examinado responde
- Formato de respuesta o método
- Condiciones que regulan el modo en que se emite la respuesta al estímulo.
- Procedimientos para calificar la respuesta (rúbricas de calificación)

Estimulo: (tronco del reactivo)

Puede ser una pregunta, imagen acompañada de una pregunta oral o un aparato

Formato de respuesta

Incluye factores como si el reactivo es de opción múltiple o de respuesta abierta.

Condiciones que regulan la respuesta:
Incluye factores como:

Existencia de un límite de tiempo para responder
La posibilidad de que el aplicador explore respuestas ambiguas
La manera exacta en que se registra la respuesta

Procedimiento de calificación:

Cada reactivo podría calificarse como correcto o incorrecto (prueba de capacidad o de aprovechamiento de opción múltiple)
Conceder crédito parcial por elegir ciertas opciones
Reactivos de respuesta abierta:
- Una respuesta muy buena merece dos puntos
- Una respuesta aceptable: un punto
- Una respuesta incorrecta no recibe ningún punto
Deben ser especificados y comprendidos cuando se consideran los reactivos de una prueba.

Tipos de reactivos
Se clasifican en términos del formato de respuesta

Reactivos de respuesta cerrada

Se le presenta al examinado por lo menos dos opciones
Se denominan de respuesta múltiple, opción múltiple o de opciones forzadas.
Es el más popular
Pruebas de capacidad y de aprovechamiento de aplicación grupal
Ejemplo: reactivo de verdadero-falso
Son los que más se usan en las
pruebas de personalidad, intereses y actitudes.

Reactivos de respuesta abierta

Presentan un estímulo
No limitan al examinado a elegir de un conjunto predeterminado de respuestas
El examinado debe crear o construir una respuesta
Hay condiciones que regulan la respuesta
La respuesta puede darse de manera oral o escrita.
Ejemplo: formato de llenar el espacio en blanco
Se usa mucho en la evaluación de la personalidad
Pruebas conductuales

Formato Likert

Escala de 5 puntos emplean que va desde Completamente de acuerdo hasta Completamente en desacuerdo.

Prueba de ensayo

podría considerarse como un ejemplo de la categoría más general de evaluación
del desempeño
estímulo se supone que es una situación realista como un problema científico
La respuesta implica resolver el problema, realizar la tarea o producir una obra de arte.

Calificación de los reactivos de respuesta abierta

Requiere del juicio.
Hay dos factores clave.

Asegurar la confiabilidad interjueces
Conceptualizar un esquema de calificación.

La confiabilidad interjueces no garantiza la validez de las puntuaciones, ni el test-retest.
La confiabilidad interjueces es una preocupación especial

Métodos para calificar ensayos:

Holística
Analítica
Sistema de puntos

Calificación holística:

La persona que califica hace un juicio sencillo, general, holístico acerca de la calidad del ensayo.
La puntuación asignada al ensayo refleja su juicio general
La lectura se suele llevar a cabo de manera rápida, sin hacer correcciones ni notas en el papel
El ensayo puede valorarse en términos de la calidad de la expresión escrita
Solo hay una puntuación global basada en la calidad total del ensayo.

Calificación analítica:

Requiere una especificación previa de las dimensiones importantes de la calidad del ensayo
El mismo juez puede realizar las valoraciones separadas o diferentes jueces, uno para cada dimensión
En el ensayo de composición en inglés puede valorarse de manera independiente
El ensayo de historia podría valorarse de manera independiente
Supone que hay cierta independencia significativa entre los rasgos especificados en el esquema de calificación analítica

Sistema de puntos

El juez sólo determina la presencia o ausencia de cada punto.
Ejemplo: prueba de memoria pura

Implica un análisis estadístico de los datos obtenidos en la prueba de los reactivos
Eligen los reactivos que formarán parte de la prueba final
Conjunto de procedimientos para la prueba
empírica y el tratamiento estadístico de los reactivos individuales.
Consiste en realidad en tres procesos:

Prueba de los reactivos
Análisis estadístico
Selección de reactivos.

5. Programas de estandarización e investigación
complementaria

6. Preparación de los materiales finales y publicación

El programa de estandarización produce las normas de una prueba
La prueba que se estandariza debe ser la prueba exacta que se publicará al final.
las instrucciones, el número de reactivos, los límites de tiempo, deben estar determinados
La naturaleza y extensión de estos programas dependen del alcance de la prueba
Algunos programas de investigación se realizarán sólo analizando los datos del programa de estandarización.

El análisis factorial a veces se usa como técnica de análisis de reactivos.

Los análisis de puntuaciones de acuerdo con género, raza, edad, región geográfica y otras variable demográficas se hacen con los datos de estandarización
La estructura analítico-factorial de la prueba puede determinarse con los datos de estandarización
Las normas se desarrollan para la prueba final
Diversos programas de investigación pueden tener lugar al mismo tiempo que el de estandarización.

la publicación de una prueba implica
- Instrucciones de aplicación e interpretación
- Manuales técnicos
- Informes de puntuaciones
Una prueba publicada debe tener un manual técnico
Manual técnico: fuente clave de información acerca del propósito, fundamentos y estructura de la prueba
- Debe incluir información sobre la confiabilidad, validez y procedimiento de estandarización de
  la prueba.
Tambien debe incluir directrices para interpretar la puntuación o puntuaciones.

Informes de puntuaciones:
Pueden incluir

Presentación gráfica de las puntuaciones

Traducción de las puntuaciones numéricas a una forma narrativa.

La publicación puede suponer diversos materiales complementarios
Las normas están ligadas al tiempo
Una prueba estará sujeta a investigación adicional aun después de su publicación.

Neutralidad y sesgos

Una prueba neutral es la que carece de sesgos
Una prueba sesgada es la que carece de neutralidad

Neutralidad significa que una prueba mide un rasgo, constructo u objetivo con una validez equivalente en distintos grupos
Una prueba está sesgada (no neutral) si no mide el rasgo de interés de la misma manera en diferentes grupos.
Tratan con la cuestión de si una prueba mide el mismo constructo subyacente en diferentes grupos

Métodos para estudiar la neutralidad de la prueba

Revisión de panel del contenido
Funcionamiento diferencial de los reactivos (FDR)
Predicción diferencia

Revisión de panel:

Implica revisar los reactivos por su representatividad de varios
grupos
Los revisores tratan de reconocer
reactivos que puedan contener frases o situaciones con diferente significado, connotación o grado de familiaridad para grupos específicos.
Ayuda a reconocer palabras o situaciones que puedan tener un grado de familiaridad o significado diferentes para un grupo particular.

Tiene dos inconvenientes

Se relaciona con el número de grupos representados
Sus miembros se basan por completo en sus propias opiniones

La investigación ha mostrado que los juicios
de los miembros del panel acerca de qué reactivos podrían causar sesgos

Funcionamiento diferencial de los reactivos (FDR):

Hace referencia a la cuestión de si la prueba individual funciona de manera diferente para distintos grupos de examinados
Interés particular en las diferencias por raza, origen étnico y género
Cuestión básica puede referirse a cualquier comparación grupal
Buscan detectar sesgos mediante análisis
estadísticos.
Se puede evaluar de varias maneras.
Detectar el FDR no siempre indica sesgo en un reactivo
Se necesita una explicación adecuada y sustancial del FDR para concluir que el reactivo tiene un
sesgo.

La equivalencia de los grupos se basa en la puntuación total de la prueba o en theta estimada
Grupo de referencia: grupo más grande o mayoritario
Grupo focal: más pequeño o minoritario
- Grupo en el que centramos nuestra atención

Predicción diferencial

Una prueba sin sesgos debe producir predicciones igualmente buenas de varios grupo
la predicción será igual de acertada para los dos (o más) grupos
La predicción diferencial se examina usando el análisis de regresión

Sesgo predictivo

Puede usarse cuando se encuentra evidencia de que existen diferencias en los patrones de asociaciones entre las puntuaciones de la prueba y otras variables en distintos grupos

Dos tipos de sesgo potencial:

El sesgo de la intersección
El sesgo de la pendiente.

Sesgo de la intersección

Significa que las intersecciones de las líneas de regresión difieren en los dos grupos.

Sesgo de la pendiente

Significa que las pendientes de las líneas de regresión difieren en los grupos

Deberes del examinador antes de la prueba

Programación
Consentimiento informado
Familiarizarse con la prueba.
Garantizar condiciones de evaluación satisfactorias.
Reducir los fraudes.

Deberes del examinador durante la prueba

Seguir las instrucciones de la prueba.
Permanecer alerta.
Establecer una relación interpersonal.
Prepararse para manejar problemas especiales.
Flexibilidad.
Pruebas orales.

Deberes del examinador después de la prueba
Después de administrar una prueba individual

Debe recoger y guardar en lugar seguro todos los materiales de la prueba
En evaluaciones clínicas es importante consultar con el padre o acompañantes del examinado
Se dará información sobre lo que se hará con los resultados a los examinados y/o a sus acompañantes
Después de administrar una prueba colectiva de grupo
Tiene que recoger los materiales
En caso de una prueba estandarizada, es necesario contar y cotejar los folletos y las hojas de respuestas
verificar todos los demás materiales para asegurarse de que nada falte
se despide a los examinados o se les prepara para la siguiente actividad
ordenan las hojas de respuestas para calificarlas.