textLECTURA 2: VALIDEZ Y CONFIABILIDAD

Confiabilidad

Validez

Es una técnica psicométrica para ser aplicada de forma responsable, si se demuestra que alcanza la finalidad asignada


Evidencia de las relaciones test criterio

la validez de una prueba

significa la efectividad

con que se puede predecir, a partir del resultado de la prueba

el rendimiento del sujeto

situación real

Dimensiones de la confiabilidad

El tipo de estadístico a aplicar depende

tipo de variables medidas y de las escalas de medición empleadas

Se utiliza para abarcar varios aspectos

Los cuales se relacionan con distintas fuentes

El criterio es una medida

De medición

Distintos procedimientos para evaluarlos

directa e independiente

de lo que el test intenta predecir o inferir

Fuente de error

Factor que incida en el puntaje de un sujeto

Que no este relacionado con lo que él instrumento intenta medir

El diseño

Evaluar en que grado el puntaje de un sujeto

experimento básico

se realiza para verificar si un test dado posee validez de criterio es

b) Estos son evaluados tanto por medio del test en estudio como por el criterio a predecir

Con los datos así obtenidos se estima un coeficiente de correlación

Esta dimensión de confiabilidad

De una población determinada se extrae una muestra de sujetos

Está relacionada con características de la variable que se desea medir

click to edit

Cuando se evalúan estados de ánimo

Procedimientos indicados

Para evaluar la estabilidad temporal

Método Test-Retest

Si éste es significativamente distinto de cero

, la correlación no es significativamente distinta de cero

Método de Formas Equivalentes

que el test es un predictor del criterio para cualquier sujeto que pertenezca a aquélla población

podrá afirmarse que el test carece de validez de criterio, para los sujetos en examen

En que medida la muestra de elementos resulta una fuente de error en la medición

Se define como el grado en que distintas partes miden la primera misma variable

Este concepto de Valides es el más importante pero a la vez el más difcicultoso

La mayor parte de los rasgos psicológicos son constructos

Problemas

Métodos

para comprobar la validez de criterio de una prueba

es decir, una construcción mental del investigador

es la selección de los indicadores operacionales del criterio

El método de formas equivalentes

La partición en mitades

Los rasgos son características latentes, conceptos teóricos elaborados

Método de análisis de varianza e ítems

para describir algunos atributos recurrentes de la conducta de una persona

Evaluar el grado en que la medición de un rasgo es independiente

Los rasgos no son factibles de medición directa

Existen factores que pueden afectar las relaciones entre los resultados de una prueba y las medidas del criterio

los más importantes son

Diferencias de grupo

Extensión de la prueba

La visión unificadora de validez parece ser tomada de las normas para test psicológicos y educativos (APA, 1999)

Alude a la univocidad de datos

refiere a variables moderadoras como sexo, edad o rasgos de personalidad que pueden influir en las correlaciones entre una
prueba y un criterio

afecta la validez tal como acontece en la confiabilidad.

Procedimiento indicado

donde se define la validez como " la adecuación, significación y utilidad"

Los puntajes de una prueba extensa poseen varianzas mayores y las puntuaciones obtenidas en pruebas breves tienen varianzas más reducidas

coeficientes de correlación inferiores con las medidas del criterio

Método de acuerdo entre jueces

Técnicas para medir la confiabilidad

de las inferencias específicas, hechas a partir de las puntuaciones de los tests

La (APA, 1999) propone 5 tipos de evidencias:

es un concepto unitario, y se refiere al grado en que la evidencia experimental, apoya las puntuaciones hechas

Método de test retest

Evalúa la estabilidad temporal de las puntuaciones

desde las puntuaciones de los tests

Una validación ideal incluyen varios tipos de evidencia

Consiste en

a) Aplicar un prueba en dos oportunidades a la misma muestra de sujetos

Contenido

Criterio

Concepto

b) Con lapso intermedio y calcular la correlación entre los puntajes obtenidos en la primera y segunda administración del test

el producto final de este proceso es un constructo de las sigtes características

c) La técnica es sencilla y económica

Está bien definidos en términos de una variedad de observaciones

Se correlaciona con otros constructos de interés

El tiempo que debe transcurrir entre una y otra aplicación

Debe definirse atendiendo a las características de la variable medida y de los sujetos evaluados

El intervalo temporal

Para repetir un test se establece de acuerdo a criterios

Define

Variable medida

Objetivo del test, entre otros

Resultado

La estructura interna del test

Las relaciones con otras variables externas al test

El contenido del test

Se expresa en un número que generalmente varia

Las consecuencias de su aplicación

El estilo de respuestas al test

Entre -1,1

0 es la ausencia total de correlación entre puntajes

El coeficiente más usado

Pearson

Pero va a depender del nivel de medición

Nominal

Ordinal

Intervalar

Método de formas equivalentes

Principales fuentes de evidencias de validez de los tests*

Evalúa la consistencia interna

Como la estabilidad temporal de un conjunto de puntuaciones

Principal inconveniente

Debe comprobarse que ambas pruebas son paralelas y equivalentes

Para ser consideradas equivalentes

exactitud o precisión de una medición realizada a través de un test o técnica de evaluación

APA (1999)

la confiabilidad

hace referencia a la consistencia de las mediciones cuando un test es repetido en una población de individuos o grupos.

Deben tener las mismas categorías formales

Haber sido construidas con las mismas tablas de especificaciones

Evidencia basada en la estructura interna del test

coherencia de los puntajes obtenidos por los mismos individuos en distintas ocasiones o con diferentes conjuntos de ítems equivalentes

Evidencia basada en el contenido

Evidencia de la relación del test con variables externas

Evidencia basada en el proceso de respuesta del test

términos estrictos

no es una característica del test

sino una propiedad de las puntuaciones del mismo

cuando se administra la prueba a un grupo particular de personas en una ocasión particular y bajo condiciones específicas

Conociendo la confiabilidad de un instrumento

podemos interpretar los datos que se obtienen por su medio con un nivel determinado de confianza

Tener medias y desviaciones estandar semejantes

Tener coeficientes de correlación elevados entre ambas

Cada una debe incluir una muestra representativa de ítems que mida la variable

Método de partición en mitades

Se verifica la consistencia interna de una prueba

siempre que se mide algo

físico como biológico o social

contiene cierta cantidad de error

puede ser grande o pequeño, pero existe siempre en cierto grado.

. Esta evidencia se obtiene de los análisis de las respuestas individuales a la prueba

El grado en que diferentes partes de l test miden la misma variable

Factores que determinan la falta de confiabilidad

error de medición

Se aplica el test en una sola ocasión a un grupo de sujetos, se divide la prueba en dos mitades comparables

es por definición

origen aleatorio e impredecible

distinguiéndose de los errores sistemáticos

Dificultad

Es lograr que las mitades obtenidas sean realmente comparables

afectan el desempeño de las personas en un test, pero de una manera más consistente que aleatoria

El criterio comúnmente adoptado para dividir la prueba

Evidencia convergente-discriminante

Es el de separar en grupos de ítems pares e impares

errores sistemáticos pueden

afectar a cierto tipo de observaciones de manera diferente que a otras y ser un sesgo

afectar a todas las observaciones por igual y ser un error constante

los administradores deben interrogar acerca de las estrategias de respuesta de las personas, lo que puede enriquecer la comprensión del constructo

los más importantes

Requiere estadístico adicional

Corrección de Spearman-Brown

Esta evidencia puede contribuir a resolver los interrogantes relacionados con las diferencias entre grupos significativos de examinados al significado o interpretación de los puntajes de test

en función del momento del proceso de evaluación en el que tienen mayor incidencia

Método de análisis de varianza de ítems

este tipo de evidencia se obtiene demostrando que "el contenido del test es una muestra representativa del conjunto de situaciones con respecto al cual se desea hacer alguna inferencia"

Permite evaluar la consistencia interna del instrumento

si los ítems de prueba son representativos de un dominio particular, el desempeño del sujeto en la misma puede generalizarse a todo el dominio

Se basa en el análisis interno de una sola aplicación de la prueba

Coeficiente de alfa es el estadístico preferido para estimar la consistencia interna de una prueba

Esta clase de evidencia es especialmente importante de obtener en las pruebas de rendimiento para verificar la representatividad y relevancia del contenido del test

con respecto a los objetivos, actividades, conocimientos y destrezas

Para dicho fin

Debe contarse con procedimientos alternativos

Como el método test-retest

Formas equivalentes

Método de acuerdo entre examinadores

hay dos requisitos indispensables para asegurar validez de contenido en una prueba:

un conjunto de ítems representativos

métodos "sensibles" para construir pruebas

Según Martínez Arias (1995) en la validación del contenido deben seguirse las siguientes etapas:

b. Identificación de expertos en dicho universo

c. Juicio de los expertos acerca del grado en que el contenido del test es relevante y representativo de dicho universo

a. Definición del universo de situaciones a medir

d. Un procedimiento para resumir los datos resultantes de la fase precedente

Evalúa la confiabilidad entre examinadores

Procedimiento

Consiste en aplicar la prueba a una muestra de sujetos

influyen principalmente

En el momento de administrar un test

Al evaluar una prueba

Al construir un test

Entregar datos a un grupo de N jueces que los evaluaran actuando independientemente unos de otros y correlacionar los resultados obtenidos

Se verifica el grado de acuerdo a que arriban los distintos jueces luego de leer, registrar y codificar los mismos datos

se presentan a los jueces los ítems preliminares de la prueba para su evaluación es conveniente adjuntar un formato estandarizado de calificación

debe tenerse en cuenta que la elección de los ítems

Los jueces valorarán independientemente en el formato diseñado para tal fin cada uno de los ítems

los materiales a través de los cuales buscaremos la respuesta del examinado

Los análisis de la estructura interna indican el grado en el cual las relaciones entre los ítems y los componentes (factores, escalas, subtests) del test

y la formulación de las consignas pueden significar una fuente de error en la medición

pueden cometerse varios errores que afecten la confiabilidad de los resultados

Coeficientes utilizados

confirman la existencia de los constructos sobre el cual se basan las interpretaciones de la prueba.

Para estimar el grado de acuerdo

El Phi de Cramer

Índice Kappa

debe tratar de examinar a todos tos participantes en condiciones uniformes

En ese sentido, una encuesta de salud puede evaluar dimensiones de salud orgánica y emocional

Escalas ordinales o intervalares

si las interrelaciones entre los ítems confirman ese marco teórico esta es una información relevante para la validez (APA, 1999).

intentar reducirse las diferencias generales en el ambiente en que se administran los tests

Estadistica Kappa modificada

Q de Kendall

El análisis factorial fue hecho para identificar rasgos psicológicos y es relevante para obtener evidencia de la estructura interna de un test

Y de Yule

En el proceso de análisis factorial, se reduce el número de variables o categorías

también

Se emplean para clasificar las respuestas de los sujetos al tenis de la prueba

inicialmente contempladas y el rendimiento o comportamiento típico de cada sujeto puede describirse con una cantidad pequeña de factores o rasgos comunes

las instrucciones del test sean lo suficientemente estandarizadas

La técnica en cuestión debe mostrar correlaciones significativamente más altas con las pruebas que evalúan el mismo atributo que con las diseñadas para evaluar atributos diferentes.

factores afectan la confiabilidad

Este tipo de evidencia se denomina "de convergencia" y está dada por correlaciones relativamente altas entre aquellos instrumentos de medición diseñados para evaluar un rasgo común.

La evidencia de "discriminación" está dada por las correlaciones relativamente bajas o negativas entre instrumentos que miden rasgos diferentes

tests de opción múltiple, los errores que se cometen al evaluarlos

son puramente mecánicos

En los tests evaluados por computadora, se elimina la posibilidad de cometer este tipo de errores

La correlación significativamente elevada entre los resultados obtenidos por un mismo grupo de sujetos examinados en dos pruebas que midan razonamiento numérico (subtests matemáticos del DAT y el GATB) es un ejemplo de validez convergente

concluyendo

el proceso de evaluación de un individuo interviene de manera importante

el criterio del evaluador se presentan variaciones que disminuyen la confiabilidad