Comment savoir si le test évalue de manière satisfaisante la fonction cognitive ciblée ?

Comment savoir si le test évalue
de manière satisfaisante la fonction cognitive
ciblée ?

Sensibilité/ spécificité

Fidélité

Sensibilité/ spécificité

Standardisation

Avant toute chose

Un instrument de mesure est fidèle si :

L'objectif principal de l'évaluation
= classer la performance du patient par rapport à un échantillon/ une norme

En quoi est ce que cela consiste ?

Les critères "souvent mentionnés dans les test peuvent nous aider à juger de la qualité psychométrique de celui-ci

On commence par lire le manuel puis :

2⃣ Identifier l'objectif du test

1ère ligne : diagnostique la présence/ l'absence de trouble

2ème ligne : mettre en évidence le degré de sévérité d'un trouble ou planifier les objectifs de PEC

Utiliser le matériel prescrit

Respecter les critères de cotation prescrits

Harmoniser et contrôler la passation pour la rendre la plus systématique possible (consignes précises et complètes)

➡ Ces différents éléments permettent de réduire les variation qui ne viennent pas du sujet testé et permet donc une comparaison

plus fiable aux normes
plus fiable d'un thérapeute, d'un patient d'un moment à l'autre

1⃣ Est ce qu'on a les qualifications nécessaires pour le proposer ?

Validité

V. de contenu
= est ce que les items sélectionnés / le contenu du test est pertinent pour évaluer cette mesure ?
Pour analyser plus profondément des items : alpha de Cronbach

Un test est valide au niveau de son contenu quand :
Les items sélectionnés mesurent correctement ce qu'il prétend tester

V. empirique

V. théorique
= est ce que cet outil repose sur une validité théorique/ une définition ?

V. prédictive
= L'outil prédit il correctement le comportement dans la vie de tous les jours ?

V. concourante
= Est ce que les résultats à cette épreuve sont corrélés avec les résultats d'un test de référence (qui a démontré son efficacité diagnostique)

Fidélité test-retest
= le résultat du test est il stable dans un temps proche ?

Fidélité interjuge
= les résultats seront-ils les mêmes avec des évaluateurs différents ?

Consistance interne
= est ce que le tests mesure bien un seul concept ?

Mesurée par l'alpha de Cronbach qui varie entre 0 (faible) et 1 (élevé, unidimensionnel)
sup ou = 0,70 satisfaisant
sup ou = 0,90 souhaitable

Qu'est ce qui peut entraver la fidélité ?

Des variabilités liées :

Au clinitien

Au patient

A l'environnement

Ces différentes variables expliquent l'erreur de mesure qui ne sera jamais reproductible à l'identique --> coefficient de Pearson r (= coefficient de corrélation entre 2 mesures d'un même test chez un même sujet) idéalement : r>=0,90

Aux tests

La fidélité sera rarement de 100%
CAR les tests sont entachés d'erreurs de mesure + ne mesurent jamais la performance "vraie" du patient. C'est pourquoi il est

délicat de communiquer un chiffre au patient qu'il interprétera la plupart du temps comme fiable et représentatif de sa performance
intéressant de calculer un intervalle de confiance autour de sa performance

Intervalle de confiance
= Si on fait passer 100 fois le test au sujet, son score se trouvera dans 95% des cas au sein de l'intervalle de confiance
Intervalle-de-confiance

Sensibilité
= finesse discriminatoire --> possibilité à partir des scores d'un test diagnostic à identifier des déficits (même légers) chez un sujet "malade"
On peut utiliser es Z-scores pour identifier des scores pathologiques SSI on a posé un score seuil (en dessous duquel la performance est jugée rare/faible)
Si ce score est bien défini,

augmente la détection des vrais positifs
diminue la déterction des faux positifs

Degré de précision des mesures de sensibilité

Spécificité
= capacité d'un test à identifier un sujet sain comme "non-malade"
Si le score seuil est bien défini,

éviter les faux positifs
ne pas diagnostiquer de vrais négatifs

Nombre de comportements retenus comme indicateur
-->Plus il y en a, mieux c'est

Degré de sévérité et de précision du mode de cotation
--> Plus l'étendue de l'échelle est importante, mieux c'est

Le mode de standardisation des scores aux échelles
--> Plus il y a d'échelons, mieux c'est

L'échantillon de sujets sur lequel est étalonné le test
-> Plus il est hétérogène, mieux c'est

✏Si ces paramètres sont peu respectés, le test perd en sensibilité

sens et spéc

Et si on a pas d'information là dessus ?

on regarde le nombre d'items
on observe les normes

Le nombre d'items
Plus il y en a, mieux c'est

L'observation des normes

Conduites à garder en tête

regarder systématiquement l'écart entre le score max et la moyenne + entre le score min et le score seuil
les normes avec moins de 2 points d'écart type entre le score seuil et le maximal
les normes avec 2 ou 3 points d'écart sont limites >< 4 points d'écart acceptables
une évolution significative des scores en fonction de l'âge limite risque d'être en présence d'une épreuve avec des scores plafonds/planchers

✏Au delà des seuils plafond et plancher, le test utilisé n'a plus de pouvoir discriminant

Effet plancher = moy basse et é-t grand
Effet plafond = moy haute et é-t petit

Quelques hypothèses sur ces 2 effets :

Le patient est très très déficitaire --> la tâche demandée n'était pas adaptée aux possibilités du patient
D'autres raisons possibles --> pas compris la consigne, trouble sensoriel, perturbation durant la tâche, ...
Le patient ne fait pas partie de la population de référence (ex : bilingusime)
La courbe de répartition des scores est amassée vers les scores extrêmes avec un écart type réduit
Le test n'a pas été pensé pour des enfants avec de telles difficultés