Comment savoir si le test évalue
de manière satisfaisante la fonction cognitive
ciblée ?
Fidélité
Sensibilité/ spécificité
Standardisation
Avant toute chose
Un instrument de mesure est fidèle si :
L'objectif principal de l'évaluation
= classer la performance du patient par rapport à un échantillon/ une norme
En quoi est ce que cela consiste ?
Les critères "souvent mentionnés dans les test peuvent nous aider à juger de la qualité psychométrique de celui-ci
On commence par lire le manuel puis :
2⃣ Identifier l'objectif du test
1ère ligne : diagnostique la présence/ l'absence de trouble
2ème ligne : mettre en évidence le degré de sévérité d'un trouble ou planifier les objectifs de PEC
Utiliser le matériel prescrit
Respecter les critères de cotation prescrits
Harmoniser et contrôler la passation pour la rendre la plus systématique possible (consignes précises et complètes)
➡ Ces différents éléments permettent de réduire les variation qui ne viennent pas du sujet testé et permet donc une comparaison
- plus fiable aux normes
- plus fiable d'un thérapeute, d'un patient d'un moment à l'autre
1⃣ Est ce qu'on a les qualifications nécessaires pour le proposer ?
Validité
V. de contenu
= est ce que les items sélectionnés / le contenu du test est pertinent pour évaluer cette mesure ?
Pour analyser plus profondément des items : alpha de Cronbach
Un test est valide au niveau de son contenu quand :
Les items sélectionnés mesurent correctement ce qu'il prétend tester
V. empirique
V. théorique
= est ce que cet outil repose sur une validité théorique/ une définition ?
V. prédictive
= L'outil prédit il correctement le comportement dans la vie de tous les jours ?
V. concourante
= Est ce que les résultats à cette épreuve sont corrélés avec les résultats d'un test de référence (qui a démontré son efficacité diagnostique)
Fidélité test-retest
= le résultat du test est il stable dans un temps proche ?
Fidélité interjuge
= les résultats seront-ils les mêmes avec des évaluateurs différents ?
Consistance interne
= est ce que le tests mesure bien un seul concept ?
- Mesurée par l'alpha de Cronbach qui varie entre 0 (faible) et 1 (élevé, unidimensionnel)
- sup ou = 0,70 satisfaisant
- sup ou = 0,90 souhaitable
Qu'est ce qui peut entraver la fidélité ?
Des variabilités liées :
Au clinitien
Au patient
A l'environnement
Ces différentes variables expliquent l'erreur de mesure qui ne sera jamais reproductible à l'identique --> coefficient de Pearson r (= coefficient de corrélation entre 2 mesures d'un même test chez un même sujet) idéalement : r>=0,90
Aux tests
La fidélité sera rarement de 100%
CAR les tests sont entachés d'erreurs de mesure + ne mesurent jamais la performance "vraie" du patient. C'est pourquoi il est
- délicat de communiquer un chiffre au patient qu'il interprétera la plupart du temps comme fiable et représentatif de sa performance
- intéressant de calculer un intervalle de confiance autour de sa performance
Intervalle de confiance
= Si on fait passer 100 fois le test au sujet, son score se trouvera dans 95% des cas au sein de l'intervalle de confiance
Sensibilité
= finesse discriminatoire --> possibilité à partir des scores d'un test diagnostic à identifier des déficits (même légers) chez un sujet "malade"
On peut utiliser es Z-scores pour identifier des scores pathologiques SSI on a posé un score seuil (en dessous duquel la performance est jugée rare/faible)
Si ce score est bien défini,
- augmente la détection des vrais positifs
- diminue la déterction des faux positifs
Degré de précision des mesures de sensibilité
Spécificité
= capacité d'un test à identifier un sujet sain comme "non-malade"
Si le score seuil est bien défini,
- éviter les faux positifs
- ne pas diagnostiquer de vrais négatifs
Nombre de comportements retenus comme indicateur
-->Plus il y en a, mieux c'est
Degré de sévérité et de précision du mode de cotation
--> Plus l'étendue de l'échelle est importante, mieux c'est
Le mode de standardisation des scores aux échelles
--> Plus il y a d'échelons, mieux c'est
L'échantillon de sujets sur lequel est étalonné le test
-> Plus il est hétérogène, mieux c'est
✏Si ces paramètres sont peu respectés, le test perd en sensibilité
Et si on a pas d'information là dessus ?
- on regarde le nombre d'items
- on observe les normes
Le nombre d'items
Plus il y en a, mieux c'est
L'observation des normes
Conduites à garder en tête
- regarder systématiquement l'écart entre le score max et la moyenne + entre le score min et le score seuil
- les normes avec moins de 2 points d'écart type entre le score seuil et le maximal
- les normes avec 2 ou 3 points d'écart sont limites >< 4 points d'écart acceptables
- une évolution significative des scores en fonction de l'âge limite risque d'être en présence d'une épreuve avec des scores plafonds/planchers
✏Au delà des seuils plafond et plancher, le test utilisé n'a plus de pouvoir discriminant
Effet plancher = moy basse et é-t grand
Effet plafond = moy haute et é-t petit
Quelques hypothèses sur ces 2 effets :
- Le patient est très très déficitaire --> la tâche demandée n'était pas adaptée aux possibilités du patient
- D'autres raisons possibles --> pas compris la consigne, trouble sensoriel, perturbation durant la tâche, ...
- Le patient ne fait pas partie de la population de référence (ex : bilingusime)
- La courbe de répartition des scores est amassée vers les scores extrêmes avec un écart type réduit
- Le test n'a pas été pensé pour des enfants avec de telles difficultés