MQ2 examen 1
cours 1 : notions de base
propriétés des estimateurs
coefficient de variation (en pourcentage) : comparer des distributions avec des échelles différentes
biais : est-ce que différent de paramètre population
efficacité : faible variance
suffisance : est-ce que toutes les infos sont prises en compte (moyenne VS mode)
robustesse : pas affecté par données aberrantes
transformation linéaire (ex. score Z)
n'influence pas les conclusions des tests stats
préserve les relations linéaires entre les variables
ne change pas les propriétés métriques des données
cours 2 : distributions d'échantillonnage et tests d'hypothèse
deux paramètres : mu (moyenne) et sigma (écart-type)
z = (X - mu) / sigma => distribution du z, si p<.05 => rejet H0
distributions d'échantillonnages suivent distribution normale (souvent)
échantillon = comparaison => distribution d'échantillonnage = estimation / inférence => population
leurs propriétés (mu et sigma / racine(n)) sont estimées à partir d'un échantillon
plus n est grand dans échantillons, plus variance distribution échantillonnage diminue et puissance augmente
Théorème de la limite centrale = plus N est grand dans l'échantillon, plus la distribution d'échantillonnage se rapproche d'une distribution normale et plus le test est valide et puissant
test d'hypothèse : à partir de l'erreur-type (variabilité interéchantillonnale) : voir si la différence observée est significative (p < .05)
taille de l'effet : voir la signifiance de la différence (ou de la non-différence)
probabilités
points de vue théoriques
Théorie Bayésienne
analytique : accès à toute la population, ex. proba tirer caramels mous ou durs parmi sac caramels
fréquentiste : pas accès à toute la population, essais répétés et décompte
VS
permutation : on prend en compte l'ordre, exemple AB et BA
combinaison : on ne prend pas en compte l'ordre, exemple AB
présuppose pas distribution normale
estimer proba inconnues avec approche inférentielle (proba que H0 soit vraie, par exemple)
distribution binomiale
distribution discrète : distribution de probabilités, de données discrètes (VS distribution de densité, de données continues, comme distrib, normale)
moyenne = Np, variance = Npq
traite des situations où des essais donnent un résultat parmi deux résultats mutuellement indépendants
forme varie selon N et p (pour grands N, tend vers normale)
test du signe
proba au moins 10 au hasard ? => p(10) + p(11) + p(12) = x, si x < .05 => rejet H0
ne postule pas que données suivent distribution normale
le khi-carré
fonction gamma => équivalent des factoriels pour nombres non-entiers
significations
distribution
de densité (comme normale), paramètre k (moyenne = k, variance = 2k), qui correspond à degrés de liberté du test khi-2
test statistique basé sur distribution khi-carré
plus k (dl) augmente
plus la moyenne augmente
plus la courbe devient symétrique
plus la variance augmente
khi-carré critique associé à alpha = .05 dans table
rejet H0 si khi-carré observée > khi-carré critique
test khi-carré d'ajustement
tables de contingences
à un facteur
dl = C - 1
comparer fréquences théoriques attendues aux fréquences observées
dl = (L-1) * (C-1)
lien entre 2 variables catégorielles / discrètes
utilisé pour étudier des fréquences (données catégorielles)
si table 2x2 et moins de 5 fréquences à l'une des cases => proba erreur alpha
correction de Yates : -0.5 à chaque numérateur, dans parenthèse MAIS trop conservateur ?
test exact de Fisher : moins conservateur, donne autre test avec données exactes (pas test de khi-carré) ; marche particulièrement bien avec petites fréquences car pas basé sur la distribution khi-carré
rapports de vraisemblance : surtout pour échantillons de petite taille
Khi-carré
Phi de Cramer (.10, .30, .50) si 2X2, même calcul que r de Pearson
V de Cramer (.10, .30, .50) si 2X2+, même calcul que r de Pearson
le test-t
une moyenne : échantillon provient de la population générale ?
deux moyennes
principe
table du t : si tobs > tcrit => rejet H0
exprimer la différence entre 2 valeurs (ex. moyennes) en nombre d'erreurs types
dépendantes
indépendantes
sigma inconnu : table du t, qui prend en compte n (dl = n-1); on utilise l'écart-type de l'échantillon pour estimer l'erreur-type
sigma connu : table du z (distribution normale réduite)
si groupes ont tailles différentes => estimé combiné de la variance échantillonnale, qui permet d'estimer l'erreur-type
dl = (n1 + n2 - 2)
test-t
d de Cohen (.20, .50, .80), si augmente, chevauchement courbes diminue, d = (mu1-mu2) / sigma
distribution des différences de moyennes
moyenne = mu1 - mu2 (=0 pour H0)
proba d'observer cette différence si H0 est vraie
postulats
N > 30
indépendance
normalité
homogénéité (test de Levene)
si p > .05, respect
si p < .05, non respect
puissance statistique
augmente si : alpha augmente ; différence mu1-mu2 augmente ; n augmente ; variance diminue
estimer taille d'effet permet de quantifier signifiance + estimer puissance
si test non sig., dû à puissance trop faible ? (si n trop petit ou variabilité trop grande)
test-t 1 éch. : delta = d x racine (n)
1 - beta, proba de rejet H0 correct, en général on cherche puissance de .80
test-t 2 éch. ind. : delta = d x racine (n/2) et ATTENTION, n obtenu est le n pour chaque groupe
en sachant puissance voulu de .80, alpha voulu de .05 et en connaissant delta et d, on peut estimer n requis !
corrélations : r de Pearson
variance = moyenne des écarts à la moyenne, au carré, divisé par dl (N-1)
covariance : multiplication des 2 variances des variables
r de Pearson
indice de l'ajustement entre 2 variables
plus la corrélation est forte, plus les points sur le diagramme de dispersion sont resserrés => relation linéaire permet de faire des prédictions
.10, .30, .50 (mais on ne veut ni -1 ni 1)
corrélation : cov / écarts types multipliés (pour avoir une même échelle, standardiser)
SPSS : corrélation => bivariée
NB : si pas les mêmes N, prendre la corrélation du plus petit
test d'hypothèse
déterminer si rhô (corrélation pop) est différent de 0 ou supérieur/inférieur à 0
"revient au hasard ou vraie corrélation dans la population ?"
corrélations descriptives (force et direction) mais aussi inférentielles
distribution d'échantillonnage du t de Student avec n-2 dl
calcul du r puis calcul tobs puis comparer à tcrit
indépendant des échelles de mesures
standardisé (divis. par écarts-types)
r carré = % de variance expliquée d'une variable par l'autre
r ajusté (REGRESSION dans SPSS) tient compte de N et corrige le biais pour les petits échantillons (N<30)
droite de régression : Y = bX + a
pour la puissance, on estime que la taille d'effet attendue (d) égale la corrélation attendue (rho1)
conditions d'application
r de Pearson : delta = d x racine (N-1) = rho1 x racine (N-1)
variables sur échelles plutôt continues
respecte homogénéité et normalité
relation linéaire entre les variables (VS curvilinéaire, partiellement linéaire...)
corrélations : autres techniques
phi de Cramer
bisérielle
bisérielle de point rpb
VS
corrélation : indice lien entre variables au moins ordonnées, augmentation quantité valeurs, variables plutôt continues
association : s'applique même si ni augmentation / diminution ordonnée d'une quantité => variables catégorielles
MAIS difficultés pour inférences
droite de régression passe par les moyennes des groupes
même calcul et même interprétation que r de Pearson
signe négatif du r est arbitraire, peu d'importance
une variable continue + une variable dichotomique / catégorielle (0, 1)
b = ordonnée à l'origine = moyenne du groupe 0
a = pente = différence entre les moyenne des 2 groupes
SPSS : régression => linéaire => VD = continue et VI = dichotomique
relation importante avec t
même méthodo : une variable continue + catégorielle
on peut calculer t (avec N-2 dl) et faire un test-t avec les mêmes variables !
MAIS test de signification du khi-carré (= tables de contingence)
même calcul que le r de Pearson
deux variables dichotomiques / catégorielles
SPSS : stats descriptives => tableaux croisés
équivalent de bisérielle de point rpb, mais plus puissant (car distrib. normale pour dicho)
une variable continue + une variable dichotomique dérivée de variables respectant distribution normale (ex, continue)
tétrachorique
deux variables catégorielles dérivées de variables respectant une distribution normale (ex. continues)
équivalent du phi de Cramer, mais plus puissant
données rangées / ordinales
rho de Spearman
tau de Kendal
associer un rang à des données qui sont en ordre croissant (plus petite valeur a rang 1, plus grande valeur a rang n, si plusieurs variables avec même rang on leur donne rang moyen
mais test-t et khi-carré ne fonctionnent pas bien
même principe que le r de Pearson
similaire au rho de Spearman
basé sur le nombre "d'inversions de rang" lorsqu'on range les données en considérant 2 variables
des calculs permettent des estimés non paramétriques et conservateurs de ces coefficients et niveau de signification MAIS sont moins puissant
marche moins bien avec grands échantillons, puisqu'il faut les classer ! (surtout utilisés pour N < 30)
SPSS : NONPAR CORR
exemple de dérivation : score de 115 à 130 au score QI = catégorie "haut", score de 130 à 145 = "très haut"...
les rangs sont considérés comme des scores
inversions : ex. du tableau alcool / tabac dans le livre ; nombre d'inversions = nombre de rangs qui se situent sous le rang en question, alors qu'ils devraient être au dessus (colonne tabac)
calcul erreur-standard possible => distrib du z
coefficient de concordance de Kendall (W) : mesure du degré d'accord entre plusieurs juges