MQ2 examen 1

cours 1 : notions de base

propriétés des estimateurs

coefficient de variation (en pourcentage) : comparer des distributions avec des échelles différentes

biais : est-ce que différent de paramètre population

efficacité : faible variance

suffisance : est-ce que toutes les infos sont prises en compte (moyenne VS mode)

robustesse : pas affecté par données aberrantes

transformation linéaire (ex. score Z)

n'influence pas les conclusions des tests stats

préserve les relations linéaires entre les variables

ne change pas les propriétés métriques des données

cours 2 : distributions d'échantillonnage et tests d'hypothèse

deux paramètres : mu (moyenne) et sigma (écart-type)

z = (X - mu) / sigma => distribution du z, si p<.05 => rejet H0

distributions d'échantillonnages suivent distribution normale (souvent)

échantillon = comparaison => distribution d'échantillonnage = estimation / inférence => population

leurs propriétés (mu et sigma / racine(n)) sont estimées à partir d'un échantillon

plus n est grand dans échantillons, plus variance distribution échantillonnage diminue et puissance augmente

Théorème de la limite centrale = plus N est grand dans l'échantillon, plus la distribution d'échantillonnage se rapproche d'une distribution normale et plus le test est valide et puissant

test d'hypothèse : à partir de l'erreur-type (variabilité interéchantillonnale) : voir si la différence observée est significative (p < .05)

taille de l'effet : voir la signifiance de la différence (ou de la non-différence)

probabilités

points de vue théoriques

Théorie Bayésienne

analytique : accès à toute la population, ex. proba tirer caramels mous ou durs parmi sac caramels

fréquentiste : pas accès à toute la population, essais répétés et décompte

VS

permutation : on prend en compte l'ordre, exemple AB et BA

combinaison : on ne prend pas en compte l'ordre, exemple AB

présuppose pas distribution normale

estimer proba inconnues avec approche inférentielle (proba que H0 soit vraie, par exemple)

distribution binomiale

distribution discrète : distribution de probabilités, de données discrètes (VS distribution de densité, de données continues, comme distrib, normale)

moyenne = Np, variance = Npq

traite des situations où des essais donnent un résultat parmi deux résultats mutuellement indépendants

forme varie selon N et p (pour grands N, tend vers normale)

test du signe

proba au moins 10 au hasard ? => p(10) + p(11) + p(12) = x, si x < .05 => rejet H0

ne postule pas que données suivent distribution normale

le khi-carré

fonction gamma => équivalent des factoriels pour nombres non-entiers

significations

distribution

de densité (comme normale), paramètre k (moyenne = k, variance = 2k), qui correspond à degrés de liberté du test khi-2

test statistique basé sur distribution khi-carré

plus k (dl) augmente

plus la moyenne augmente

plus la courbe devient symétrique

plus la variance augmente

khi-carré critique associé à alpha = .05 dans table

rejet H0 si khi-carré observée > khi-carré critique

test khi-carré d'ajustement

tables de contingences

à un facteur

dl = C - 1

comparer fréquences théoriques attendues aux fréquences observées

dl = (L-1) * (C-1)

lien entre 2 variables catégorielles / discrètes

utilisé pour étudier des fréquences (données catégorielles)

si table 2x2 et moins de 5 fréquences à l'une des cases => proba erreur alpha

correction de Yates : -0.5 à chaque numérateur, dans parenthèse MAIS trop conservateur ?

test exact de Fisher : moins conservateur, donne autre test avec données exactes (pas test de khi-carré) ; marche particulièrement bien avec petites fréquences car pas basé sur la distribution khi-carré

rapports de vraisemblance : surtout pour échantillons de petite taille

Khi-carré

Phi de Cramer (.10, .30, .50) si 2X2, même calcul que r de Pearson

V de Cramer (.10, .30, .50) si 2X2+, même calcul que r de Pearson

le test-t

une moyenne : échantillon provient de la population générale ?

deux moyennes

principe

table du t : si tobs > tcrit => rejet H0

exprimer la différence entre 2 valeurs (ex. moyennes) en nombre d'erreurs types

dépendantes

indépendantes

sigma inconnu : table du t, qui prend en compte n (dl = n-1); on utilise l'écart-type de l'échantillon pour estimer l'erreur-type

sigma connu : table du z (distribution normale réduite)

si groupes ont tailles différentes => estimé combiné de la variance échantillonnale, qui permet d'estimer l'erreur-type

dl = (n1 + n2 - 2)

test-t

d de Cohen (.20, .50, .80), si augmente, chevauchement courbes diminue, d = (mu1-mu2) / sigma

distribution des différences de moyennes

moyenne = mu1 - mu2 (=0 pour H0)

proba d'observer cette différence si H0 est vraie

postulats

N > 30

indépendance

normalité

homogénéité (test de Levene)

si p > .05, respect

si p < .05, non respect

puissance statistique

augmente si : alpha augmente ; différence mu1-mu2 augmente ; n augmente ; variance diminue

estimer taille d'effet permet de quantifier signifiance + estimer puissance

si test non sig., dû à puissance trop faible ? (si n trop petit ou variabilité trop grande)

test-t 1 éch. : delta = d x racine (n)

1 - beta, proba de rejet H0 correct, en général on cherche puissance de .80

test-t 2 éch. ind. : delta = d x racine (n/2) et ATTENTION, n obtenu est le n pour chaque groupe

en sachant puissance voulu de .80, alpha voulu de .05 et en connaissant delta et d, on peut estimer n requis !

corrélations : r de Pearson

variance = moyenne des écarts à la moyenne, au carré, divisé par dl (N-1)

covariance : multiplication des 2 variances des variables

r de Pearson

indice de l'ajustement entre 2 variables

plus la corrélation est forte, plus les points sur le diagramme de dispersion sont resserrés => relation linéaire permet de faire des prédictions

.10, .30, .50 (mais on ne veut ni -1 ni 1)

corrélation : cov / écarts types multipliés (pour avoir une même échelle, standardiser)

SPSS : corrélation => bivariée

NB : si pas les mêmes N, prendre la corrélation du plus petit

test d'hypothèse

déterminer si rhô (corrélation pop) est différent de 0 ou supérieur/inférieur à 0

"revient au hasard ou vraie corrélation dans la population ?"

corrélations descriptives (force et direction) mais aussi inférentielles

distribution d'échantillonnage du t de Student avec n-2 dl

calcul du r puis calcul tobs puis comparer à tcrit

indépendant des échelles de mesures

standardisé (divis. par écarts-types)

r carré = % de variance expliquée d'une variable par l'autre

r ajusté (REGRESSION dans SPSS) tient compte de N et corrige le biais pour les petits échantillons (N<30)

droite de régression : Y = bX + a

pour la puissance, on estime que la taille d'effet attendue (d) égale la corrélation attendue (rho1)

conditions d'application

r de Pearson : delta = d x racine (N-1) = rho1 x racine (N-1)

variables sur échelles plutôt continues

respecte homogénéité et normalité

relation linéaire entre les variables (VS curvilinéaire, partiellement linéaire...)

corrélations : autres techniques

phi de Cramer

bisérielle

bisérielle de point rpb

VS

corrélation : indice lien entre variables au moins ordonnées, augmentation quantité valeurs, variables plutôt continues

association : s'applique même si ni augmentation / diminution ordonnée d'une quantité => variables catégorielles

MAIS difficultés pour inférences

droite de régression passe par les moyennes des groupes

même calcul et même interprétation que r de Pearson

signe négatif du r est arbitraire, peu d'importance

une variable continue + une variable dichotomique / catégorielle (0, 1)

b = ordonnée à l'origine = moyenne du groupe 0

a = pente = différence entre les moyenne des 2 groupes

SPSS : régression => linéaire => VD = continue et VI = dichotomique

relation importante avec t

même méthodo : une variable continue + catégorielle

on peut calculer t (avec N-2 dl) et faire un test-t avec les mêmes variables !

MAIS test de signification du khi-carré (= tables de contingence)

même calcul que le r de Pearson

deux variables dichotomiques / catégorielles

SPSS : stats descriptives => tableaux croisés

équivalent de bisérielle de point rpb, mais plus puissant (car distrib. normale pour dicho)

une variable continue + une variable dichotomique dérivée de variables respectant distribution normale (ex, continue)

tétrachorique

deux variables catégorielles dérivées de variables respectant une distribution normale (ex. continues)

équivalent du phi de Cramer, mais plus puissant

données rangées / ordinales

rho de Spearman

tau de Kendal

associer un rang à des données qui sont en ordre croissant (plus petite valeur a rang 1, plus grande valeur a rang n, si plusieurs variables avec même rang on leur donne rang moyen

mais test-t et khi-carré ne fonctionnent pas bien

même principe que le r de Pearson

similaire au rho de Spearman

basé sur le nombre "d'inversions de rang" lorsqu'on range les données en considérant 2 variables

des calculs permettent des estimés non paramétriques et conservateurs de ces coefficients et niveau de signification MAIS sont moins puissant

marche moins bien avec grands échantillons, puisqu'il faut les classer ! (surtout utilisés pour N < 30)

SPSS : NONPAR CORR

exemple de dérivation : score de 115 à 130 au score QI = catégorie "haut", score de 130 à 145 = "très haut"...

les rangs sont considérés comme des scores

inversions : ex. du tableau alcool / tabac dans le livre ; nombre d'inversions = nombre de rangs qui se situent sous le rang en question, alors qu'ils devraient être au dessus (colonne tabac)

calcul erreur-standard possible => distrib du z

coefficient de concordance de Kendall (W) : mesure du degré d'accord entre plusieurs juges