AI28 :Machine learning pour l'ingénieur

Analyse descriptive exploratoire des données

Features

Qualitative

Quantitative

Nominale

Ordinale

Discrete

Discrete

Intervalle

Discrete

Continue

Rapport

Discrete

Continue

Statistique descriptive: donner la forme de la distribution

Tendance centrale

Dispersion

Skewness = degré d'asymétrie

Kurtosis = forme d'une distribution (coefficient d'aplatissement)
Si kurtosis = 0 => mésokurtique
Si Kurtosis < 0 => platykurtique(distribution ecrasée, voire rectangulaire)
Si Kurtosis > 0 => leptokurtique (forme de pointe)

Lois usuelles discrètes

Bernouilli(p)
E(X) = p
V(X) = p (1-p)

Binomiale(n,p):
E(X) = np
V(X) = np(1-p)

Poisson(λ):
E(X) = V(X) = λ

Lois usuelles continues

Uniforme:
E(X) = (b+a) / 2
V(X) (b-a)²/ 12

Normale(µ, sigma²)

Exponentielle(λ):
E(X) = 1 / λ
V(X) = 1 / λ²

Loi gamma(p,λ)
E(X) = p / λ
V(X) = p / λ²

Khi-Deux(n):
E(X) = V(X) = 2n

Analyse bivarié: Caractériser la relation entre deux variables

Covariance : Quantifier les ecarts entre deux variables
Cov(X,Y) = 1/n somme (x- xmoy)(y-ymoy)

Coefficient de corrélation : relation linéaire entre deux vaiables

Corrélation de spearman : Corrélation entre les rangs d'une variable

Fonctions de coût

Coût 0/1 :
{0,1} X {0,1} -> R+
fonction qui renvoie 1 si la prédiction n'est pas égale à la valeur observée, 0 sinon

Erreur de Hinge:
{-1, +1} X R -> R+
(y, h(x)) : 0 si yh(x) >= 1, 1 - yh(x) sinon

cout logistique :
{-1,+1} X R -> R+
(y,h(x)) = log (1 + e-yh(x))

Entropie croisée :
{0,1} X <<]0,1[ -> R+
(y,h(x)) = -ylog(h(x)) - (1-y) log(1-h(x))

Risque empirique : 1/n somme(fonctioncout())

Fonctionsn de cout pour la regression

Cout quadratique :
R X R => R+
1/2 (y-h(x))²

Cout absolu (moins sensible aux valeurs aberrantes que le cout quadratique)
R x R => R+
abs(y -h(x))

Cout de Huber : permet d'etre derivable en 0 et de pas trop exploser avec les valeurs aberrantes. Soit epsilon un réel >0
R x R => R+
1/2(y-h(x))² si abs(y-h(x)) < epsilon
epsilon * abs(y-h(x)) - 1/2 epsilon² sinon

Le meilleur modèle est celui qui minimise à la fois le biais et la variance

Pré traitement des données

Données manquantes

Suppresion : Attention on perd bcp d'info utiles

Imputation: on remplace par une valeur (depend du contexte)

Données aberrantes

Keep or not keep, this is the question ? Là encore, dépend du contexte métier

Variables catégorielles

Encodage ordinal : 1 catégorie = 1 nombre

Encodage One-Hot : Créer une nouvelle variable par modalité possible

Normalisation : recalibrage des variabels

Transfo min max : X - Xmin / (Xmax - Xmin) => Avantage garde la distribution mais est sensible aux valeurs aberrantes

Standardisation : X-µx / sigma * x
Change la distribution en (0,1)

Données déséquilibrées:

Bien choisir la métrique d'évaluation

Sur echantillonage : On crée de nouvelles valeurs pour la variable sous représentée

Sous - échantillonage : on prend un subset de la variable sur representée

Robust : (X- mediane) / ecart interquartile

Evaluation de modèles

On train sur un dataset et teste sur l'autre

Dans le cas de choix parmi les modeles, on train sur un subset du subset de train, test sur l'autre avant de choisir le meilleur modèle. Puis, on test le meilleur modele sur les données de test

Validation croiée en K-groupes: On split notre dataset de train en K groupes, on reserve un groupe pour l'éval. Puis on recommence en changeant le groupe de test (1er groupe, puis deuxieme ... puis Kème)

Critères de performance

Matrice de confusion 2x2 : [ [TN, FN<), [FP][TP]]

Accuracy : nb bonnes predic / nb predict

Rappel : taux de vrais positifs
Rappel = TP / (TP + FN)

Score F1 : 2 (Précision Rappel / (Precision + rappel))

Specificité : TN / (TN + FP)