Please enable JavaScript.
Coggle requires JavaScript to display documents.
AI28 :Machine learning pour l'ingénieur - Coggle Diagram
AI28 :Machine learning pour l'ingénieur
Analyse descriptive exploratoire des données
Features
Qualitative
Nominale
Discrete
Ordinale
Discrete
Quantitative
Intervalle
Discrete
Continue
Rapport
Discrete
Continue
Statistique descriptive: donner la forme de la distribution
Tendance centrale
Dispersion
Skewness = degré d'asymétrie
Kurtosis = forme d'une distribution (coefficient d'aplatissement)
Si kurtosis = 0 => mésokurtique
Si Kurtosis < 0 => platykurtique(distribution ecrasée, voire rectangulaire)
Si Kurtosis > 0 => leptokurtique (forme de pointe)
Lois usuelles discrètes
Bernouilli(p)
E(X) = p
V(X) = p (1-p)
Binomiale(n,p):
E(X) = np
V(X) = np(1-p)
Poisson(λ):
E(X) = V(X) = λ
Lois usuelles continues
Uniforme:
E(X) = (b+a) / 2
V(X) (b-a)²/ 12
Normale(µ, sigma²)
Exponentielle(λ):
E(X) = 1 / λ
V(X) = 1 / λ²
Loi gamma(p,λ)
E(X) = p / λ
V(X) = p / λ²
Khi-Deux(n):
E(X) = V(X) = 2n
Analyse bivarié: Caractériser la relation entre deux variables
Covariance : Quantifier les ecarts entre deux variables
Cov(X,Y) = 1/n somme (x- xmoy)(y-ymoy)
Coefficient de corrélation : relation linéaire entre deux vaiables
Corrélation de spearman : Corrélation entre les rangs d'une variable
Fonctions de coût
Coût 0/1 :
{0,1} X {0,1} -> R+
fonction qui renvoie 1 si la prédiction n'est pas égale à la valeur observée, 0 sinon
Erreur de Hinge:
{-1, +1} X R -> R+
(y, h(x)) : 0 si yh(x) >= 1, 1 - yh(x) sinon
cout logistique :
{-1,+1} X R -> R+
(y,h(x)) = log (1 + e-yh(x))
Entropie croisée :
{0,1} X <<]0,1[ -> R+
(y,h(x)) = -ylog(h(x)) - (1-y) log(1-h(x))
Risque empirique : 1/n somme(fonctioncout())
Fonctionsn de cout pour la regression
Cout quadratique :
R X R => R+
1/2 (y-h(x))²
Cout absolu (moins sensible aux valeurs aberrantes que le cout quadratique)
R x R => R+
abs(y -h(x))
Cout de Huber : permet d'etre derivable en 0 et de pas trop exploser avec les valeurs aberrantes. Soit epsilon un réel >0
R x R => R+
1/2(y-h(x))² si abs(y-h(x)) < epsilon
epsilon * abs(y-h(x)) - 1/2 epsilon² sinon
Le meilleur modèle est celui qui minimise à la fois le biais et la variance
Pré traitement des données
Données manquantes
Suppresion : Attention on perd bcp d'info utiles
Imputation: on remplace par une valeur (depend du contexte)
Données aberrantes
Keep or not keep, this is the question ? Là encore, dépend du contexte métier
Variables catégorielles
Encodage ordinal : 1 catégorie = 1 nombre
Encodage One-Hot : Créer une nouvelle variable par modalité possible
Normalisation : recalibrage des variabels
Transfo min max : X - Xmin / (Xmax - Xmin) => Avantage garde la distribution mais est sensible aux valeurs aberrantes
Standardisation : X-µx / sigma * x
Change la distribution en (0,1)
Robust : (X- mediane) / ecart interquartile
Données déséquilibrées:
Bien choisir la métrique d'évaluation
Sur echantillonage : On crée de nouvelles valeurs pour la variable sous représentée
Sous - échantillonage : on prend un subset de la variable sur representée
Evaluation de modèles
On train sur un dataset et teste sur l'autre
Dans le cas de choix parmi les modeles, on train sur un subset du subset de train, test sur l'autre avant de choisir le meilleur modèle. Puis, on test le meilleur modele sur les données de test
Validation croiée en K-groupes: On split notre dataset de train en K groupes, on reserve un groupe pour l'éval. Puis on recommence en changeant le groupe de test (1er groupe, puis deuxieme ... puis Kème)
Critères de performance
Matrice de confusion 2x2 : [ [TN, FN<), [FP][TP]]
Accuracy : nb bonnes predic / nb predict
Rappel : taux de vrais positifs
Rappel = TP / (TP + FN)
Score F1 : 2
(Précision
Rappel / (Precision + rappel))
Specificité : TN / (TN + FP)