Machine Learning

la capacité d'apprendre sans être explicitement programmée Model(DataSet)+Parttren(décrit une partie de data)

Supervisé

Non supervisé

Trouver une bonne approximation h de f en utilisant un échantillon de omega telle que on minimise l'erreur théorique

  • datasets labélisé
  • modélisation, prédictive

On cherche la structure des groupes, les significations des données. -datasets non labélisé - modélisation descriptive, explorative

Classification

Prédiction Régression

Clustering

Règles d’associations

Arbre de décision

K plus proche voisin

SVM

Régression Simple

Régression Multiple

Régression Logistique

K-moyenne

K-médiods

CHA

FP-Growth

A-priori

Je classifie parmi plusieurs class prédéfinir en fct des caractéristique indiqué comme variable explicative

Construction du modèle :
1- Construire un modèle
2- Tester le modèle
(Partitionnement, Validation croisée)
3- Validation du modèle
4- utilisation du modèle

Les réseaux de neurones

machines à vecteurs de supports se base sur le
principe d’une séparation graphique entre les classes

Modélisent la fonction à apprendre par une succession de critères organisés suivant une structure arborescente

utilise des mesures de distance pour trouver la classe d’un individus en se basant sur celles de ces voisins les plus proches

Méthode la plus utilisée est la régression
On cherche à trouvez une relation entre variables

Estimation des paramètres


  • Least square **
  • maximum de vraisemblance
  • best linear unbiased estimator method

Propriétés d’une droite de régression


  • La droite passe toujours par le point Xmoy. et Ymoy
  • L’ordonnée à l’origine «b» donne la valeur de Y quand X
    égale zéro
    -La pente «a » mesure les variations de Y par rapport aux
    variations de X
  • L’équation peut être utile pour prédire une valeur de Y pour
    n’importe quelle valeur de X

Types des techniques de prédiction et
classification

  • Phase d’apprentissage :’élaborer un modèle, qui résume les relations entre les variables
  • Phase déduction: le modèle est appliqué à des nouvelles données pour en déduire un classement ou une prédiction

Qualité

  • Taux de précision
  • Temps de calcul
  • Robustesse
  • Volume de données
  • Compréhensibilité

Cherche à trouver des sous-ensembles(cluster, groupe, partition) qui soient homogènes et bien séparés

Analyser les relations entre
les variables ou détecter des associations

Les qualités

  • Prise en compte de données de différents types.
  • Formes arbitraire des clusters
  • Minimisation du nombre de paramètres à fixer
  • Interprétation et utilisation des résultats
  • Résistance au bruit et aux anomalies
    -Insensibilité à l'ordre de présentation des exemples
  • Méthodes de partitionnement


  • Méthodes hiérarchiques