Machine Learning
la capacité d'apprendre sans être explicitement programmée Model(DataSet)+Parttren(décrit une partie de data)
Supervisé
Non supervisé
Trouver une bonne approximation h de f en utilisant un échantillon de omega telle que on minimise l'erreur théorique
- datasets labélisé
- modélisation, prédictive
On cherche la structure des groupes, les significations des données. -datasets non labélisé - modélisation descriptive, explorative
Classification
Prédiction Régression
Clustering
Règles d’associations
Arbre de décision
K plus proche voisin
SVM
Régression Simple
Régression Multiple
Régression Logistique
K-moyenne
K-médiods
CHA
FP-Growth
A-priori
Je classifie parmi plusieurs class prédéfinir en fct des caractéristique indiqué comme variable explicative
Construction du modèle :
1- Construire un modèle
2- Tester le modèle
(Partitionnement, Validation croisée)
3- Validation du modèle
4- utilisation du modèle
Les réseaux de neurones
machines à vecteurs de supports se base sur le
principe d’une séparation graphique entre les classes
Modélisent la fonction à apprendre par une succession de critères organisés suivant une structure arborescente
utilise des mesures de distance pour trouver la classe d’un individus en se basant sur celles de ces voisins les plus proches
Méthode la plus utilisée est la régression
On cherche à trouvez une relation entre variables
Estimation des paramètres
- Least square **
- maximum de vraisemblance
- best linear unbiased estimator method
Propriétés d’une droite de régression
- La droite passe toujours par le point Xmoy. et Ymoy
- L’ordonnée à l’origine «b» donne la valeur de Y quand X
égale zéro
-La pente «a » mesure les variations de Y par rapport aux
variations de X - L’équation peut être utile pour prédire une valeur de Y pour
n’importe quelle valeur de X
Types des techniques de prédiction et
classification
- Phase d’apprentissage :’élaborer un modèle, qui résume les relations entre les variables
- Phase déduction: le modèle est appliqué à des nouvelles données pour en déduire un classement ou une prédiction
Qualité ❤
- Taux de précision
- Temps de calcul
- Robustesse
- Volume de données
- Compréhensibilité
Cherche à trouver des sous-ensembles(cluster, groupe, partition) qui soient homogènes et bien séparés
Analyser les relations entre
les variables ou détecter des associations
Les qualités
- Prise en compte de données de différents types.
- Formes arbitraire des clusters
- Minimisation du nombre de paramètres à fixer
- Interprétation et utilisation des résultats
- Résistance au bruit et aux anomalies
-Insensibilité à l'ordre de présentation des exemples
Méthodes de partitionnement
Méthodes hiérarchiques