Please enable JavaScript.
Coggle requires JavaScript to display documents.
Processus d’extraction des connaissances - Coggle Diagram
Processus d’extraction des connaissances
Data preprocessing
Dimensionality reduction
Feature selection :
excluding irrelevant variables from a multiple regression model
Algorithme
Methodes
Filter methods
Definition
Use scoring methods, like correlation between the feature and the target variable, to select a subset of input features that are most predictive.
Exemple
Pearson’s correlation test
Chi-Squared test.
ANOVA
Wrapper methods
Definition
wrap a machine learning model, fitting and evaluating the model with different subsets of input features and selecting the subset the results in the best model performance.
Types
Forward
Backward
exemples d'algorithmes
RFE
1 more item...
Stepwise
Feature extraction :
Création de nouvel attributs à partir des attributs originaux
Matrix Factorization
Exemples d'algorithmes
PCA
NMF (Non-negative matrix factorization)
Manifold Learning
#
Exemples d'algorithmes
t-SNE (t-distributed Stochastic Neighbor Embedding)
MDS (Multidimensional scaling)
Nettoyage
Données manquantes
causes
Mauvais fonctionnement de l’équipement
Incohérences avec d’autres données et donc supprimées
Non saisies car non ou mal comprises, considérées peu importantes au moment de la saisie
solutions
Suppression
Imputation
par la valeur la plus probable:
formule Bayésienne ou arbre de décision
par moyenne de l'attribut
Utilisée une constante globale
(ex.: une nouvelle catégorie "inconnue")
Données bruités
causes
Instrument de mesure défectueux
Problème de saisie
Problème de transmission
solution
le clustering
écart interquartile
(boxplot)
Transformation
Normalization
méthodes
méthode min-max
mise à l’échelle pour avoir un petit intervalle spécifié
Z-score
Même ordre de grandeurs pour les valeurs des attributs
Integration
objectif
Combiner des sources de données différentes dans une seule structure
Défis
Détecter et résoudre les conflits de valeurs
Gestion de la redondance
solution
L’analyse de corrélation entre les attributs
Data mining
Data postprocessing
Filtering partterns
Visualization
Pattern interpretation