Please enable JavaScript.
Coggle requires JavaScript to display documents.
Dada, Visualització, Models supervisats, Preprocessat, Publicació, Segons…
Dada
Qualitat
-
-
-
-
-
Validesa (format, tipus, rang)
-
-
-
-
Models supervisats
-
-
k-NN
Classificació.
Mètode simple i robust.
Alt cost computacional, no es genera un model predictiu, per cada nova instància es realitza la predicció.
Jocs de dades petits.
Paràmetres claus:
- Valor k: la classe de la nova instància es determina com la classe majoritària de les seves k instàncies més properes. Normalment impar. Realitzar graella d'errors segons valors de k per escollir.
- Mètrica de distància: Euclídea per atribut numèric, Hamming per atribut biinari.
-
-
Naïve Bayes
Classificació.
Classifica noves instàncies assignant-li la classe que maximitza la probabilitat condicional de la classe donada la seqüència observada d'atributs en l'entrenament.
-
-
-
-
-
Transformació
-
-
-
Normalització
Situar les dades quantitatives sobre una escala de valors equivalent que permeti la comparació d'atributs que prenen valors en dominis o rangs diferents.
-
-
-
-
-
-
Transformació logarítmica - Per variables numèriques amb valors de magnituds molt dispars. Per reduir el biaix a la dreta.
-
-
-
Neteja
Missing data
-
-
-
-
Completar-la amb el valor més probable, a partir d'una regressió, un arbre de decisió, d'un model basat en distàncies entre registres (kNN-imputation), o inferències basades en models bayesians
Undefined data
Valors sentinella (usats per a representar alguna situació especial en una variable numèrica. 999, -1, 0...), buit (es pot trobar però no el sabem), Nuls o NA (no l'hem pogut trobar). (No confondre amb NaN - Not a Number)
-
Dades redundants, incorrectes, inconsistents
-
-
-
-
Estandarditzar (Mateixes unitats, mateix format)
-
-
-
-
Tipus de distàncies
Distància euclídea
No té en compte les diferents unitats de mesura de les variables. Si els rangs són molt diferents, queda distorsionada.
-
-
Distància de Hamming
Per atributs nominals o binaris. (0 si valors iguals, 1 si diferents)
-
Mineria de dades
-
-
-
Models no supervisats
Clustering (jeràrquics, k-means, canopy clustering, Dbscan/Optics): 1
-
-
-
-
-
Anàlisi d'associació: 1, 4
-
-
-
-
-
-
Avaluació del model
-
-
-
-
Mètode de retenció (holdout) - 70% entrenament, 30% test
-
Partició de les dades
Remostreig
-
-
Validació creuada (k-fold cross validation) (k=3 (regla dels dos terços), 5, 10)
-
-
-
-
Fases
- Definir l'objectiu
- Recollir i gestionar les dades
- Construir el model
- Avaluar críticament el model
- Presentar els resultats i documentar-los
- Implantar el model
Segons procés seqüencial
Forward selection - Identificar les més rellevants. Afegir una característica al model. Iterar fins aconseguir nivell de precisió satisfactori del model.
Backward elimination - Executar el model considerant-les totes. Eliminar la menys rellevant. Iterar.
Stepwise selection - Forward selection, però si una característica esdevé irrellevant, l'eliminem.
-
Models no supervisats
Agrupament
Jeràrquic
-
Algoritme divisori (DHC)
Criteris de parada
- Profunditat màxima
- Nombre màxim d'instàncies en una partició
- Valor màxim per a una mesura de similitud
-
-
k-means
Mètodes derivats
- k-medians, amb distància de Manhattan normalment - més robust front outliers i distribucions assimètriques.
- k-medoids - com k-medians però els centroides seran segur punts del conjunt de dades
- fuzzy c-means - les instàncies tenen un valor de probabilitat de pertinença a cada clúster
-
-
-