Please enable JavaScript.

Coggle requires JavaScript to display documents.

Big Data Analytics - Coggle Diagram

- - - - anziché essere programmati con regole e istruzioni (knowledge-driven)
    - - sono la variabile target che l'algoritmo deve imparare a prevedere
    - - algoritmi di classificazione
        
        alberi decisionali
        
        sequenza di test sulle proprietà delle osservazioni
        
        creano classificazioni (nodi foglia) pure, evitando overfitting con criteri di stop
        
        Gini
        
        entropia
        
        missclassification
        
        divide lo spazio in regioni i cui confini sono ortogonali agli assi delle variabili (univariate)
        
        classificatori Bayesiani
        
        calcolano la probabilità posteriore che x appartenga alla classe k
        
        ma se gli attributi sono tanti...
        
        si assume che gli attributi siano condizionalmente indipendenti (Naive Bayes)
        
        regressione logistica
        
        prevede la categoria di appartenenza utilizzando una funzione sigma
        
        le Odds sono il rapporto tra la probabilità di una classe e l'altra
        
        support vector machines
        
        trova un iperpiano ottimale che massimizza la distanza tra le classi
        
        quando i dati non sono linearmente separabili...
        
        si usano i Kernel trick per proiettare i dati in uno spazio a più dimensioni
        
        random forest
        
        creano alberi decisionali indipendenti
        
        bagging: dal dataset vengono generati dei campioni e per ognuno viene addestrato un albero
        
        XgBoost
        
        crea alberi decisionali in sequenza
        
        gli alberi lavorano sui dati concentrandosi sugli errori di quelli precedenti
      - valutazione di un modello di classificazione
        
        confusion matrix
        
        curva ROC
        
        metriche
        
        Accuracy
        
        Recall
        
        Precision
        
        F1-score
      - l'algoritmo impara analizzando dati già etichettati
        
        risolvendo problemi di classificazione o di regressione
        
        K-Nearest Neighbors (K-NN)
        
        distanza euclidea o di Manhattan
        
        trova una funzione tra gli input e le variabili target in modo da compiere previsioni corrette su dati nuovi (es. churn)
    - - l'algoritmo impara analizzando dati non etichettati
        
        in base alla loro struttura
      - clustering
        
        divide i dati in cluster garantendo...
        
        massima coesione interna*
        
        distanza euclidea, di Manhattan o matrice di contingenza
        
        massima separazione esterna*
        
        k-means
        
        divide un insieme di dati in k gruppi utilizzando i centroidi
        
        metodi gerarchici
        
        basati su un dendogramma costruito utilizzando il merging e lo splitting
        
        viene valutato con il Silhouette Score*
- - - - ...trovando una rappresentazione numerica efficace di parole, frasi e testi
      - grazie al...
        
        preprocessing
        
        per rendere i testi idonei agli algoritmi di analisi
        
        normalizzazione
        
        lemmatizzazione
        
        stemming
        
        comprende anche
        
        thesauri, spell e document correction, query misspelling
        
        1 more item...
        
        rimozione stopword
        
        conversione in minuscolo
        
        tokenizzazione
        
        rimozione punteggiatura/numeri
      - seguendo un percorso
        
        Layer sintattico
        
        come sono fatte le parole e come sono strutturate le frasi
        
        3Q NLP (IQ, EQ, CQ)
        
        Layer semantico
        
        significato delle parole
        
        Layer pragmatico
        
        significato inteso
  - - - fa capire alla macchina il linguaggio umano grazie a regole scritte da esperti e risorse linguistiche (WordNet)
        
        ma
        
        è impossibile programmare l'intero linguaggi umano in maniera knowledge-driven...
    - - trasforma il testo in numeri concentrandosi su quali parole sono presenti e quante volte compaiono
        
        ignorando
        
        la grammatica e l'ordine
        
        ogni documento è rappresentato come un vettore numerico grazie alla matrice DTM
        
        word presence
        
        word count
        
        ma
        
        porta a perdita di semantica e stesso peso alle parole...
        
        TF-IDF
        
        assegna un peso maggiore alle parole frequenti in un documento e rare nel corpus
      - trattando ogni parola singolarmente, non c'è una nozione di vicinanza semantica...
    - - permette ai computer di imparare la semantica delle parole...
        
        trasformandole in vettori numerici
        
        in questo modo
        
        la vicinanza tra i vettori riflette la somiglianza semantica delle parole
        
        Word2Vec
        
        cosa fa
        
        2 more items...
        
        poiché distrugge la sintassi della frase...
        
        1 more item...
        
        la similitudine tra le parole è misurata dalla Cosine Similarity