Please enable JavaScript.
Coggle requires JavaScript to display documents.
Big Data Analytics - Coggle Diagram
Big Data Analytics
Intelligenza Artificiale
agenti che ricevono input dall'ambiente e operano in
maniera indipendente
Machine Learning
permette ai sistemi di apprendere autonomamente dall'osservazione dei dati
anziché essere programmati con regole e istruzioni (
knowledge-driven
)
le
etichette
dicono alla macchina cosa un dato rappresenta
sono la
variabile target
che l'algoritmo deve imparare a prevedere
Supervised learning
algoritmi di classificazione
alberi decisionali
sequenza di
test
sulle proprietà delle osservazioni
creano classificazioni (nodi foglia) pure, evitando overfitting con criteri di stop
Gini
entropia
missclassification
divide lo spazio in regioni i cui confini sono ortogonali agli assi delle variabili (univariate)
classificatori Bayesiani
calcolano la
probabilità
posteriore che
x
appartenga alla classe
k
ma se gli attributi sono tanti...
si assume che gli attributi siano
condizionalmente indipendenti
(Naive Bayes)
regressione logistica
prevede la categoria di appartenenza utilizzando una
funzione sigma
le
Odds
sono il rapporto tra la probabilità di una classe e l'altra
support vector machines
trova un iperpiano ottimale che massimizza la distanza tra le classi
quando i dati non sono linearmente separabili...
si usano i
Kernel trick
per proiettare i dati in uno spazio a più dimensioni
random forest
creano
alberi decisionali indipendenti
bagging
: dal dataset vengono generati dei campioni e per ognuno viene addestrato un albero
XgBoost
crea
alberi decisionali in sequenza
gli alberi lavorano sui dati concentrandosi sugli errori di quelli precedenti
valutazione di un modello di classificazione
confusion matrix
curva ROC
metriche
Accuracy
Recall
Precision
F1-score
l'algoritmo impara analizzando
dati già etichettati
risolvendo problemi di
classificazione
o di
regressione
K-Nearest Neighbors (
K-NN
)
distanza euclidea o di Manhattan
trova una funzione tra gli input e le variabili target in modo da compiere previsioni corrette su dati nuovi (es. churn)
Unsupervised learning
l'algoritmo impara analizzando
dati non etichettati
in base alla loro struttura
clustering
divide i dati in cluster garantendo...
massima coesione interna*
distanza euclidea, di Manhattan o matrice di contingenza
massima separazione esterna*
k-means
divide un insieme di dati in
k
gruppi utilizzando i centroidi
metodi gerarchici
basati su un dendogramma costruito utilizzando il merging e lo splitting
viene valutato con il
Silhouette Score*
Natural Language Processing
che cos'è
crea algoritmi che permettono alle macchine di capire, interpretare e generare il
linguaggio umano
...trovando una
rappresentazione numerica
efficace di parole, frasi e testi
grazie al...
preprocessing
per rendere i testi idonei agli algoritmi di analisi
normalizzazione
lemmatizzazione
stemming
comprende anche
thesauri, spell e document correction, query misspelling
1 more item...
rimozione stopword
conversione in minuscolo
tokenizzazione
rimozione punteggiatura/numeri
seguendo un percorso
Layer sintattico
come sono fatte le parole e come sono strutturate le frasi
3Q NLP
(IQ, EQ, CQ)
Layer semantico
significato delle parole
Layer pragmatico
significato inteso
tre approcci
approccio simbolico
fa capire alla macchina il linguaggio umano grazie a
regole
scritte da esperti e risorse linguistiche (WordNet)
ma
è impossibile programmare l'intero linguaggi umano in maniera
knowledge-driven
...
Bag of Words
trasforma il testo in numeri concentrandosi su quali parole sono presenti e quante volte compaiono
ignorando
la grammatica e l'ordine
ogni documento è rappresentato come un
vettore
numerico grazie alla
matrice DTM
word presence
word count
ma
porta a
perdita di semantica
e stesso peso alle parole...
TF-IDF
assegna un peso maggiore alle parole frequenti in un documento e rare nel
corpus
trattando ogni parola singolarmente, non c'è una nozione di vicinanza semantica...
Word Embedding
permette ai computer di imparare la
semantica
delle parole...
trasformandole in
vettori numerici
in questo modo
la vicinanza tra i vettori riflette la somiglianza semantica delle parole
Word2Vec
cosa fa
2 more items...
poiché
distrugge la sintassi
della frase...
1 more item...
la similitudine tra le parole è misurata dalla
Cosine Similarity
che cos'è
approccio
induttivo
all'analisi dei dati
affrontandone volume, velocità, varietà e veracità
Explainable AI (XAI)