Please enable JavaScript.
Coggle requires JavaScript to display documents.
NLP (Rappresentazione parole, Task) - Coggle Diagram
NLP
Rappresentazione parole
Bag Of Word
multiset di parole
mantengo molteplicità
si ignora l'ordine
la size del vettore è il n° totale di parole nel train
enorme
PreProcessing
Stemming & Lemmatizzazione
Rimuovere Stop words
Tokenizzazione
Bow-representation
One Hot Encoding
assegno numero a parole
passo a deep learning
output
problema
dimensionalità
sparsità
non comprensione di similitudini
Co-Occurences
conto quante volte parola appare vicina ad altre parole
ancora problemi di sparsità e dimensionalità
Word Embeddings
rappresentazione vettoriale di ogni parola
$$P(w_o | w_c) \propto w_o^t w_c $$
dot product
WORD2VEC
vettori parole casuali sistemati per massimizzare probabilità
self supervised training
GloVe
usa informazioni sia globali che locali
abbandonati con l'utilizzo dei transformers
Language Modellings
si considerano solo le parole a sinistra
passato per predire il presente
FORECASTING
N GRAM MODELS
solo le ultime n words contano
si ottengono frasi sintatticamente corrette, ma senza senso
manca una semantica che collega tutto
Windows Based Neural LM
ML al posto di contare
si continua ad ignorare le cose fuori dalla finestra
problema dimensione finestra
RNN Language Modelling
tra input e hidden, word embeddings
meglio delle n-gram, ma ancora troppo limitate
Beam Search
campiono k token
calcolo probabilità
per ognuna di queste genero k token
le scelgo le migliori ad ogni passo
Neural Machine Traslation
encoder= semantica
decoder= generare testi
Attention Mechanism
calcolo score importanza token
ad ogni istante possiamo accedere a diverse parti dell'input
rappresentazione input dinamica
$$ e_i = h_i^T h_t $$
similarità tra decoder hidden state e l'i-th hidden state
Attention distribution
$$ Att(q,(k_i,v_i)_{i=1}^N)=\sum_{i=1}^N softmax(q^T k_i)v_i $$
base dei
TRANFORMERS
Vantaggi
migliora NMT performance
human-like model
risolve il bottleneck problem
aiuta il vanishing gradient problem
permette interpretabilità
Transformers
primo modello pure attention
self attention (query, chiave, valore)
no recurrence
evoluzione di GNMT
SotA inNMT, NLP in generale
usa multi-head attention
usa molteplici layers
usa encoding posizionale per ricordare l'oridne
Vantaggi
n° operazioni non parallelizzabili non aumenta la lunghezza della sequenza
ogni parola interagisce con l'altra
sparisce il problema dell'esplosione del gradiente
Cons
non c'è rappresentazione di concetti
non definibile intelligente
facile che abbia allucinazioni
masked self attention
si tolgono tutti i collegamenti dal futuro al passato
Task
Text Processing & Morphological analysis
Syntatic analysis
Lexical & Relation semantic
Higher level NLP