Please enable JavaScript.
Coggle requires JavaScript to display documents.
Comprendre les modèles d’encodeur en NLP - Coggle Diagram
Comprendre les modèles d’encodeur en NLP
Lab NLP – Encodeurs (BERT, DistilBERT)
Objectif
Comprendre modèles encodeurs
Observer représentations vectorielles
Tokenisation
Subword (WordPiece)
Tokens spéciaux ([CLS], [SEP])
Input_ids + attention_mask
Modèle DistilBERT
Output : last_hidden_state
Shape : [batch, seq, 768]
Représentation vectorielle par token
Token [CLS]
Résumé de la phrase
Utile pour classification
Masquage (MLM)
Prédiction de token manquant
Base du pré-entraînement BERT
Visualisation
Vecteurs activés par token
Affichage ID/token
Proximité sémantique (PCA/TSNE)