Please enable JavaScript.
Coggle requires JavaScript to display documents.
État de l'art - Coggle Diagram
État de l'art
Simplification de textes
Métriques
BLEU
comparaison des outputs avec une ou plusieurs références, moyenne de précision de n-gram + pénalité de brévité
Les + : mesure la similarité avec les références
Les - : peut pénaliser les différences de vocabulaire donc la simplicité, ignore +/- la structure, nécessite des références
SARI
mesure la qualité des mots ajoutés, supprimés ou conservés : favorise les mots qui sont dans les ref mais pas l’input
Les + : mesure la simplicité syntaxique
Les - : ignore la structure, nécessite des références, plus y a de refs (de qualité) plus c’est efficace
Flesch Reading Ease / Flesch–Kincaid grade level
calcul de simplicité & lisibilité de phrase via longueur des mots & de phrases
Les + : mesure la simplicité structurelle
Les – : mesure uniquement la facilité à lire par nombre de mots & syllabes
SAMSA
utilise UCCA (parseur sémantique) pour calculer les structures sémantiques, puis s’assure que ces structures sont simples
Les + :UCCA décompose les phrases en « scènes », donc on s’assure que le sens est conservé, avec une structure plus simple
Les - : basé sur UCCA, peut nécessiter un réentrainement, vocabulaire pas forcément adapté…
METEOR
Moyenne harmonique de la précision et du rappel des unigrammes, utilise les racines & synonymes si pas de match exact
Les + : plus tolérant au niveau du vocabulaire
Les - : dépends du stemmer & dictionnaire de synonymes, ignore la structure, nécessite des références
Simple QE
régression avec BERT pour calculer un score de Fluency, Adequacy & Complexity
Les + : plus corrélé au jugement humain que les autres, mesure les trois scores contrairement aux autres
Les - : basé sur BERT, nécessite un entrainement pour le français, vocabulaire pas forcément complet, tokens max…
Jugement humain
Les + : métrique la plus complète pour l’instant, personnalisable
Les - : très couteux et impossible à reproduire à 100%
ROUGE
basé sur le rappel, calcul plusieurs valeurs comme le rappel des n-grams ou la séquence commune la plus longue
Les + : similarité avec références, plusieurs métriques en une
Les - : peut pénaliser les différences de vocabulaire, nécessite des références
-
Jeux de données
Français uniquement
OrangeSum
33k paires d’articles & titres, 24k paires d’articles & résumés en français
-
-