Please enable JavaScript.
Coggle requires JavaScript to display documents.
T7.PLN.ModelosLenguaje - Coggle Diagram
T7.PLN.ModelosLenguaje
LM
Importancia del Corpus de Entrenamiento: los n-gramas se calculan según estos datos, su importancia se debe al género del texto y la variedad y dialecto de su corpus
Evaluación de modelos
Extrínseca: Se evalúa el rendimiento del LM en una aplicación específica, rendimiento real del sistema, pero es costosa. Intrínseca: n evaluar los resultados del LM utilizando un conjunto de datos del corpus, datos de entrenamiento, prueba y validación que permite el ajuste.
Métrica de perplejidad: mide la probabilidad inversa sobre los datos de prueba, normalizada por el número de palabras. Se calcula con la regla de la cadena. Menor perplejidad mejor.
Problemas de dispersión: Limitaciones del conjunto de datos de entrenamiento. Impacto del tamaño del N-Grama, mayor longitud = mayor coherencia, pero menor probabilidad de haber sido contempladas
Palabras desconocidas: son pabras excluidas del vocabulario que se mide mediante el ratio de OOV. Mediante una lista se compara la existencia, caso contario se les asigna un token "UNK" y se procede a calcular la probabilidad para modelar este tipo de palabras.
N-GRAMAS
calcular la probabilidad de que una palabra siga a una secuencia dada mediante probabilidad condicionada, limitaciones de tamaño a secuencias largas, pero se puede usar la regla de la cadena
Tipos: Bigramas solo se considera el elemento inmediatamente anterior para calcular probabilidades MARKOV. Trigramas y más: donde se consideran las dos o más palabras anteriores
las probabilidades condicionadas se calculan usando el método de máxima verosimilitud, dividiendo el número de ocurrencias del n-grama considerado por el número total de ocurrencias de la secuencia previa
Técnicas de suavizado
Definición: (smoothing) que asignan un pequeño valor de probabilidad a eventos no vistos, permitiendo así la generación de secuencias en contextos diferentes.
Tipos
Suavizado Add - K: permite incrementar el conteo de ocurrencias de palabras en un valor k especificado, en lugar de solo 1. K es un parámetro definido previamente
Suavizado de Laplace: Se analizan todas las combinaciones posibles de n-gramas en los datos de entrenamiento. Se incrementan en 1 todas las ocurrencias de n-gramas (no hay 0). Luego se recalcula las probabilidades, por tanto, reduce la contribución relativa de aquellos que ya existían en el corpus. Esto se traduce en un "descuento" en el valor utilizado para calcular las probabilidades finales.
Definición: modelos que se basan en el conocimiento estadístico de una lengua para predecir la probabilidad de que una palabra siga a una secuencia de palabras. Se entrenan con corpus lingüisticos. Aplicaciones: reconocimiento de voz y traducción automática.
-