Please enable JavaScript.
Coggle requires JavaScript to display documents.
NLP-2-Texto como dato - Coggle Diagram
NLP-2-Texto como dato
Normalización de textos
2º Eliminar stopwords: Remover palabras comunes y poco informativas isemánticamente incluidas en un diccionario para cada idioma.
3/4º mayúsculas: convertir las mayúsculas de las palabras a minúsculas, excepto nombres propios o NER
1º Tokenización: Descompone una cadena de texto en términos o componentes individuales. separar el texto en palabras basándose en espacios. Resultado: lista ordenada de palabras del texto.
-
3/4º símbolos: caracteres especiales no alfanuméricos, objetivo es homogenizar las representaciones de los tokens y evitar perder información relevante.
Objetos de texto
Tesauro: diccionario con listas de significados de palabras y relaciones entre ellas. Hiponimia, hiperonimia, sinosimia, antonimia, meronimia y holonimia.
Corpus lingüistico:Colección de textos representativos de una lengua. Hay varios tipos: corpus textuales y orales. MIllones de palabras.
Lexicón: diccionario morfológico, repertorio de lista de morfemas con su definición, ejemplos y etimología de palabras
Base de datos de relaciones léxicas: generalización de los tesauros, como un diccionario que recoge conocimiento sobre diversas relaciones semánticas entre sentidos de palabras y las relaciones entre esos sentidos
Diccionario: repertorio oredenado alfabéticamente continen definiciones, descripción detallada t comprensible de los significados de una palabra
Elementos
-
Morfema gramatical: unidad mínima de una palabra que expresa un significado gramatical. Género, número, etc
Morgología: estudia la forma en que las palabras se descomponen en partes indivisibles, las cuales tienen un significado.
Lexema: morfema que conforma la raíz de la palabra y que es la mínima unidad con significado léxico y principal de la palabra
-
Principio de composición
Teoría NLP: el significado general de un texto se puede obtener desde el significado de sus elementos que lo constituyen. No admite ambiguedad ni frases hechas
Aspecto secuencial
Se atiende las palabras previas o posteriores (de manera bidireccional) se puede construir mejor el significado global desde los elementos individuales, evitando así ambigüedades de significado.
Lematización: en simplificar las representaciones de las palabras a través de sus lemas, es decir, sus formas base con significado propio usa diccionarios de equivalencias entre palabras y lemas.
Stemming: simplificar las representaciones de las palabras a través de sus lexemas. Hay varios algoritmos como SnowBall y Stemmball.