Please enable JavaScript.
Coggle requires JavaScript to display documents.
Tipología y formato de los datos - Coggle Diagram
Tipología y formato de los datos
sintaxis y semántica de los datos estructurados
interpretar los datos como información comprensible para el ser humano
sintaxis
datos columnares
tabla
esqeuma
tecnologías Big Data
NoSQL
HBase
Mongo
acceso columnar
cassandra
datos no columnares
XML
JSON
Los datos no estructurados
tipos
Textuales
imagen
audio
video
problemas
ambigüedad
ej: polisemia de las palabras
discrepancia en la interpretación entre seres humanos
solucion
consistencia entre indexadores
contabilizar el numero de palabras que tienen relacion con respecto al total de palabras
ej: jaguar selva o jaguar coche
Tipos de variables
numéricas
discretas
continuas
discretización o binning
convertir variable numérica a intervalos
histograma
categóricas
valores definidos y limitados
nominales
escalares
Operaciones con variables
cadenas de texto
concatenación, segmentación
boolean
AND, OR, NOT...
numéticas
opetaciones algebraicas
cast
fechas
Relaciones entre variables
variable objetivo
variables independientes
correlacion
Visión 1
correlacion entre 2 variables independientes
tiende a introducir problemas = eliminar 1 de las 2
impiden a otras aportar información
Visión 2
la correlacion entre variable independiente y variable dependiente es positiva porque indica que tiene capacidad predictiva = mantener esa variable
relaciones entre tablas
claves de tabla
identificadores
para relacionar con otras tablas