Please enable JavaScript.
Coggle requires JavaScript to display documents.
Etapas en la preparación del dato - Coggle Diagram
Etapas en la preparación del dato
8 etapas
Acceso a los datos
localización
asegurar la fuente de suministro de los datos
garantizar acceso adecuado
aspectos legales
conectividad
Auditoría de los datos
evaluar
fuente del suministro
cantidad y calidad de los datos
razón justificada para que los datos tengan el potencial de proporcionar la solución requerida para el problema
Mejora y enriquecimiento de los datos
si los datos no son del todo esperanzadores
puede ser posible complementar el dataset de diversas maneras
añadir datos
Buscar el sesgo del muestreo
muestreo
coger conjunto de datos pequeño para descubrir
con exactitud las relaciones
corregir sesgos
evitar modelos erróneos e inaplicables
Determinar la estructura de los datos
relaciones entre variables
formas de la estructura
micro
relaciones de las variables capturadas
estructura fina
super
plataforma habilitada para captar los datos y formar el dataset
formato
forma de almacenaje
macro
granularidad
detalles de una medición
Construcción de la PIE
5 pasos
determinar posibilidad de enriquecer o ajustar datos
expectativas razonables
validez de los datos
relevancia para el problema
muestras representativas
determinar cuantos datos se necesitan para la modelización
Valores categóricos
conservar el orden natural de los valores categóricos en la medida de lo posible
importante tener variables númericas para que los valores estén anclados a fenómenos del mundo real
Normalización
Valores faltantes y vacíos
pseudocategoría que tiene un valor único para cada patrón de valores perdidos
series de desplazamiento
ej: series temporales
reducción de la anchura
anchura = columnas
explosión combinatoria
demasiadas columnas inutiles
profundidad = filas
reducción de profundidad
no muy común
Colectores bien y mal formados
fin de la preparación de datos
inicio del análisis
determinar si hay problemas que se eliminen mediante manipulación
dar al minero información para modelización
Análisis de los datos
mapa de las propiedades del colector
Modelización de los datos
Resultado final
objetivo
transformar los conjuntos de datos para que su contenido informativo esté mejor expuesto a la herramienta de minería
mejoras del proceso
reduce tasa de error del modelo
reduce tiempo de construcción
aporta enorme visión de los datos