Please enable JavaScript.
Coggle requires JavaScript to display documents.
Preprocesamiento y preparación de los datos Ciencia de Datos - Coggle…
Preprocesamiento y
preparación de los datos
Ciencia de Datos
Almacenes de Datos
Almacén de Datos vs BD Tradicionales:
Las BD tradicionales (OLTP) se optimizan para operaciones del día a día (lectura/escritura rápida).
Arquitectura de un Almacén de Datos:
Se compone de tablas de hechos (datos numéricos medibles o transacciones) y tablas de dimensiones.
Modelo multidimensional:
Esquema en Estrella: Una tabla de hechos central conectada directamente a tablas de dimensiones.
Datamarts:
Subconjuntos de datos orientados a un área específica de la organización (ej. ventas o finanzas). Su unión forma una "constelación" habitualmente unida por la dimensión tiempo.
Preprocesamiento de Datos
Problemas comunes en los datos crudos:
Presencia de datos faltantes (nulos), inconsistentes (con errores o contradicciones), redundantes (duplicados) o en formatos no adecuados.
Etapas del Preprocesamiento de Datos
Limpieza de datos:
Datos faltantes: Se solucionan eliminando registros o mediante imputación (rellenar usando media, mediana, moda o algoritmos como KNN).
Integración de datos
: Combinación de datos de múltiples fuentes resolviendo conflictos de formatos y unificándolos mediante llaves primarias (IDs).
Transformación de datos:
Normalización, Discretización y Generación de atributo
Reducción de datos:
Reducir el volumen de datos mediante la selección de los atributos más importantes (correlación), muestreo de registros, o compresión de dimensionalidad usando algoritmos como PCA (Análisis de Componentes Principales).
Buenas prácticas
Documentación:
Registrar detalladamente cada transformación para garantizar la reproducibilidad.
Validación:
Comprobar la calidad de los datos al finalizar cada etapa del proceso.
Automatización:
Diseñar flujos de trabajo repetibles (pipelines) utilizando herramientas especializadas
Retos y Consideraciones
Requiere balancear el costo en tiempo/recursos frente a la calidad obtenida.
Su impacto es definitivo:
un mal preprocesamiento genera conclusiones erróneas ("si entra basura, sale basura").
No hay una receta única; las técnicas deben adaptarse por completo al tipo de problema y de datos.