Please enable JavaScript.
Coggle requires JavaScript to display documents.
Minería de datos, Herramientas de visualización, problemas de…
Minería de datos
KDD
Descubrir nuevos patrones validos
Contrastable con la realidad
Potencialmente útiles
Relación con el objetivo
Comprensibles
para el usuario
Encontrar modelos comprensibles a partir de gran volúmenes de datos
Modelo = descripción articulada y abstracta de la realidad
Objetivos
Tipo de proyecto
1 - similitudes y agrupar
Clustering
modelos asociativos
poca información
2 - Clasificar objetos
mayor información
diferencias entre un grupo y otro
características peculiares de los grupos
Arboles de decisión
Redes neuronales
deep learning
reglas de clasificación
lógica inductiva
3 - Predecir
Conocimiento para predecir lo que interese
árboles de decisión
regresión
series temporales
4 - Describir
asociaciones significativas o causales entre variables
redes bayesianas
reglas de asociación
5 - Explicar
razones porque se ha producido un comportamiento
redes bayesianas
aportar un 1er nivel de interpretación
extracción de relaciones en bruto
1- Definición de tarea
aproximar objetivo a una tarea genérica
Decidir el modelo que se necesita
Seleccionar el modelo para construirlo
sistema de información y entorno de explotación
2- selección de datos
3- Preparación de datos
limpieza - transformación - reducción
limpieza
datos incompletos
utilizar promedio en valores numéricos
datos redundantes
datos incorrectos o inconsistentes
texto libre
Errores de transcripción
datos envejecidos
no han sido actualizados de la manera correcta
variaciones en referencia de los mismos conceptos
datos sesgados
Transformación
Numéricos a categóricos
otras
simplificación de valores
agrupación de valores continuos: franjas
normalización de datos
adición de una etiqueta - clase a la que pertenece
Expansión de un atributo - dummy variables
derivación de datos
fusión de datos o enriquecimiento
categóricos a numéricos
reducción
número de registros por tratar
evitar sesgar los datos
numero de atributos
selección de atributos
calidad de datos suficiente
cantidad de datos necesarios
datos en forma adecuada
4- minería de datos
base de datos
proceso de búsqueda
función de evaluación
conocimiento a priori
tipo de datos
utilizan observaciones
no supervisados
discriminan observaciones
supervisados
proceso de construcción
Método batch
Método incremental
Métodos interactivos
medida de calidad: error
5- evaluación e interpretación
6- integración
Descubrimiento de conocimiento a partir de datos
Herramientas de visualización
obtener conocimiento mediante la inspección visual
útiles en fase de preparación de datos y en interpretación de resultados
ayudan a conocer mejor los datos
se complementan con estadística descriptiva
Histogramas
Diagramas de dispersión
diagramas de cajas
problemas de conceptualización
obtención de mínimos locales
modelos que generalizan mal, son demasiado específicos
envejecimiento de los modelos
Conocimiento
información
Clasificada
interpretada
revisada
aplicada
Valor para el usuario
'+ relación con objetivos = conocimiento
Datos
Materia prima
'+ significado = información