Please enable JavaScript.
Coggle requires JavaScript to display documents.
Modelos de Minería de Datos (Introducción Estadística (Recolección de…
Modelos de Minería de Datos
Introducción Estadística
Estructuras de Probabilidad
Función de Probabilidad
Definida por unos parámetros
#
Tipos
Uniforme
Parámetros
a
b
Normal
Parámetros
Mu
Sigma
Recolección de Datos
Experimento
Control total sobre la recolección
Se busca
demostración causa/efecto
Optimización
Llevados a cabo off-line
Muestreo
Representativo
Reproducir fielmente la realidad
Menoscabada por los Sesgos
Sesgo de selección
Sesgo de medición
Sesgo (error) de muestreo
Difícil de alcanzar
Aletoriedad puede ayudar
Muestra estratificada
Conglomerado
Muestra simple
Experimento
.
Información inaccesible o inmanejable
Imposibilidad de experimentar
Necesidad de generar validaciones
Censo Total / Población Censurada
Censo Total
Se tiene toda la información relevante
Población censurada
Es el más común
Se tiene toda la información de un subgrupo de variables en un periodo de tiempo
Muestra NO aleatoria
Estimación
de lo muestral a lo poblacional
Error estándar (promedio)
Intervalos de Confianza
Confianza
Probabilidad de que el parámetro esté en el intervalo
Error máximo
(margen de error)
Dado un nivel de confianza, la máxima posible diferencia entre el estadístico y el parámetro
Para la Media (Mu)
Sigma conocida
(n grande)
Prueba Z
Tamaño de la Muestra
sigma desconocida
Xbarra es normal
Prueba T
Xbarra no es normal
Wilcoxon
Rangos y Signos
Pruebas de Hipótesis
H1 es Verdad
No se rechaza H0
Error tipo II
P(error tipo II) = beta
Riesgo de no detectar H1 verdadero
Decisión Incorrecta
Se rechaza H0
Potencia = 1 - beta
Capacidad de detectar H1 verdadero
Decisión correcta
H0 es verdad
Se rechaza H0
P(error tipo I) = alfa
Riesgo de no detectar H0 verdadero
Decisión incorrecta
Error tipo I
No se rechaza H0
Confianza = 1 - alfa
Capacidad de detectar H0 Verdadero
Decisión Correcta
Significancia
nivel de significancia
alfa
usualmente 5%
valor p
Probabilidad de que H0 sea verdad
valor p < alfa
Si
Rechazo H0
No
No rechazo H0
Diferencia de Medias
Datos Independientes
Datos Normales
Igualdad de varianzas
Prueba T independientes
Diferencia de varianzas
Prueba T independientes
Datos no Normales
Prueba U
Datos Dependientes
Datos Normales
Prueba t relacionadas
Datos no normales
Prueba rangos y signos
Mineria de Datos
Exploración y análisis de grandes cantidades de datos para descubrir patrones y reglas significativas
Tareas
Clasificación
Binaria
Genérica
Estimación o regresión
Valor continuo asociado a una variable
Ej: Estimar gasto familiar
Predicción o forecasting
Involucra la variable de tiempo
Agrupamiento
Similitud
Clustering
Afinidad
Cosas que ocurren en el mismo momento
Modelos
Tipos
No Supervisado
Se quieren comprender los datos de entrada
No se tiene
Variable dependiente
Casos resueltos
Semi-supervisado
Mezcla de los dos anteriores
Supervisado
Se tienen valores resueltos
valores etiqutados
Una variable dependiente que será descrita por un conjunto de variables independientes
Definición
Abstracción de una realidad o situación compleja
Retos asociados a su construcción
Valores faltantes (nulos)
Valores incorrectos
Datos irrelevantes
Alta dimensionalidad
Volumen de los datos
Overfitting
Outliers
Evaluación
métricas de calidad de los datos
Evolución en el tiempo