Análisis exploratorio de datos
Bases
Establecido por Tukey y Cleveland
Busca revelar estructura
y problemas de los datos
Es un enfoque disciplinado,
básico para la modelación
Herramientas
Diagrama de dispersión
Q-Q plot
Boxplot
Series de tiempo
Histograma
Gráfico de frecuencia de datos
Sirve para observar la distribución,
la variabilidad y la tendencia
Indica valores del rango de datos,
cuantiles, media y mediana
Sirve para detectar posible outliers, fuera
del intervalo de confianza del 95%
Gráfica de variables: Var2 vs. Var1
Sirve para ajustar modelos,
correlación e identificar outliers
Comparación entre dos conjuntos de
datos: ideal vs. observado
o dos observados
Busca analizar la normalidad (Gaussiana)
entre ambos conjuntos
Gráfico de una variable vs. tiempo
Sirve para identificar cambios, comportamientos
cíclicos y tendencias temporales y también
en un transecto espacial
Estimación
Útil para muestras de distintos tamaños
¿Que información pueden reflejarse en algunas características de la población?
Muestra
Estadística
Población
Inferencia
Parámetros de
estimación
Sesgo
Diferencia entre valor real y valor obtenido,
debido a errores sistemáticos en procesos
de análisis e inferencias
De modelación
De muestreo
Del estimador
Ocurre por la forma en que
se toma la muestra
Individuos no disponibles
Diseño de muestreo
Cuestionario con respuestas falsas/incompletas
Aleatorio
Proporción al tamaño de la población
Diferencia entre esperanza matemática y valor estimado
Depende de las varianzas,
Indica si un modelo omite variables explicativas,
de acuerdo al sesgo obtenido
Una estadística insesgada es una que es correcta en promedio.
Forma de estimar el sesgo es por medio
de la varianza poblacional
Varianza
Fuentes de varianza
Error de medición
Modelos explicativos
Inherente
Calidad de los datos
Irreductible y aleatoria
Humano y/o sistemático
Depende de la varianza (mínima)
y del sesgo (razonable)
Dependen de
Datos secundarios
click to edit
Diseño del esperimento
Plan de muestreo
Datos faltantes
Codificados
Censurados
Truncados
Tratamiento
Dentro de un intervalo
La observación se cuenta,
pero se desconoce sus valor
Datos inaccesibles
Estimadores no paramétricos
Validación de datos
Previsiones
Confiabilidad
Coherencia temporal
Cambio metodología experimental
Deterioro de instrumentos
Cierre de fuentes de datos
Establecer rango
Histogramas y correlación de elementos
Consistencia
Espacial y temporal
Tendencias
Nivel de precisión real
Verificación de datos, personas y agencias
Minería de datos
Toma de decisiones
Mejor visión del proceso
Procesos
Definición de proyectos
Métodos multivariados
Automatización del proceso
Tamaño del conjunto de datos
Cuantificar incertidumbres
Realizar inferencias
Análisis de patrones
Transformaciones
Funciones
Estandarizar unidades
Interpretar datos gráficos
Lograr mayor simetría (normalidad)
Detectar posibles outliers
Transf. comunes
N-śeima raiz
Box-Cox
Lognormal, en disitintas bases logarítmicas
Útil con ceros
Iterativa en lambda distinto a cero
Similar a hist. de
log(y)
Importancia de la estadística
Paradigmas estadísticos
Modelación
Pasos
Muestreos donde importa
el tamaño y la representación
Significado: teoría vs. práctica
Componente aleatorio,
con variaciones y errores
Simulaciones por computadora:
problemas complejos
sin solución analítica.
Investigación disciplinada
No es una prueba formal
Bayesiano
Máxima verosimilitud
Frecuentista
Abstracción para mejorar el
entendimiento del problema
Modelación estadística
Diagramas
Modelos (lineal, exp, etc.)
Probabilidad limitante de observar resultados
Condicionamiento a conjeturas
(datos a priori)
P(A|B) P(B) = P(B|A) P(A)
Estimaciones de parámetros con mayor ocurrencia
Establecimiento de ecuación (media) y
derivación respecto a parámetros