Análisis exploratorio de datos

Bases

Establecido por Tukey y Cleveland

Busca revelar estructura
y problemas de los datos

Es un enfoque disciplinado,
básico para la modelación

Herramientas

Diagrama de dispersión

Q-Q plot

Boxplot

Series de tiempo

Histograma

Gráfico de frecuencia de datos

Sirve para observar la distribución,
la variabilidad y la tendencia

Indica valores del rango de datos,
cuantiles, media y mediana

Sirve para detectar posible outliers, fuera
del intervalo de confianza del 95%

Gráfica de variables: Var2 vs. Var1

Sirve para ajustar modelos,
correlación e identificar outliers

Comparación entre dos conjuntos de
datos: ideal vs. observado
o dos observados

Busca analizar la normalidad (Gaussiana)
entre ambos conjuntos

Gráfico de una variable vs. tiempo

Sirve para identificar cambios, comportamientos
cíclicos y tendencias temporales y también
en un transecto espacial

Estimación

Boxplot1

Boxplot2

Útil para muestras de distintos tamaños

¿Que información pueden reflejarse en algunas características de la población?

Muestra

Estadística

Población

Inferencia

Parámetros de
estimación

Sesgo

Diferencia entre valor real y valor obtenido,
debido a errores sistemáticos en procesos
de análisis e inferencias

De modelación

De muestreo

Del estimador

Ocurre por la forma en que
se toma la muestra

Individuos no disponibles

Diseño de muestreo

Cuestionario con respuestas falsas/incompletas

Aleatorio

Proporción al tamaño de la población

Diferencia entre esperanza matemática y valor estimado

Depende de las varianzas,

Indica si un modelo omite variables explicativas,
de acuerdo al sesgo obtenido

Una estadística insesgada es una que es correcta en promedio.

Forma de estimar el sesgo es por medio
de la varianza poblacional

sesgo

Varianza

Fuentes de varianza

Error de medición

Modelos explicativos

Inherente

Calidad de los datos

Irreductible y aleatoria

Humano y/o sistemático

Depende de la varianza (mínima)
y del sesgo (razonable)

Dependen de

Datos secundarios

click to edit

Diseño del esperimento

Plan de muestreo

Datos faltantes

Codificados

Censurados

Truncados

Tratamiento

Dentro de un intervalo

La observación se cuenta,
pero se desconoce sus valor

Datos inaccesibles

Estimadores no paramétricos

Validación de datos

Previsiones

Confiabilidad

Coherencia temporal

Cambio metodología experimental

Deterioro de instrumentos

Cierre de fuentes de datos

Establecer rango

Histogramas y correlación de elementos

Consistencia

Espacial y temporal

Tendencias

Nivel de precisión real

Verificación de datos, personas y agencias

Minería de datos

Toma de decisiones

Mejor visión del proceso

Procesos

Definición de proyectos

Métodos multivariados

Automatización del proceso

Tamaño del conjunto de datos

Cuantificar incertidumbres

Realizar inferencias

Análisis de patrones

Transformaciones

Funciones

Estandarizar unidades

Interpretar datos gráficos

Lograr mayor simetría (normalidad)

Detectar posibles outliers

Transf. comunes

N-śeima raiz

Box-Cox

Lognormal, en disitintas bases logarítmicas

Útil con ceros

Box-cox

Iterativa en lambda distinto a cero

Similar a hist. de
log(y)

Importancia de la estadística

Paradigmas estadísticos

Modelación

Pasos

Muestreos donde importa
el tamaño y la representación

Significado: teoría vs. práctica

Componente aleatorio,
con variaciones y errores

Simulaciones por computadora:
problemas complejos
sin solución analítica.

Investigación disciplinada

No es una prueba formal

Bayesiano

Máxima verosimilitud

Frecuentista

Abstracción para mejorar el
entendimiento del problema

Modelación estadística

Diagramas

Modelos (lineal, exp, etc.)

Probabilidad limitante de observar resultados

Condicionamiento a conjeturas
(datos a priori)

P(A|B) P(B) = P(B|A) P(A)

Estimaciones de parámetros con mayor ocurrencia

Establecimiento de ecuación (media) y
derivación respecto a parámetros