Please enable JavaScript.
Coggle requires JavaScript to display documents.
Análisis exploratorio de datos (Herramientas (Q-Q plot (Comparación entre…
Análisis exploratorio de datos
Bases
Establecido por Tukey y Cleveland
Busca revelar estructura
y problemas de los datos
Es un enfoque disciplinado,
básico para la modelación
Herramientas
Diagrama de dispersión
Gráfica de variables: Var2 vs. Var1
Sirve para ajustar modelos,
correlación e identificar outliers
Q-Q plot
Comparación entre dos conjuntos de
datos: ideal vs. observado
o dos observados
Busca analizar la normalidad (Gaussiana)
entre ambos conjuntos
Útil para muestras de distintos tamaños
Boxplot
Indica valores del rango de datos,
cuantiles, media y mediana
Sirve para detectar posible outliers, fuera
del intervalo de confianza del 95%
Series de tiempo
Gráfico de una variable vs. tiempo
Sirve para identificar cambios, comportamientos
cíclicos y tendencias temporales y también
en un transecto espacial
Histograma
Gráfico de frecuencia de datos
Sirve para observar la distribución,
la variabilidad y la tendencia
Estimación
¿Que información pueden reflejarse en algunas características de la población?
Muestra
Estadística
Población
Inferencia
Parámetros de
estimación
Sesgo
Diferencia entre valor real y valor obtenido,
debido a errores sistemáticos en procesos
de análisis e inferencias
De modelación
Depende de las varianzas,
Indica si un modelo omite variables explicativas,
de acuerdo al sesgo obtenido
Una estadística insesgada es una que es correcta en promedio.
Forma de estimar el sesgo es por medio
de la varianza poblacional
De muestreo
Ocurre por la forma en que
se toma la muestra
Individuos no disponibles
Diseño de muestreo
Aleatorio
Proporción al tamaño de la población
Cuestionario con respuestas falsas/incompletas
Del estimador
Diferencia entre esperanza matemática y valor estimado
Varianza
Fuentes de varianza
Error de medición
Humano y/o sistemático
Modelos explicativos
Depende de la varianza (mínima)
y del sesgo (razonable)
Inherente
Irreductible y aleatoria
Calidad de los datos
Dependen de
Datos secundarios
Plan de muestreo
Diseño del esperimento
Datos faltantes
Codificados
Datos inaccesibles
Censurados
La observación se cuenta,
pero se desconoce sus valor
Truncados
Dentro de un intervalo
Tratamiento
Estimadores no paramétricos
Validación de datos
Previsiones
Establecer rango
Histogramas y correlación de elementos
Consistencia
Espacial y temporal
Tendencias
Confiabilidad
Nivel de precisión real
Verificación de datos, personas y agencias
Coherencia temporal
Cambio metodología experimental
Deterioro de instrumentos
Cierre de fuentes de datos
Minería de datos
Toma de decisiones
Cuantificar incertidumbres
Realizar inferencias
Análisis de patrones
Mejor visión del proceso
Automatización del proceso
Tamaño del conjunto de datos
Procesos
Definición de proyectos
Métodos multivariados
Transformaciones
Funciones
Estandarizar unidades
Interpretar datos gráficos
Lograr mayor simetría (normalidad)
Detectar posibles outliers
Transf. comunes
N-śeima raiz
Útil con ceros
Box-Cox
Iterativa en lambda distinto a cero
Similar a hist. de
log(y)
Lognormal, en disitintas bases logarítmicas
Importancia de la estadística
Paradigmas estadísticos
Bayesiano
Condicionamiento a conjeturas
(datos a priori)
P(A|B) P(B) = P(B|A) P(A)
Máxima verosimilitud
Estimaciones de parámetros con mayor ocurrencia
Establecimiento de ecuación (media) y
derivación respecto a parámetros
Frecuentista
Probabilidad limitante de observar resultados
Modelación
Abstracción para mejorar el
entendimiento del problema
Modelación estadística
Diagramas
Modelos (lineal, exp, etc.)
Pasos
Muestreos donde importa
el tamaño y la representación
Significado: teoría vs. práctica
Componente aleatorio,
con variaciones y errores
Simulaciones por computadora:
problemas complejos
sin solución analítica.
No es una prueba formal
Investigación disciplinada