Análisis exploratorio de datos

Representación

Histograma

Diagrama de caja

Diagrama de dispersión

Series de tiempo

Cuantil-Cuantil

Sesgo

Varianza

Fuentes de varianza

Datos Faltantes

Validación de datos

Data Mining

Transformación de datos.

Paradigmas estadísticos

Gráfica de un conjunto de datos que consiste en una línea que se extiende desde el valor mínimo hasta el valor máximo, así con las líneas trazadas en el primer cuantil (Q1), la mediana y tercer cuantil.

image

Es una gráfica de datos apareados (x, y), con un eje x horizontal y un eje y vertical.

El patrón de los puntos graficados suele ser útil para determinar si hay alguna relación entre las dos variables

image

Se pueden representar varias distribuciones al mismo tiempo

Posee un intervalo de confianza del 95%

El gráfico Q-Q ayuda a comparar gráficamente dos distribuciones (Se compara los cuantiles de dos distribuciones).

Si la distribución de nuestros datos es normal, el gráfico será aproximadamente una línea recta.

image

Los datos de series de tiempo son aquellos que se reúnen en diferentes momentos.

image

Es una gráfica de barras en donde la escala horizontal representa clases de valores de datos y la escala vertical representa frecuencias

Error sistemático o desviaciones en los
resultados o inferencias

Diferencia entre el valor real y el valor obtenido

Tipos

Muestreo

Modelación

Estimador

Se produce por la distorsión debido a la forma en que se selecciona la muestra


Elegir un modelo inapropiado puede sesgar significativamente las estimaciones del modelo.

La diferencia entre su esperanza matemática y el valor numérico del parámetro que estima

image

Puede ser inherente a los datos

Se pueden presentar errores en la medición ya sea por factor humano o por experimento.

La calidad en la que se presentan los datos

Datos secundarios (Que recibieron un tratamiento previo)

Por el diseño experimental

Por el muestreo realizado

Modelo

Truncamiento

Es un conjunto de observaciones donde se detecta una observación o evento X

Censurados

Solo si es al menos tan grande como algún valor a, llamado truncamiento izquierdo


Cuando es menor o igual que algún valor b, llamado truncamiento derecho

Truncamiento doble

image

Similar a la definición de truncamiento, sólo que
la observación se cuenta aunque su valor sea desconocido.

Procedimiento


Establecer un rango permitido para cada elemento de datos continuo.

Si hay un nuevo elemento, se tiene que verificar que sean consistente con los elementos existentes

Graficar los datos

Examinar la correlación entre los datos y si son consistentes con la teoría

Verificar si el histograma tiene un comportamiento de distribución conocida

Se refiere al proceso que intenta descubrir patrones en grandes volúmenes de datos.

Proceso

Extraer información de un conjunto de datos y transformarla en una estructura comprensible

Selección de datos

Análisis de propiedades de datos

Transformación del conjunto de datos de entrada

Seleccionar y aplicar la técnica de minería de datos

Extracción del conocimiento

Interpretación y evaluación de datos

Se refiere a la variables a estudiar

Comportamiento de datos (e.g. Histograma)

Prepocesamiento de datos

Construye un modelo predictivo, de clasificación o segmentación

Modelo de comportamiento

Patrones de comportamiento de las variables

Mejorar la suposiciones de algunas técnicas estadísticas, normalidad, linealidad, homocedasticidad, etc.

Ayuda a detectar valores atípicos

image

Frecuentista

Máxima verosimilitud

Bayesiano

Define la probabilidad como el resultado limitante de observar resultados en un gran número de ensayos

Selecciona las estimaciones de los parámetros que tienen más probabilidades de ocurrir dados los datos

Ecuación de datos y parámetros

Se basa en datos observados

Se basa en el teorema de Bayes

image