Análisis exploratorio de datos
Representación
Histograma
Diagrama de caja
Diagrama de dispersión
Series de tiempo
Cuantil-Cuantil
Sesgo
Varianza
Fuentes de varianza
Datos Faltantes
Validación de datos
Data Mining
Transformación de datos.
Paradigmas estadísticos
Gráfica de un conjunto de datos que consiste en una línea que se extiende desde el valor mínimo hasta el valor máximo, así con las líneas trazadas en el primer cuantil (Q1), la mediana y tercer cuantil.
Es una gráfica de datos apareados (x, y), con un eje x horizontal y un eje y vertical.
El patrón de los puntos graficados suele ser útil para determinar si hay alguna relación entre las dos variables
Se pueden representar varias distribuciones al mismo tiempo
Posee un intervalo de confianza del 95%
El gráfico Q-Q ayuda a comparar gráficamente dos distribuciones (Se compara los cuantiles de dos distribuciones).
Si la distribución de nuestros datos es normal, el gráfico será aproximadamente una línea recta.
Los datos de series de tiempo son aquellos que se reúnen en diferentes momentos.
Es una gráfica de barras en donde la escala horizontal representa clases de valores de datos y la escala vertical representa frecuencias
Error sistemático o desviaciones en los
resultados o inferencias
Diferencia entre el valor real y el valor obtenido
Tipos
Muestreo
Modelación
Estimador
Se produce por la distorsión debido a la forma en que se selecciona la muestra
Elegir un modelo inapropiado puede sesgar significativamente las estimaciones del modelo.
La diferencia entre su esperanza matemática y el valor numérico del parámetro que estima
Puede ser inherente a los datos
Se pueden presentar errores en la medición ya sea por factor humano o por experimento.
La calidad en la que se presentan los datos
Datos secundarios (Que recibieron un tratamiento previo)
Por el diseño experimental
Por el muestreo realizado
Modelo
Truncamiento
Es un conjunto de observaciones donde se detecta una observación o evento X
Censurados
Solo si es al menos tan grande como algún valor a, llamado truncamiento izquierdo
Cuando es menor o igual que algún valor b, llamado truncamiento derecho
Truncamiento doble
Similar a la definición de truncamiento, sólo que
la observación se cuenta aunque su valor sea desconocido.
Procedimiento
Establecer un rango permitido para cada elemento de datos continuo.
Si hay un nuevo elemento, se tiene que verificar que sean consistente con los elementos existentes
Graficar los datos
Examinar la correlación entre los datos y si son consistentes con la teoría
Verificar si el histograma tiene un comportamiento de distribución conocida
Se refiere al proceso que intenta descubrir patrones en grandes volúmenes de datos.
Proceso
Extraer información de un conjunto de datos y transformarla en una estructura comprensible
Selección de datos
Análisis de propiedades de datos
Transformación del conjunto de datos de entrada
Seleccionar y aplicar la técnica de minería de datos
Extracción del conocimiento
Interpretación y evaluación de datos
Se refiere a la variables a estudiar
Comportamiento de datos (e.g. Histograma)
Prepocesamiento de datos
Construye un modelo predictivo, de clasificación o segmentación
Modelo de comportamiento
Patrones de comportamiento de las variables
Mejorar la suposiciones de algunas técnicas estadísticas, normalidad, linealidad, homocedasticidad, etc.
Ayuda a detectar valores atípicos
Frecuentista
Máxima verosimilitud
Bayesiano
Define la probabilidad como el resultado limitante de observar resultados en un gran número de ensayos
Selecciona las estimaciones de los parámetros que tienen más probabilidades de ocurrir dados los datos
Ecuación de datos y parámetros
Se basa en datos observados
Se basa en el teorema de Bayes