Please enable JavaScript.
Coggle requires JavaScript to display documents.
Análisis exploratorio de datos (Representación (Diagrama de caja (Gráfica…
Análisis exploratorio de datos
Representación
Histograma
Es una gráfica de barras en donde la escala horizontal representa clases de valores de datos y la escala vertical representa frecuencias
Diagrama de caja
Gráfica de un conjunto de datos que consiste en una línea que se extiende desde el valor mínimo hasta el valor máximo, así con las líneas trazadas en el primer cuantil (Q1), la mediana y tercer cuantil.
Se pueden representar varias distribuciones al mismo tiempo
Posee un intervalo de confianza del 95%
Diagrama de dispersión
Es una gráfica de datos apareados (x, y), con un eje x horizontal y un eje y vertical.
El patrón de los puntos graficados suele ser útil para determinar si hay alguna relación entre las dos variables
Series de tiempo
Los datos de series de tiempo son aquellos que se reúnen en diferentes momentos.
Cuantil-Cuantil
El gráfico Q-Q ayuda a comparar gráficamente dos distribuciones (Se compara los cuantiles de dos distribuciones).
Si la distribución de nuestros datos es normal, el gráfico será aproximadamente una línea recta.
Sesgo
Error sistemático o desviaciones en los
resultados o inferencias
Diferencia entre el valor real y el valor obtenido
Tipos
Muestreo
Se produce por la distorsión debido a la forma en que se selecciona la muestra
Modelación
Elegir un modelo inapropiado puede sesgar significativamente las estimaciones del modelo.
Estimador
La diferencia entre su esperanza matemática y el valor numérico del parámetro que estima
Varianza
Fuentes de varianza
Puede ser inherente a los datos
Se pueden presentar errores en la medición ya sea por factor humano o por experimento.
La calidad en la que se presentan los datos
Datos secundarios (Que recibieron un tratamiento previo)
Por el diseño experimental
Por el muestreo realizado
Modelo
Datos Faltantes
Truncamiento
Es un conjunto de observaciones donde se detecta una observación o evento X
Solo si es al menos tan grande como algún valor
a
, llamado truncamiento izquierdo
Cuando es menor o igual que algún valor
b
, llamado truncamiento derecho
Truncamiento doble
Censurados
Similar a la definición de truncamiento, sólo que
la observación se cuenta aunque su valor sea desconocido.
Validación de datos
Procedimiento
Establecer un rango permitido para cada elemento de datos continuo.
Si hay un nuevo elemento, se tiene que verificar que sean consistente con los elementos existentes
Graficar los datos
Examinar la correlación entre los datos y si son consistentes con la teoría
Verificar si el histograma tiene un comportamiento de distribución conocida
Data Mining
Se refiere al proceso que intenta descubrir patrones en grandes volúmenes de datos.
Proceso
Extraer información de un conjunto de datos y transformarla en una estructura comprensible
Selección de datos
Se refiere a la variables a estudiar
Análisis de propiedades de datos
Comportamiento de datos (e.g. Histograma)
Transformación del conjunto de datos de entrada
Prepocesamiento de datos
Seleccionar y aplicar la técnica de minería de datos
Construye un modelo predictivo, de clasificación o segmentación
Extracción del conocimiento
Modelo de comportamiento
Patrones de comportamiento de las variables
Interpretación y evaluación de datos
Transformación de datos
.
Mejorar la suposiciones de algunas técnicas estadísticas, normalidad, linealidad, homocedasticidad, etc.
Ayuda a detectar valores atípicos
Paradigmas estadísticos
Frecuentista
Define la probabilidad como el resultado limitante de observar resultados en un gran número de ensayos
Máxima verosimilitud
Selecciona las estimaciones de los parámetros que tienen más probabilidades de ocurrir dados los datos
Ecuación de datos y parámetros
Se basa en datos observados
Bayesiano
Se basa en el teorema de Bayes