Análisis exploratorio de datos
AED
¿Qué es Análisis de Datos?
(AD)
Análisis meditante SPSS
- Saca conclusiones sobre las variables de la investigación
- Depende del tipo de investigación que se hace
- Sin AD es díficil determinar relación entre variables
- Es una herramienta para llegar a una conclusión particular y significativa
Etapas del AED
- Ciclo interactivo
Análisis Exploratorio de Datos (AED) o
Estadística Descriptiva
¿Qué es AED?
Usa tres variables:
Multidimensionales:
- Usa tres o más variables
- Técnicas más utilizadas
- Análisis de regresión
- Análisis factorial
- Análisis de varianza multivariante
Variables Unidimensionales simplificado:
- Cuantitativas: medidas de tendencia central m, m, m, disperción, varianza y desviación típica
- Cualitativas: tablas de frecuencia y porcentaje
1. Idea
2. Pregiunta o Problema de Investigación
3. Diseño
4. Recolección de datos
5. Análisis de datos
6. Respuestas
Procedimientos para el AED
2. Examen gráfico de variables individuales
4. Evaluar supuestos básicos
3. Identificar casos
3.1 Impacto potencial de datos perdidos
Missing
1. Preparar los datos
Análisis descriptivo numérico para cuantificar aspecto gráfico de los datos
2.1. Examen gráfico de relaciones entre variables analizadas
Hacerlos accesibles
¿Para que evaluar supuetos básicos?
Observaciones no realizadas en la población donde se extajo la muestra
Para identificar:
- Normalidad o linealidad
¿Cómo ayuda el AD al investigador?
- Extrae conclusiones de variables de la investigación
- Adquiere conocimiento de los datos
- Conoce la relación de las variables en su investigación
- Antes de hacer procedimientos inferenciales
- Organiza la información con # y gráficos
- Predecir datos y tomar decisiones
- Desarrollado por John Tukey (70´s)
- Recoge información para describir y analizar sus datos
- Describe numérica y graficamente la info.
- Usa distribuciones univariadas de datos
- Identifica anomalías o casos extremos en patrones o modelos
- Analiza datos y relaciones antes desconocidos
- Descubre y establece nuevas conexiones
- Genera hipótesis y preguntas de investigación para nuevos estudios
- Respuestas no definitivas
- Proporiciona información sobre lo que va a venir
- Primer paso de cualquier AD
Usa método de Ciclo Interactivo
Ventajas del AED en la Investigación en Educación
- Teoría matemática elemental
- Se apoya en representaciones gráficas fáciles de realizar
- Desarrolla nuevas perspectivas
- Genera situaciones de aprendizaje interesantes para estudiar
Variables Bidimensionales:
- Analiza causa y relación entre 2 variables
- 2 Variables, cualitativa y cuantitativa
- 2 cuantitativas o 2 cualitiativas
Representación gráfica:
- Distribución de frecuencia
- Histograma
- Gráfico de barras o sectores
Tipos de AD
Análisis Descriptivo de Datos
ADD
1. Hace preguntas acerca de los datos
2. Las respuestas grafican visualmente para transformar y modelar datos
3. Genera preguntas a partir del AED
Análisis de Datos Causales
ADC
Representaciones gráficas de AED
¿Para qué representar graficamente?
- Conocer relación entre una o + variables
- Muestra la distribución de datos
- Comparar serie de variables
- Conocer composición de datos en el tiempo
- Da forma a la distribución
- Identificar valores atípicos
- Concentrar valores
Limitaciones del AED
- No puede generalizar datos
- No predicen próximos eventos
- De tipo Descriptivo
- Requiere menor esfuerzo
- Describe principales características de datos
- De forma cuantitativa
- Análisis de tipo inicial
Método univariado
Método bivariado
- De tipo Explicativo
- Analiza causa y efecto entre variables
- ¿Qué pasaría con una varible si se altera otra?
- Su aplicación requiere estudio aleatorio, aunque hay algunos no aleatorios
- Estándar de oro entre otro tipo de AD
Análisis Predictivo de Datos
APD
- De tipo Predictivo
- Métodos que naliza tendencias actuales con hechos históricos
- Así, predecir posibles eventos futuros
Änálisis Inferencial de Datos
AID
- De tipo Inferencial
- Evaluar teorías de sujetos
- Con base en la muestra de un grupo de sujetos
- Infiere una conclusión
- Basada en estudiar una pequeña población representativa
- Su éxito depende de técnicas estadísticas
Árboles de decisión
- Algoritmo de clasificación moderno
- Popular para investigación que requiere aprendizaje automático
- Diagrama en forma de árbol
- Proporciona información sobre modelos de regresión o clasificación
Análisis Mecanístico de Datos
AMD
- Opuesto ADD
- Requiere poco esfuerzo
- Comprende naturaleza de cambios que afectan a otras variabales
Programación Evolutiva
- Combina distitntos tipos de AD
- Mediante algoritmos evolutivos
- Forma datos significativos
Objetivos
- Entender basicamente los datos y su relación entre variables
- Organiza, sintetiza, describe y visualiza la información
- Revisa datos antes de aplicar estadísticas
- Obtiene información básica de datos y relación entre variables.
Usa conceptos claves
Variable:
Característica que se mide
Observación:
Conjunto de observaciones en observaciones similares
Dato:
Unidad observada y sus características: individuo y su edad
Metadato:
Dato de los datos, con descripción precisa
Otro tipo de gráficas
- Histograma
- Diagrama de pareto
Análisis Exploratorio de Datos
AED
¿Qué utiliza el AED?
Se forma de dos partes
Variación
- Diferencia de datos respecto a la estructura
- El resultado diferente surge de medir una variable continua en dos ocasiones
Tendencia o regularidad
- Estructura simplificada de un conjunto de observaciones
Ejemplo:
- Notas de matemática de 6 alumnos
- Variable univariante o unidimensional: nota de matemática
Ejemplo:
- Relación: nota de matemática y # de horas usadas para preparar examen
¿Qué requiere el AED?
- Diseño de la investigación
- Objetivo de estudio
- Hipótesis de la investigación: para calcular estadísticos descriptivos (media o cuasi varianza)
- Calidad de datos obtenidos
- Naturaleza de variables
- Representaciones gráficas acordes al objetivo
Análisis númerico descriptivo que cuantifique grado de interelación entre las variables
A cualquier técnica estadística
Seleccionar el métdo de entrada
- Por teclado
- Importado de un archivo existente
Codificar datos
Depende del tipo de variable: nominal, ordinal, etc.
Procesamiento estadístico
SPSS
Operaciones posibles:
- Seleccionar subconjuntos de datos
- Odenar casos
- Agregar o eliminar datos
- Guardar visor de datos
- Agregar o eliminar variables
- Compara variables mediante representaciones visuales
- A largo tiempo o momento puntual
Atípicos - Outliers
- Observaciones lejos del resto del patrón de observaciones de una variable
- O lejos de una distribución conjunta de 2 o + variables
- O a fallos en codificación
- Quedan representados con límites inusualmente anchos en el eje horizontal
Sobre la representatividad de datos realizados
Típicos
- Observaciones lejos del patrón de observaciones de una variable
¿Qué hacer con datos atípicos?
- Recodificar
- Analizar ¿Cuánto ejercen o interfieren en AE posteriores?
Supuesto de normalidad
- Contrasta variables que forman parte de la investigación
Supuesto de homocedasticidad
- Ve la variación de la Variable Dependiente (VD)
- Explicada por Variables Independientes (VI)
Supuesto de multicolinealidad
- Existencia de relaciones entre VI
Supuesto de linelidad
- Es decir, relación entre VD y VI
- Esto genera Ecuación lineal
Utiliza el Coeficiente de Pearson
- Mide la correlación entre dos variables
- Puede ser mayor o menor a lo normal
- Variables compuestas obtenidas de diferentes ítems
- Valores atípicos
- Tener en cuenta restricción de rango
Diagrama de caja y bigotes
- Muestra grupos de datos numéricos
- Mediante cuartiles
- Describe: dispersión y asimetría
- Es una caja rectangular sobre un segmento vertical
- Lados más largos = recorrido intercuartílico, Q1, Q3
- Segmento vertical = posiciona la mediana Q2 dentro de valores mínimo (Q1) y máximo (Q3)
¿Qué preveer antes de usar la caja?
- Obtener media de cada intervalo
- Luego mediana de la tabla de frecuencias
- Ordenar datos y obtener valor mínimo y máximo de Q
¿Qué son los bigotes?
- Líneas paralelas que se extienden desde la caja
- Tiene un límite de prolongación
- Cualquier dato que no este en el rango, es identificado individualmente
Diagrama de tallo y hojas
- Resume y expone conjunto de datos
- Requiere separar cada puntuación de 2 partes
- Primer digito = tallo
- Último dígito = hoja
Ventajas:
- Identificar puntuación de forma individual
- Conocer paralelamente: listado de puntuaciones y representación de distribución
- Modificar para obtener representación con mayor o menor detalle
- Compara grupos: porque se representan 2 conjuntos de datos en el mismo diagrama
Ejemplo:
- Conjunto de datos
(5, 12, 7, 22, 19, 24) - Se ordenaria así:
0- 5,7
1-2,92-2,4
Diagrama de dispersión
- Estudia la relación entre variables
- Ejemplo: X e Y
- Estudia la dirección, fuerza y forma entre dos conjuntos de datos asociados
Relación positiva ente X e Y
- Valores de X son ascendentes
- Relación con valores ascendentes de Y
Relación negativa entre X e Y
- Valores de X son ascendentes
- Relación con valores descendentes de Y
- Revela idea inicial e información contenida en estos
- Detecta posibles errores
Procedimiento
- Menú analizar
- Estadísticos descriptivos
- Explorar
-- Etiqueta dependientes: trasladar una o más variables = Estadísticos y representación gráfica
-- Etiqueta Dialogo:
Variable factores para casos específicos
Etiquetar casos para casos individuales
- Descriptivos: determina la media aritmética y mediana, desviación típica y varianza
- Error típico de media: varianza, desviación típica, valor mínimo y máximo, amplitud intecuartílitca, curtosis
- Intervalo de confianza para media: lo fija
- Estimadores robustos centrales: tendencia central basado en el método de la máxima vero similitud