Análisis exploratorio de datos
AED

¿Qué es Análisis de Datos?
(AD)

Análisis meditante SPSS

  • Saca conclusiones sobre las variables de la investigación
  • Depende del tipo de investigación que se hace
  • Sin AD es díficil determinar relación entre variables
  • Es una herramienta para llegar a una conclusión particular y significativa

Etapas del AED

  • Ciclo interactivo

Análisis Exploratorio de Datos (AED) o
Estadística Descriptiva

¿Qué es AED?

Usa tres variables:

Multidimensionales:

  • Usa tres o más variables
  • Técnicas más utilizadas
    • Análisis de regresión
    • Análisis factorial
    • Análisis de varianza multivariante

Variables Unidimensionales simplificado:
- Cuantitativas: medidas de tendencia central m, m, m, disperción, varianza y desviación típica
- Cualitativas: tablas de frecuencia y porcentaje

1. Idea
2. Pregiunta o Problema de Investigación
3. Diseño
4. Recolección de datos
5. Análisis de datos
6. Respuestas

Procedimientos para el AED

2. Examen gráfico de variables individuales

4. Evaluar supuestos básicos

3. Identificar casos

3.1 Impacto potencial de datos perdidos
Missing

1. Preparar los datos

Análisis descriptivo numérico para cuantificar aspecto gráfico de los datos

2.1. Examen gráfico de relaciones entre variables analizadas

Hacerlos accesibles

¿Para que evaluar supuetos básicos?

Observaciones no realizadas en la población donde se extajo la muestra

Para identificar:

  • Normalidad o linealidad

¿Cómo ayuda el AD al investigador?

  • Extrae conclusiones de variables de la investigación
  • Adquiere conocimiento de los datos
  • Conoce la relación de las variables en su investigación
  • Antes de hacer procedimientos inferenciales
  • Organiza la información con # y gráficos
  • Predecir datos y tomar decisiones
  • Desarrollado por John Tukey (70´s)
  • Recoge información para describir y analizar sus datos
  • Describe numérica y graficamente la info.
  • Usa distribuciones univariadas de datos
  • Identifica anomalías o casos extremos en patrones o modelos
  • Analiza datos y relaciones antes desconocidos
  • Descubre y establece nuevas conexiones
  • Genera hipótesis y preguntas de investigación para nuevos estudios
  • Respuestas no definitivas
  • Proporiciona información sobre lo que va a venir
  • Primer paso de cualquier AD

Usa método de Ciclo Interactivo

Ventajas del AED en la Investigación en Educación

  • Teoría matemática elemental
  • Se apoya en representaciones gráficas fáciles de realizar
  • Desarrolla nuevas perspectivas
  • Genera situaciones de aprendizaje interesantes para estudiar

Variables Bidimensionales:

  • Analiza causa y relación entre 2 variables
  • 2 Variables, cualitativa y cuantitativa
  • 2 cuantitativas o 2 cualitiativas

Representación gráfica:

  • Distribución de frecuencia
  • Histograma
  • Gráfico de barras o sectores

Tipos de AD

Análisis Descriptivo de Datos
ADD

1. Hace preguntas acerca de los datos
2. Las respuestas grafican visualmente para transformar y modelar datos
3. Genera preguntas a partir del AED

Análisis de Datos Causales
ADC

Representaciones gráficas de AED

¿Para qué representar graficamente?

  • Conocer relación entre una o + variables
  • Muestra la distribución de datos
  • Comparar serie de variables
  • Conocer composición de datos en el tiempo
  • Da forma a la distribución
  • Identificar valores atípicos
  • Concentrar valores

Limitaciones del AED

  • No puede generalizar datos
  • No predicen próximos eventos
  • De tipo Descriptivo
  • Requiere menor esfuerzo
  • Describe principales características de datos
  • De forma cuantitativa
  • Análisis de tipo inicial

Método univariado

Método bivariado

  • De tipo Explicativo
  • Analiza causa y efecto entre variables
  • ¿Qué pasaría con una varible si se altera otra?
  • Su aplicación requiere estudio aleatorio, aunque hay algunos no aleatorios
  • Estándar de oro entre otro tipo de AD

Análisis Predictivo de Datos
APD

  • De tipo Predictivo
  • Métodos que naliza tendencias actuales con hechos históricos
  • Así, predecir posibles eventos futuros

Änálisis Inferencial de Datos
AID

  • De tipo Inferencial
  • Evaluar teorías de sujetos
  • Con base en la muestra de un grupo de sujetos
  • Infiere una conclusión
  • Basada en estudiar una pequeña población representativa
  • Su éxito depende de técnicas estadísticas

Árboles de decisión

  • Algoritmo de clasificación moderno
  • Popular para investigación que requiere aprendizaje automático
  • Diagrama en forma de árbol
  • Proporciona información sobre modelos de regresión o clasificación

Análisis Mecanístico de Datos
AMD

  • Opuesto ADD
  • Requiere poco esfuerzo
  • Comprende naturaleza de cambios que afectan a otras variabales

Programación Evolutiva

  • Combina distitntos tipos de AD
  • Mediante algoritmos evolutivos
  • Forma datos significativos

Objetivos

  • Entender basicamente los datos y su relación entre variables
  • Organiza, sintetiza, describe y visualiza la información
  • Revisa datos antes de aplicar estadísticas
  • Obtiene información básica de datos y relación entre variables.

Usa conceptos claves

Variable:
Característica que se mide

Observación:
Conjunto de observaciones en observaciones similares

Dato:
Unidad observada y sus características: individuo y su edad

Metadato:
Dato de los datos, con descripción precisa

Otro tipo de gráficas

  • Histograma
  • Diagrama de pareto

Análisis Exploratorio de Datos
AED

¿Qué utiliza el AED?

Se forma de dos partes

Variación

  • Diferencia de datos respecto a la estructura
  • El resultado diferente surge de medir una variable continua en dos ocasiones

Tendencia o regularidad

  • Estructura simplificada de un conjunto de observaciones

Ejemplo:

  • Notas de matemática de 6 alumnos
  • Variable univariante o unidimensional: nota de matemática

Ejemplo:

  • Relación: nota de matemática y # de horas usadas para preparar examen

¿Qué requiere el AED?

  • Diseño de la investigación
  • Objetivo de estudio
  • Hipótesis de la investigación: para calcular estadísticos descriptivos (media o cuasi varianza)
  • Calidad de datos obtenidos
  • Naturaleza de variables
  • Representaciones gráficas acordes al objetivo

Análisis númerico descriptivo que cuantifique grado de interelación entre las variables

A cualquier técnica estadística

Seleccionar el métdo de entrada

  • Por teclado
  • Importado de un archivo existente

Codificar datos

Depende del tipo de variable: nominal, ordinal, etc.

Procesamiento estadístico

SPSS

Operaciones posibles:

  • Seleccionar subconjuntos de datos
  • Odenar casos
  • Agregar o eliminar datos
  • Guardar visor de datos
  • Agregar o eliminar variables
  • Compara variables mediante representaciones visuales
  • A largo tiempo o momento puntual

Atípicos - Outliers

  • Observaciones lejos del resto del patrón de observaciones de una variable
  • O lejos de una distribución conjunta de 2 o + variables
  • O a fallos en codificación
  • Quedan representados con límites inusualmente anchos en el eje horizontal
    image

Sobre la representatividad de datos realizados

Típicos

  • Observaciones lejos del patrón de observaciones de una variable
    image

¿Qué hacer con datos atípicos?

  • Recodificar
  • Analizar ¿Cuánto ejercen o interfieren en AE posteriores?

Supuesto de normalidad

  • Contrasta variables que forman parte de la investigación

Supuesto de homocedasticidad

  • Ve la variación de la Variable Dependiente (VD)
  • Explicada por Variables Independientes (VI)

Supuesto de multicolinealidad

  • Existencia de relaciones entre VI

Supuesto de linelidad

  • Es decir, relación entre VD y VI
  • Esto genera Ecuación lineal

Utiliza el Coeficiente de Pearson

  • Mide la correlación entre dos variables
  • Puede ser mayor o menor a lo normal
  • Variables compuestas obtenidas de diferentes ítems
  • Valores atípicos
  • Tener en cuenta restricción de rango

Diagrama de caja y bigotes

  • Muestra grupos de datos numéricos
  • Mediante cuartiles
  • Describe: dispersión y asimetría
  • Es una caja rectangular sobre un segmento vertical
  • Lados más largos = recorrido intercuartílico, Q1, Q3
  • Segmento vertical = posiciona la mediana Q2 dentro de valores mínimo (Q1) y máximo (Q3)
    image

¿Qué preveer antes de usar la caja?

  • Obtener media de cada intervalo
  • Luego mediana de la tabla de frecuencias
  • Ordenar datos y obtener valor mínimo y máximo de Q

¿Qué son los bigotes?

  • Líneas paralelas que se extienden desde la caja
  • Tiene un límite de prolongación
  • Cualquier dato que no este en el rango, es identificado individualmente

Diagrama de tallo y hojas

  • Resume y expone conjunto de datos
  • Requiere separar cada puntuación de 2 partes
  • Primer digito = tallo
  • Último dígito = hoja

Ventajas:

  • Identificar puntuación de forma individual
  • Conocer paralelamente: listado de puntuaciones y representación de distribución
  • Modificar para obtener representación con mayor o menor detalle
  • Compara grupos: porque se representan 2 conjuntos de datos en el mismo diagrama

Ejemplo:

  • Conjunto de datos
    (5, 12, 7, 22, 19, 24)
  • Se ordenaria así:
    0- 5,7
    1-2,92-2,4

image

Diagrama de dispersión

  • Estudia la relación entre variables
  • Ejemplo: X e Y
  • Estudia la dirección, fuerza y forma entre dos conjuntos de datos asociados
    image

Relación positiva ente X e Y

  • Valores de X son ascendentes
  • Relación con valores ascendentes de Y

Relación negativa entre X e Y

  • Valores de X son ascendentes
  • Relación con valores descendentes de Y
  • Revela idea inicial e información contenida en estos
  • Detecta posibles errores

Procedimiento

  • Menú analizar
  • Estadísticos descriptivos
  • Explorar
    -- Etiqueta dependientes: trasladar una o más variables = Estadísticos y representación gráfica
    -- Etiqueta Dialogo:
    Variable factores para casos específicos
    Etiquetar casos para casos individuales
  • Descriptivos: determina la media aritmética y mediana, desviación típica y varianza
  • Error típico de media: varianza, desviación típica, valor mínimo y máximo, amplitud intecuartílitca, curtosis
  • Intervalo de confianza para media: lo fija
  • Estimadores robustos centrales: tendencia central basado en el método de la máxima vero similitud