Please enable JavaScript.
Coggle requires JavaScript to display documents.
Análisis exploratorio de datos AED - Coggle Diagram
Análisis exploratorio de datos
AED
¿Qué es Análisis de Datos?
(AD)
Saca conclusiones sobre las variables de la investigación
Depende del tipo de investigación que se hace
Sin AD es díficil determinar relación entre variables
Es una herramienta para llegar a una conclusión particular y significativa
Análisis Exploratorio de Datos (AED) o
Estadística Descriptiva
¿Qué es AED?
Usa tres variables:
Multidimensionales:
Usa tres o más variables
Técnicas más utilizadas
Análisis de regresión
Análisis factorial
Análisis de varianza multivariante
Variables Unidimensionales simplificado:
- Cuantitativas:
medidas de tendencia central m, m, m, disperción, varianza y desviación típica
- Cualitativas:
tablas de frecuencia y porcentaje
Representación gráfica:
Distribución de frecuencia
Histograma
Gráfico de barras o sectores
Ejemplo:
Notas de matemática de 6 alumnos
Variable univariante o unidimensional: nota de matemática
Variables Bidimensionales:
Analiza causa y relación entre 2 variables
2 Variables, cualitativa y cuantitativa
2 cuantitativas o 2 cualitiativas
Ejemplo:
Relación:
nota
de matemática y
# de horas
usadas para preparar examen
Desarrollado por John Tukey (70´s)
Recoge información para describir y analizar sus datos
Describe numérica y graficamente la info.
Usa distribuciones univariadas de datos
Identifica anomalías o casos extremos
en patrones o modelos
Analiza datos y relaciones antes desconocidos
Descubre y establece nuevas conexiones
Genera
hipótesis y preguntas de investigación para nuevos estudios
Respuestas no definitivas
Proporiciona información sobre lo que va a venir
Primer paso de cualquier AD
Usa método de Ciclo Interactivo
1.
Hace preguntas acerca de los datos
2.
Las respuestas grafican visualmente para transformar y modelar datos
3.
Genera preguntas a partir del AED
Objetivos
Entender basicamente los datos y su relación entre variables
Organiza, sintetiza, describe y visualiza la información
Revisa datos antes de aplicar estadísticas
Obtiene información básica de datos y relación entre variables.
¿Qué utiliza el AED?
Se forma de
dos partes
Variación
Diferencia de datos respecto a la estructura
El
resultado diferente
surge de medir una variable continua en dos ocasiones
Tendencia o regularidad
Estructura simplificada de un conjunto de observaciones
¿Qué requiere el AED?
Diseño de la investigación
Objetivo de estudio
Hipótesis de la investigación: para calcular estadísticos descriptivos (media o cuasi varianza)
Calidad de datos obtenidos
Naturaleza de variables
Representaciones gráficas acordes al objetivo
Usa conceptos claves
Variable:
Característica que se mide
Observación:
Conjunto de observaciones en observaciones similares
Dato:
Unidad observada y sus características: individuo y su edad
Metadato:
Dato de los datos, con descripción precisa
Supuesto de linelidad
Es decir, relación entre VD y VI
Esto genera Ecuación lineal
Utiliza el
Coeficiente de Pearson
Mide la correlación entre dos variables
Puede ser mayor o menor a lo normal
Variables compuestas obtenidas de diferentes ítems
Valores atípicos
Tener en cuenta restricción de rango
Ventajas del AED en la Investigación en Educación
Teoría matemática elemental
Se apoya en representaciones gráficas fáciles de realizar
Desarrolla nuevas perspectivas
Genera situaciones de aprendizaje interesantes para estudiar
Limitaciones del AED
No puede generalizar datos
No predicen próximos eventos
¿Cómo ayuda el AD al investigador?
Extrae conclusiones de variables de la investigación
Adquiere conocimiento de los datos
Conoce la relación de las variables en su investigación
Antes de hacer procedimientos inferenciales
Organiza la información con # y gráficos
Predecir datos y tomar decisiones
Tipos de AD
Análisis Descriptivo de Datos
ADD
De tipo
Descriptivo
Requiere menor esfuerzo
Describe principales características de datos
De forma cuantitativa
Análisis de tipo inicial
Método univariado
Método bivariado
Análisis de Datos Causales
ADC
De tipo
Explicativo
Analiza causa y efecto entre variables
¿Qué pasaría con una varible si se altera otra?
Su aplicación requiere estudio aleatorio, aunque hay algunos no aleatorios
Estándar de oro entre otro tipo de AD
Análisis Predictivo de Datos
APD
De tipo
Predictivo
Métodos que naliza tendencias actuales con hechos históricos
Así, predecir posibles eventos futuros
Änálisis Inferencial de Datos
AID
De tipo
Inferencial
Evaluar teorías de sujetos
Con base en la muestra de un grupo de sujetos
Infiere una conclusión
Basada en estudiar una pequeña población representativa
Su éxito depende de técnicas estadísticas
Árboles de decisión
Algoritmo de clasificación moderno
Popular para investigación que requiere aprendizaje automático
Diagrama en forma de árbol
Proporciona información sobre modelos de regresión o clasificación
Análisis Mecanístico de Datos
AMD
Opuesto ADD
Requiere poco esfuerzo
Comprende naturaleza de cambios que afectan a otras variabales
Programación Evolutiva
Combina distitntos tipos de AD
Mediante algoritmos evolutivos
Forma datos significativos
Análisis Exploratorio de Datos
AED
Análisis meditante SPSS
Revela idea inicial e información contenida en estos
Detecta posibles errores
Procedimiento
Menú analizar
Estadísticos descriptivos
Explorar
-- Etiqueta dependientes: trasladar una o más variables = Estadísticos y representación gráfica
-- Etiqueta Dialogo:
Variable factores
para casos específicos
Etiquetar casos
para casos individuales
Descriptivos:
determina la media aritmética y mediana, desviación típica y varianza
Error típico de media:
varianza, desviación típica, valor mínimo y máximo, amplitud intecuartílitca, curtosis
Intervalo de confianza para media:
lo fija
Estimadores robustos centrales:
tendencia central basado en el método de la máxima vero similitud
Etapas del AED
Ciclo interactivo
1.
Idea
2.
Pregiunta o Problema de Investigación
3.
Diseño
4.
Recolección de datos
5.
Análisis de datos
6.
Respuestas
Procedimientos para el AED
2. Examen gráfico de variables individuales
Análisis descriptivo numérico para cuantificar aspecto gráfico de los datos
2.1. Examen gráfico de relaciones entre variables analizadas
Análisis númerico descriptivo que cuantifique grado de interelación entre las variables
Compara variables mediante representaciones visuales
A largo tiempo o momento puntual
4. Evaluar supuestos básicos
¿Para que evaluar supuetos básicos?
Para identificar:
Normalidad o linealidad
Supuesto de normalidad
Contrasta variables que forman parte de la investigación
Supuesto de homocedasticidad
Ve la variación de la Variable Dependiente (VD)
Explicada por Variables Independientes (VI)
Supuesto de multicolinealidad
Existencia de relaciones entre VI
3. Identificar casos
3.1
Impacto potencial de datos perdidos
Missing
Observaciones no realizadas en la población donde se extajo la muestra
Sobre la representatividad de datos realizados
Atípicos - Outliers
Observaciones lejos
del resto del patrón
de observaciones de una variable
O lejos de una distribución conjunta de 2 o + variables
O a fallos en codificación
Quedan representados con límites inusualmente anchos en el eje horizontal
¿Qué hacer con datos atípicos?
Recodificar
Analizar ¿Cuánto ejercen o interfieren en AE posteriores?
Típicos
Observaciones
lejos del patrón
de observaciones de una variable
1. Preparar los datos
Hacerlos accesibles
A cualquier técnica estadística
Seleccionar el métdo de entrada
Por teclado
Importado de un archivo existente
Codificar datos
Depende del tipo de variable: nominal, ordinal, etc.
Procesamiento estadístico
SPSS
Operaciones posibles:
Seleccionar subconjuntos de datos
Odenar casos
Agregar o eliminar datos
Guardar visor de datos
Agregar o eliminar variables
Representaciones gráficas de AED
¿Para qué representar graficamente?
Conocer relación entre una o + variables
Muestra la distribución de datos
Comparar serie de variables
Conocer composición de datos en el tiempo
Da forma a la distribución
Identificar valores atípicos
Concentrar valores
Otro tipo de gráficas
Histograma
Diagrama de pareto
Diagrama de caja y bigotes
Muestra grupos de datos numéricos
Mediante cuartiles
Describe: dispersión y asimetría
Es una caja rectangular sobre un segmento vertical
Lados más largos =
recorrido intercuartílico, Q1, Q3
Segmento vertical =
posiciona la mediana Q2 dentro de valores mínimo (Q1) y máximo (Q3)
¿Qué preveer antes de usar la caja?
Obtener media de cada intervalo
Luego mediana de la tabla de frecuencias
Ordenar datos y obtener valor mínimo y máximo de Q
¿Qué son los bigotes?
Líneas paralelas que se extienden desde la caja
Tiene un límite de prolongación
Cualquier dato que no este en el rango, es identificado individualmente
Diagrama de tallo y hojas
Resume y expone conjunto de datos
Requiere
separar cada puntuación de 2 partes
Primer digito = tallo
Último dígito = hoja
Ventajas:
Identificar puntuación de forma individual
Conocer paralelamente: listado de puntuaciones y representación de distribución
Modificar para obtener representación con mayor o menor detalle
Compara grupos:
porque se representan 2 conjuntos de datos en el mismo diagrama
Ejemplo:
Conjunto de datos
(5, 12, 7, 22, 19, 24)
Se ordenaria así:
0- 5,7
1-2,92-2,4
Diagrama de dispersión
Estudia la relación entre variables
Ejemplo: X e Y
Estudia la dirección, fuerza y forma entre dos conjuntos de datos asociados
Relación positiva ente X e Y
Valores de X son ascendentes
Relación con valores ascendentes de Y
Relación negativa entre X e Y
Valores de X son ascendentes
Relación con valores descendentes de Y