Análisis de datos cualitativo
Recordar
Los modelos estadísticos son representaciones de la realidad, no la realidad misma
Los resultados numéricos siempre se interpretan en contexto
Los datos se analizan después de que se codificaron, transfirieron a una matriz, guardaron en un archivo y se corrigieron los errores
El análisis cuantitativo de los datos lo efectúas sobre la matriz que los contiene y utilizando un programa computacional
Fase 1
Seleccionar el software apropiado y disponible para analizar los datos (IBM® SPSS®, Minitab, Excel, SAS, PSPP, XLSTAT).
Fase 2
Ejecutar el programa: SPSS" Minitab"', STATS® Excel" , SAS" u otro equivalente.
Fase 3
Revisar la matriz donde se encuentran los datos codificados para asegurar una vez más que no hay errores y solicitar la distribución de frecuencias de las variables del estudio para ver si en alguna variable hay errores de codificación.
El análisis estadístico depende de tres factores:
El nivel de medición de las variables
La manera como hayas formulado las hipótesis
Tu interés analítico (que depende del planteamiento del problema)
Fase 4
Evaluar la confiabilidad (fiabilidad) y validez lograda por el instrumento de medición
Procedimientos:
Medida de estabilidad (confiabilidad por test-retest): un mismo instrumento de medición se aplica dos o más veces a un mismo grupo de personas o casos, después de cierto periodo.
Método de formas alternativas o paralelas: En este esquema no administras el mismo instrumento de medición, sino dos o más versiones equivalentes de este.
Método de mitades partidas (split-halves): necesita solo una aplicación de la medición. Específicamente, el conjunto total de ítems o reactivos lo divides en dos mitades equivalentes y comparas las puntuaciones o resultados de ambas.
Medidas de coherencia o consistencia interna: Son coeficientes que estiman la confiabilidad: a) el alfa de Cronbach (desarrollado por J. L. Cronbach) y b) los coeficientes KR-20 y KR-21 de Kuder y Richardson (1937). El método de cálculo de estos requiere una sola administración del instrumento de medición.
El coeficiente que elijas para determinar la confiabilidad debe ser apropiado al nivel de medición de la escala de la variable.
La evidencia sobre la validez del contenido se obtiene mediante las opiniones de expertos y al asegurarse de que las dimensiones medidas por el instrumento sean representativas del universo o dominio de dimensiones de las variables de interés.
Fase 5
Implica familiarizarte con tus datos y obtener los primeros resultados descriptivos.
Análisis descriptivo de cada variable de la investigación: implica el conteo de casos que se presentaron en las categorías de las variables con el propósito de conocer tendencias.
Estadística descriptiva
Distribución de frecuencias: conjunto de puntuaciones de una variable ordenada en sus respectivas categorías. pueden completarse agregando los porcentajes de casos en cada categoría, los porcentajes válidos (excluyendo los valores perdidos) y los porcentajes acumulados.
La asimetría es una estadística necesaria para conocer cuánto se parece nuestra distribución a una distribución teórica llamada curva normal constituye un indicador del lado de la curva donde se agrupan las frecuencias
Las distribuciones de frecuencias, especialmente cuando utilizas los porcentajes, pueden presentarlas en forma de histogramas o gráficas de otro tipo.
Pero además de la distribución o polígono de frecuencias, debes calcular las medidas de tendencia central y de variabilidad o dispersión.
Las medidas de tendencia central son los valores medios de la distribución de frecuencias y son útiles para ubicar los resultados de la muestra en la escala de medición de la variable en cuestión. Las medidas de tendencia central principales son tres: moda, mediana y media.
La moda o modo es la categoría, puntuación o intervalo (o punto medio de este) que ocurre con mayor frecuencia.
La mediana es el valor que divide a la distribución o escala presentada exactamente por la mitad.
La media es la medida de tendencia central m~ utilizada y puede definirse como el promedio aritmético de una distribución.
Las medidas de la variabilidad indican la dispersión de los datos en la escala de medición de la variable en cuestión y responden a la pregunta sobre dónde están diseminadas las puntuaciones obtenidas para la muestra o casos.
Las medidas de la variabilidad más utilizadas son rango, desviación estándar y varianza.
El rango, también denominado recorrido, es la diferencia entre la puntuación superior y la puntuación inferior, e indica el número de unidades en la escala de medición que se necesitan para incluir los valores máximo y mínimo.
La desviación estándar o típica es el promedio de desviación de las puntuaciones de la muestra respecto a la media.
La varianza es la desviación estándar elevada al cuadrado y se simboliza S2.
El porcentaje acumulado constituye lo que aumenta en cada categoría de manera porcentual y progresiva (en orden de aparición de las categorías), tomando en cuenta los porcentajes válido.
Las columnas porcentaje y porcentaje válido son iguales (mismas cifras o valores) cuando no hay valores perdidos; pero si tienes valores perdidos, la columna porcentaje válido presenta los cálculos sobre el total menos tales valores.
La curtosis es un indicador de lo plana o "picuda" que es una curva.
Las puntuaciones z son transformaciones que puedes hacer a los valores o datos obtenidos, con el propósito de analizar su distancia respecto a la media, en unidades de desviación estándar, y comparar mediciones de escalas distintas.
Una razón es la relación entre dos categorías.
Una tasa es la relación entre el número de casos, frecuencias o eventos de una categoría y el número total de observaciones, multiplicada por un múltiplo de la, generalmente 100 o 1 000.
Fase 6
En el contexto del análisis estadístico inferencial que se pretende es generalizar a la población la hipótesis que probaste en tu muestra.
Las principales características de la distribución normal son:
Es unimodal, una sola moda.
La asimetría es cero. La mitad de la curva es exactamente igual a la otra mitad. La distancia entre la media y -3s es la misma que la distancia entre la media y +3s.
Es una función particular entre desviaciones respecto a la media de una distribución y la probabilidad de que estas ocurran.
La base está dada en unidades de desviación estándar (puntuaciones z), destacando las puntuaciones - ls, - 2s, - 3s, + ls, +2s y +3s (que equivalen respectivamente a - 1.00z, -2.00z, - 3.00z, +1.00z, +2.00z, +3.00z). Las distancias entre puntuaciones z representan áreas bajo la curva. De hecho, la distribución de puntuaciones z es la curva normal.
Es mesocúrtica (curtosis de cero).
La media, la mediana y la moda coinciden en el mismo punto (el centro).
Para probar hipótesis inferenciales respecto a la media, el investigador debe evaluar si es alta o baja la probabilidad de que la media de la muestra esté cerca de la media de la distribución muestral.
Si es baja, el investigador dudará en generalizar a la población. Si es alta, el investigador podrá hacer generalizaciones.
Es aquí donde entra el nivel de significancia o nivel alfa (a),9 el cual es un nivel de la probabilidad de equivocarte y lo fijas antes de probar hipótesis inferenciales (generalizar los resultados de tu muestra a la población) o al interpretar los resultados.
a) El nivel de 5ignificancia de 0.05, el cual implica que el investigador (tú) tiene 95% de seguridad para generalizar sin equivocarse y solo 5% en contra.
b) El nivel de significancia de 0.01, el cual implica que el investigador tiene 99% en su favor y 1 % en contra (0.99 y 0.01 = 1.00) para generalizar sin temor.
El nivel de significación representa áreas de riesgo o confianza en la distribución muestral.
Los resultados posibles al probar hipótesis son:
Aceptar una hipótesis verdadera (decisión correcta).
Rechazar una hipótesis falsa (decisión correcta).
Aceptar una hipótesis falsa (conocido como error del Tipo II o error beta).
Rechazar una hipótesis verdadera (conocido como error del Tipo I o error alfa).
Análisis paramétricos: hipótesis o pruebas con variables de intervalos o razón
La distribución poblacional de la variable dependiente es normal: el universo tiene una distribución normal.
El nivel de medición de las variables es por intervalos o razón.
Cuando dos o más poblaciones son estudiadas, tienen una varianza homogénea: las poblaciones en cuestión poseen una dispersión similar en sus distribuciones.
Pruebas:
• Coeficiente de correlación de Pearson y regresión lineal (planteamientos e hipótesis correlacionales y causales).
• Prueba t (planteamientos e hipótesis de comparación de dos grupos en sus medias y distribuciones).
• Prueba de contraste de la diferencia de proporciones (planteamientos e hipótesis de comparación de dos grupos en porcentajes o proporciones).
• Análisis de varianza unidireccional (ANOVA en un sentido) (planteamientos e hipótesis de comparación de dos o más grupos en sus distribuciones).
• Análisis de varianza factorial (ANOVA) (planteamientos e hipótesis correlacionales, causales y de comparación de varios grupos).
• Análisis de covarianza (ANCOVA) (planteamientos e hipótesis correlacionales, causales y de comparación de varios grupos).
Análisis no para métricos: hipótesis o pruebas con variables nominales u ordinales
La mayoría de estos análisis no requieren de presupuestos acerca de la forma de la distribución poblacional. Aceptan distribuciones no normales (distribuciones "libres").
Las variables no necesariamente tienen que estar medidas en un nivel por intervalos o de razón; pueden analizar datos nominales u ordinales. De hecho, si se quieren aplicar análisis no paramétricos a datos por intervalos o razón, estos necesitan resumirse a categorías discretas (a unas cuantas). Las variables deben ser categóricas.
Pruebas:
La Chi-cuadrada o X2.
Los coeficientes de correlación e independencia para tabulaciones cruzadas.
Los coeficientes de correlación por rangos ordenados de Spearman y Kendall.
Los coeficientes de correlación entre variables con distintos niveles de medición.
Fase 7
Este paso implica simplemente que, una vez realizados tus análisis, es posible que decidas ejecutar otros análisis o pruebas extras para confirmar tendencias y evaluar los datos desde diferentes ángulos.
Fase 8
Preparar los resultados para presentarlos
- Revisar cada resultado [análisis general -+ análisis específico -+ valores resultantes (incluida la significación o significancia) -+ tablas, diagramas, cuadros y gráficas].
- Organizar los resultados (primero los relativos a la confiabilidad, validez y estandarización de tus instrumentos de recolección de los datos; luego los descriptivos, por variable del estudio; posteriormente los inferenciales, que puedes ordenar por hipótesis o de acuerdo con su desarrollo).
- Cotejar diferentes resultados: su congruencia y en caso de inconsistencia lógica volverlos a revisar.
- Priorizar la información más valiosa (que es en gran parte resultado de la actividad anterior), sobre todo si vas a generar reportes ejecutivos y otros más extensos.
- Copiar o "formatear" las tablas en el programa con el cual elaborarás el reporte de la investigación.
- Comentar o describir brevemente la esencia de tus análisis, valores, tablas, diagramas, gráficas.
- Volver a revisar los resultados.
- Elaborar el reporte de investigación.
Yessica Mahé Méndez
Grupo 801