tema 2

intro

analisis de datos se basa en datos, y para ello es necesario asignar numeros a las caracteristicas a estudiar

segun las relaciones entre los valores asignados a caracteristicas se establecen niveles de medida

nominal: expresan identidad y pueden ir seguidos de un valor (sexo, estado civil...)

ordinal: los números expresan identidades y orden (escalas tipo Likert)

TABLA DE DISTRIBUCION DE FRECUENCIAS: recoge los valores que adopta una variable y el numero de veces que se repite

FRECUENCIA ABSOLUTA: fi numero de veces que se repite el valor en la muestra

VARIABLE: Xi

FRECUENCIA RELATIVA: pi=fi/n

MUESTRA: n

PORCENTAJE: Pi(%) = pi x 100

REPRESENTACIONES GRAFICAS

ciclograma o grafico de sectores

diagrama de barras

REPRESENTACION NUMERICA: busca rapidez y claridad

Moda (Mo): valor mas frecuente

Bondad de la moda (BMo): porcentaje mas alto

Distribución en tablas: en orden

El porcentaje acumulado: (%ai) informa del conjunto de categorías inferiores, es la acumulación de %i o pi/n x100

Frecuencia acumulada: Fi suma de ese valor fi y de los anteriores

Pa=Fi/n

REPRESENTACIONES GRÁFICAS

Diagrama de barras: de menos a mas, incluyendo huecos (son relevantes)

REPRESENTACIÓN NUMÉRICAS

Mediana (Me) el valor (X) y posición (n) que ocupa justo el medio cuando los valores estan ordenados

Si es par, en la posición y en el valor se hace un promedio de los 2 centrales Md=(X) (n+1)/2

Bondad

MAD: Medida de la bondad de representación de la mediana, Mediana del conjunto de distancias a la mediana

calculo

Ordenar de nuevo

Calcular la nueva mediana:

interpretacion

Conforme mayor sea el valor de MAD, peor será Md para representar al conjunto de datos

hay guias para considerar si el valor de MAD es tolerable o excesivo

Si MAD < 50% de Md, Md es una buena representación numérica

Si MAD=Md, la dispersión es muy elevada y Md no es una buena medida

Si MAD > 50% vamos usar sentido común. Por ejemplo, valorando la teoría o acudiendo a otras medidas

Obtener la distancia (valor absoluto) de cada dato a la mediana /Xn - Md/

cuantiles

cuartil 1: 25% de los datos

cuartil 3: 75% de los datos

QK= K (n+1)/4

Amplitud intercuartil: IQR = Q3-Q1

Amplitud semiintercuartil: Q = (Q3-Q1)/2

Amplitud total o Rango = mayor valor – menor valor

cuartil 2: 50% o Md

cuantitativas: los números expresan identidades, orden y distancias, son las variables más comunes a las que estamos acostumbrados pero no son las mas frecuentes en psicologia

TABULACION

Podemos usar tablas como las usadas con variables ordinales, pero a veces hay demasiados valores y huecos. Solo se usan si son utiles para comunicar y analizar

REPRESENTACION GRAFICA

Histogramas: como un diagrama de barras pero con las barras pegadas ya que estas representan un conjunto de valores (intervalos de valores iguales) Es recomendable cuando tenemos muchos valores diferentes

Diagramas de cajas: Gráfico que aporta gran cantidad de información acerca de la distribución de frecuencias de una variable cuantitativa, a partir de esto se puede determinar el

Mínimo

Q1

Md

Q3

Maximo

Outliers (valores extremos, muy alto en relacion con el resto)

Calculo

amplitud intercuartil

Se establece un intervalo

Todo dato con un valor fuera de
ese intervalo es un outlier

rango intercualtil

1,5 x rango intercuartiñ

Q1-1,5 (Q3-Q1) < outlier > Q3+1,5 (Q3-Q1)

REPRESENTACION NUMERICA

media aritmetica (x̄)= ΣXi /n

calculo usando tablas: datos originales, ordenados y agrupados

bondad

varianza

desviacion tipica

image

image

image

Matizaciones

El coeficiente de variación de Pearson (CV)

Compara la media con la desviación

Cuanto mayor es, peor es la media como representación de los datos

Por encima del 50% → prudencia al usarlo (ej. revisar la representación gráfica, los valores extremos, etc.)

Por encima del 100% → definitivamente, la media no representa bien a los datos

image

¿Qué hacer con distribuciones asimétricas?

Si nos interesa lo más representativo del grupo

Prescindir de los extremos

Si nos interesa el grupo completo

Elegir otro índice de representación (Md)

Si nos interesa tanto el promedio como los extremos

Dividir el estudio en dos partes

Valores raros y forma de la distribución

En las distribuciones simétricas la media es mejor representante de los datos

Si hay muchos valores alejados del “centro”, la media no es buena representación