CONCEPTOS ESTADISTICOS UTILIZADOS EN EL DISEÑO E INTERPRETACION DE TRABAJOS DE INVESTIGACION
ANÁLISIS DE LA INFORMACION: Cada columna contiene los campos o variables que componen cada registro. Las variables cualitativas o categóricas hacen referencia a atributos, su valor es generalmente alfabético y pueden clasificarse como puras, ordenadas y procedentes de numéricas. Las variables cuantitativas se caracterizan por tener un valor numérico y pueden ser discretas o continuas . Se presenta a continuación la descripción de algunas de las variables utilizadas en el estudio.
• Variables cuantitativas: Edad (años), Peso (Kgs), Talla (cm), Indice de Masa Corporal = Peso/(Talla)2, Colesterol (mg/dl), TSH (Medida de TSH), T4 (Medida de T4).
• Variables cualitativas: Sexo (M y F), Body Mas Index (Normal, Sobrepeso y Obeso), Diabetes (SI y NO), Hipertensión Arterial (SI y NO), Hipercolesterolemia (SI >240, NO 240), Hipotiroidismo (SI y NO).
FUNCIÓN DE DISTRIBUCIÓN NORMAL: Su representación gráfica es la llamada curva normal o campana de Gauss. La media define la posición de la curva y coincide con el eje de simetría y el máximo de la curva. La desviación típica mide la distancia sobre el eje de abscisas entre el valor máximo de la curva y su punto de inflexión.
ESTUDIOS DESCRIPTIVOS DE VARIABLES
CUANTITATIVAS: Los programas informáticos de Estadística ofrecen una colección de estadísticos que pueden asociarse a una variable cuantitativa, en la práctica la definición de una variable con la serie de estadísticos citados no tiene sentido y debe razonarse la explicación de su uso generalmente el resumen de la información se realiza a través de una medida de centralización y la medida de dispersión asociada. En este apartado se explicará brevemente el significado de los estadísticos más comunes asociados a una variable cuantitativa. Las medidas de tendencia central tratan de resumir una variable cuantitativa por su «valor más representativo». Las medidas de dispersión complementan el uso de una medida de tendencia central con una medida de la desviación general de los datos respecto a la medida de centralización.
El objetivo de las medidas de asimetría consiste en determinar la simetría de los datos respecto a una distribución normal. El uso del coeficiente de asimetría indica que cuanto mayor sea su valor mayor es la asimetría. Valores positivos o negativos indican asimetría positiva o negativa. Valor cero es el valor ideal para indicar simetría.
DISTRIBUCIÓN DE FRECUENCIAS: La Distribución de Frecuencias presenta en forma resumida la información procedente de una o varias variables mediante tablas o gráficos. Requisito fundamental de las clases de frecuencias es que cualquier valor posible de una variable debe pertenecer a una de las clases previstas y solamente a una.
El histograma o diagrama de rectángulos representa las frecuencias por las áreas de rectángulos construidos con una base constante y alturas según los valores de las frecuencias. El polígono de frecuencias se construye uniendo los extremos del diagrama de barras. El estudio de frecuencias para muestras multidimensionales se resuelve con tablas cruzadas de las frecuencias de presentación de las variables y tiene una representación clara en dos dimensiones en una tabla de frecuencia de doble entrada.
– Las propias características del experimento a estudiar.
– La forma de la gráfica de su distribución de frecuencias.
– La interpretación de los valores estandarizados de asimetría y curtosis.
– La realización de un contraste estadístico de normalidad.
ESTUDIO DE UNA VARIABLE CUANTITATIVA: El análisis de una variable cuantitativa debe iniciarse comprobando si la distribución de la variable a estudiar sigue la distribución normal. Su confirmación llevará hacia un camino que se inicia con la elección de la media y desviación típica para definir la variable. Para el estudio de una variable que sigue la distribución normal, el significado de la desviación típica permite conocer la variabilidad de los datos sabiendo que el 95% de los casos están comprendidos entre la media más/menos 2 desviaciones típicas, información que puede ser ampliada en ambos sentidos tanto como se desee. Una representación gráfica de una variable cuantitativa es la denominada de «caja» o más común box-plot.
ANÁLISIS DE SUPERVIVENCIA: Su denominación procede de la importancia de su uso para determinar probabilidad de muerte a lo largo del tiempo en pacientes con una enfermedad determinada. Bajo un punto de vista práctico su uso no debe restringirse exclusivamente al uso de la muerte, sino que puede aplicarse para estudiar cualquier otro tipo de circunstancias, como recidiva, aparición de ciertos síntomas, etc. Es importante realizar estudios de supervivencia paralelos en poblaciones similares con alguna característica diferente determinada por la clase de tratamiento, estadio de la enfermedad, edad, etc., para determinar la influencia de estos factores en la supervivencia de los pacientes. Para finalizar el estudio es importante el uso de un contraste estadístico para valorar si la diferencia entre poblaciones es o no significativa.
INFERENCIA ESTADÍSTICA: Constituye un procedimiento inductivo que va de lo particular a lo general y que permite obtener conclusiones de una población a través de la información proporcionada por una muestra. Es lógico presuponer que la muestra utilizada ha de ser representativa de la población. Para conseguirlo es preciso que cada individuo de la población tenga la misma probabilidad de salir elegido como integrante de la muestra y que la selección de uno de ellos no condicione la selección de otro . Esta actitud es válida con la consideración de que la muestra debe ser posteriormente revisada por si fuera preciso hacer algunas modificaciones sobre la definición de las características de la población.
USO DE ALGUNOS CONTRASTES DE SIGNIFICACIÓN ESTADÍSTICA: Pruebas de la bondad de ajuste de la muestra a una distribución determinada.
Se trata de contrastes cuya hipótesis nula considera que la muestra obtenida sigue una función de distribución conocida con unos parámetros determinados. Los contrastes correspondientes se basan en la determinación del grado de acuerdo entre la distribución de un conjunto de valores de la muestra y la distribución teórica específica. En ambos casos la hipótesis nula H0 se formula como que la muestra pertenece a la distribución descrita. La valoración del estadístico obtenido lleva a un valor p de probabilidad.
° Estimación de parámetros: Consiste en determinar el valor de los parámetros de la población a partir de los estadígrafos de la muestra. La aplicación del teorema central del límite permite estimar cualquier parámetro de la población con el uso de un intervalo de confianza, que es un intervalo simétrico en torno a un parámetro definido por dos valores entre los cuales se debe encontrar el valor verdadero de la estimación con un nivel de confianza predeterminado. El valor del error típico es directamente proporcional a la dispersión de la distribución e inversamente proporcional al número de datos de la muestra y se obtiene a partir de una fórmula específica para cada parámetro.
° Contrastes de hipótesis: Para decidir con objetividad si una hipótesis particular es confirmada por un conjunto de datos, necesitamos un procedimiento que nos lleve a un criterio objetivo para rechazar o aceptar esa hipótesis.
o Formulación de la hipótesis de nulidad (H0).
o Elección de una prueba estadística para probar H0.
o Especificación del nivel de significancia (a) y del tamaño de la muestra (N).
o Encuentro (o suposición) de la distribución muestral de la prueba estadística conforme a H0.
o Definición de la región de rechazo.
o Cálculo del valor de la prueba estadística con los datos obtenidos de la(s) muestra(s).
un valor de significación p en las variables siguientes: Edad (p<0,0001), Peso (p=0,004), Peso en Hombres (p=0,693), Peso en Mujeres (p=0,333), Talla en Hombres (p=0,128), Talla en Mujeres (p=0,128), Tensión sistólica (p<0,0001), Tensión diastólica (p<0,0001), Colesterol (p=0,510), TSH (p<0,0001) y T4 (p=0,461). Se observa que debe rechazarse significativamente la hipótesis de normalidad para las variables con p<0,05.
Contrastes de independencia de variables
cualitativas. Tablas de contingencia: La distribución cruzada de las frecuencias de las diversas categorías de dos variables proporciona la información para valorar la relación de dos variables cualitativas. Este problema se resuelve por los llamados contrastes de independencia, que partiendo de una hipótesis nula de independencia entre las dos variables obtienen una valoración de la diferencia entre resultados teóricos y reales.
Contrastes para comparar dos muestras relacionadas: En realidad se trata de un estudio de una muestra única en el que se establece el efecto de un «tratamiento», entendiendo con este concepto una multiforme variedad de condiciones. En estos contrastes la hipótesis nula se formula indicando que la media de las diferencias entre las dos poblaciones es cero. Como en todos los contrastes los estadísticos obtenidos se valoran con la tabla de distribución correspondiente.
Contrastes para comparar k muestras independientes: La técnica paramétrica usual para probar si varias muestras independientes proceden de la misma población es la denominada. Ambas contrastan la hipótesis nula que las k muestras independientes se recogieron de la misma población o de k poblaciones idénticas.
RELACIÓN ENTRE VARIABLES: El estudio de la posible relación existente entre variables cuantitativas se resuelve con las técnicas estadísticas de correlación y regresión.
Análisis de correlación: El análisis de correlación se realiza cuantificando el grado de la relación entre variables en un valor único llamado coeficiente de correlación. Existen diferentes coeficientes de correlación paramétricos y no paramétricos que toman un valor positivo o negativo de valor absoluto comprendido entre 0 y 1. El valor absoluto del coeficiente indicará un nivel de relación mejor según se acerque al valor 1, de tal forma que el caso en que r=1 indicará que la relación lineal es perfecta. Es interesante determinar el valor a partir del cual se puede considerar significativa la correlación entre dos variables.
Análisis de regresión: El análisis de regresión comprende las técnicas estadísticas para determinar una fórmula que servirá para obtener los valores de una variable dependiente en función de n variables independientes. El modelo lineal se resuelve con exactitud y rapidez con el uso del cálculo matricial utilizando el método de mínimos cuadrados de Gauss . El procedimiento de regresión paso a paso es un modelo general de regresión múltiple con la particularidad que selecciona las variables independientes más representativas.