Test estadísticos clásicos

Cuando tenemos dos muestras de datos, habitualmente podemos realizar:
  • Comparaciones de sus varianzas, para estudiar si la variabilidad de las muestras es la misma.
  • Comparaciones de sus medias, en el caso de que la distribución de sus errores sea normal.
  • Comparaciones de sus medias, en el caso de que la distribución de sus errores no sea normal.
  • Comparaciones de dos proporciones.
  • Estimación de la correlación entre dos variables.
  • Estudiar la independencia de dos variables.
Para cada una de estas comparaciones existen diferentes test estadísticos que vamos a aprender a usar. En este artículo analizaremos el primer punto.

TEORÍA DE LA COMPARACIÓN DE DOS MEDIAS
El clásico test para la comparación de dos medias que provienen de muestras pequeñas es el test t de Student, que asume que las muestras son independientes una de la otra (no provienen de la misma población), sus varianzas son constantes y sus errores se distribuyen de forma normal. Veremos más adelante cómo estudiar estas violaciones y qué hacer cuando nos las encontramos.
Student fue el pseudónimo de William Sealy Gosset, quien publicó un artículo en la revista Biometrika en 1908 desarrollando el test que lleva su nombre. No publicó el estudio con su verdadero nombre porque las leyes que existían en aquel momento impedían a un empleado de Guinness Brewing Company publicar trabajos científicos de forma independiente. La leyenda dice que W.S. Gosset desarrolló esta técnica estadística para demostrar que los lotes de cerveza Guinness eran diferentes en algunos parámetros unos de otros. La técnica de Student fue mejorada posteriormente por Ronald Aylmer Ficher, que revolucionó la estadística con el estudio de muestras pequeñas. El estadístico que propuso Student fue la famosa “t”, que es el número de errores estándar que contiene la diferencia de las medias que estamos estudiando. Si lo expresamos por medio de una fórmula:

siendo -yA la media de la muestra A y -yB la media de la muestra B.

El error estándar de la diferencia de dos medias independientes es igual a la suma ponderada de la varianzas de cada muestra. La fórmula del error estándar de la diferencia es:


siendo S^2A la varianza de la muestra A y S^2B la varianza de la muestra B.



Esto es todo lo que debemos conocer para realizar un test t de Student.
Nuestra hipótesis nula es que las dos muestras son iguales, es decir, que no hay diferencia entre ellas, y aceptaremos esta hipótesis a menos que el valor de t-Student sea tan grande que sea improbable que
tal diferencia sea debida al azar.


COMPARACIÓN DE MEDIAS CON R 
Vamos a verlo con un ejemplo con R. Abrimos R (si es usted nuevo vaya a anteriores artículos, donde explicábamos cómo comenzar a usar R). Ahora activaremos nuestro ayudante Rcommander, bien a través de “Paquetes/Cargar paquete” y elegimos “Rcmdr”, o bien desde la ventana de instrucciones de R escribiendo “library”(“Rcmdr”). Ya tenemos la herramienta lista. Ahora vamos a descargarnos unos datos con los que trabajar. Iremos al final de la pagina y descargaremos el archivo denominado “IDC2.csv”. IDC2.csv es un archivo que contiene los datos del intervalo destete-celo (IDC) de 29 cerdas de una granja donde se quería probar si un tratamiento hormonal aplicado a las cerdas tras el destete mejoraba el IDC de las mismas. Este archivo contiene 29 casos y dos variables:
  • “tto” (variable categórica), con dos valores “y” y “n”. “tto” es la variable que define las dos muestras (A y B). Las cerdas que recibieron el tratamiento tendrán un valor “y” (yes), y conformarán la muestra A. Por el contrario, la muestra B está formada por las cerdas que no recibieron dicho tratamiento, que tendrán un valor “n” para la variable “tto”.
  • “IDC” (variable numérica), son los valores en días del intervalo destete-celo resultado de tratar o no las cerdas tras el destete. 
Así que los cargaremos en RCommander a través de "Datos/Importar datos/desde archivo de texto..."y elegiremos el archivo “IDC2.csv” en la carpeta donde lo hayamos guardado.
En el cuadro que nos aparece para cargar los datos hay que especificar que las variables están separadas por puntos y coma (“;”) y que el signo
decimal es “coma (,)” ya que si no, el sistema no cargará bien los datos.
Una vez cargados los datos, si no hemos cambiado el nombre de cómo queremos que se denominen los datos, por defecto se denominan “Datos” y podemos verlos activando la pestaña “Visualizar el conjunto de datos” (figura 1).
Para realizar el test t de Student, iremos a “Estadísticos/Medias/Test t para muestras independientes” y dejaremos activadas las opciones de “Hipótesis alternativa bilateral”, “Nivel de confianza a .95” y en la pregunta “¿Suponer varianzas iguales”, activaremos la casilla “Sí” (figura 2).





Conclusiones
El resultado de nuestro estudio es que el IDC de las cerdas tratadas (“y”) es de 9,39 días y la media de IDC de las cerdas no tratadas (“n”) es de 11,25 días (ver figura 3). Sin embargo, dado que nuestro valor de p es mayor de 0,05 (p=0,1538), no podemos rechazar la hipótesis nula, así que esta diferencia (9,39 días frente a 11,25) no es suficiente para decir que el tratamiento ha sido efectivo, y nuestra conclusión será que no hay diferencia en el IDC de las cerdas tratadas frente a las no tratadas. Es decir, a la vista de estos resultados no realizaríamos este tratamiento hormonal a las cerdas, ya que no se ha demostrado que disminuya el IDC.

Archivo para descargar IDC2.csv

Comentarios

Entradas populares