Descripción de variables: la media de las medias, ¿es la media general?

En este número vamos a ver cómo realizar la descripción de una serie de variables de una investigación que hemos llevado a cabo. Por ejemplo, hemos hecho un estudio de ganancias, consumos e índices de conversión en lechones en el destete, de forma muy sencilla y muy elegante. R es un paquete muy potente y nosotros estamos usando un entorno de trabajo muy sencillo como es RCommander. Sin embargo, a veces las salidas que nos ofrece dejan mucho que desear, por lo que vamos a explorar otras herramientas en los artículos siguientes.

DESCRIPCIÓN DEL REGISTRO DE DATOS
Imaginemos que queremos saber las ganancias diarias, los consumos y el índice de conversión en un destete.
■  Primero tomamos la muestra: para ello, seleccionamos y marcamos una serie de lechones que posteriormente en el destete distribuimos de forma aleatoria en 40 corrales.
■  Para registrar los consumos, los alimentamos diariamente durante 40 días y registramos el consumo diario por corral.
■  Para el registro de ganancias diarias se procede de la siguiente manera: el día de inicio de la prueba (comienzo de destete) se pesan los lechones; el día 12 cambiamos el primer pienso por el segundo y pesamos los lechones. Después, seguimos alimentando los lechones con el segundo pienso hasta el día 40. Pesamos los lechones de nuevo, dando por finalizada nuestra recogida de datos.
De este modo obtuvimos las siguientes variables: peso al inicio, a día 12 y a día 40, consumo diario de pienso por corral que lo resumimos en consumo hasta el día 12, del 13 al 40 y consumo global, calculamos la ganancia media diaria por corral y obtenemos la ganancia media del inicio al día 12, del día 13 al 40 y la global, y por último los correspondientes índices de conversión (tabla 1). Nuestro conjunto de datos podría asemejarse a la figura 1.





TRABAJAMOS CON R EN LA DESCRIPCIÓN DE VARIABLES

Así que iniciaremos nuestro trabajo con R, cargaremos RCommander con la instrucción library(Rcmdr). En este número vamos a ver cómo cargar datos a RCommander (o a R) desde un fichero de Excel (donde la mayoría vais a tener los datos). Para cargar nuestros datos desde un archivo Excel, en RCommander iremos a “Datos/Importar datos/Desde un archivo Excel…”, nos aparecerá una ventana donde le indicaremos el nombre que queremos darle a nuestro conjunto de datos, y posteriormente, tendremos que indicarle a RCommander dónde están y cuál es nuestro archivo, como en la figura 2.
Ya hemos elegido nuestro archivo de datos “media. xlsx” y ahora vamos a ver un resumen de los datos. Desde “Estadísticos/Resúmenes de datos activos” podemos ver nuestras variables y un resumen de cada una de ellas.
Pero R no es muy amigable con los resúmenes de datos. Si quisiéramos ver, por ejemplo la media de las variables “adg1, adg2 y adg_tot” podríamos ir a “Estadísticos/Resúmenes de datos activos/Resúmenes numéricos…” y elegir las anteriores. Yendo a la pestaña de “Estadísticos” podríamos elegir la media y la desviación típica y obtendríamos la siguiente salida:

 numSummary(media[,c(“adg1”, “adg2”, “adg_tot”)], 
statistics=c(“mean”, “sd”), quantiles=c(0,.25,.5,.75,1))
          mean       sd          n
adg1      0.148800   0.05779681  40
adg2      0.599675   0.04632017  40
adg_tot   0.465575   0.03465721  40



Mejor con la función “stat.desc()” La función “stat.desc()” del paquete “pastecs” nos va a dar un resumen amplísimo de estadísticos y es muy fácil de activarla. Veamos cómo funciona. En primer lugar deberemos cargarla en R. Desde la consola principal, iremos a “Paquetes/Instalar paquetes…” elegiremos nuestro repositorio (por ejemplo Madrid) y buscaremos el paquete “pastecs”. Una vez descargado, lo activaremos mediante la función library(pastecs) y ya lo tendremos cargado. Los argumentos de la función “stat.desc()” son muy sencillos:

stat.desc(x, basic=TRUE, desc=TRUE, norm=FALSE, p=0.95)

Los explicamos con más detalle: n “x” son nuestros datos.
Si basic=TRUE (por defecto) la salida nos mostrará el número de datos, el número de datos nulos, el número de valores perdidos, el mínimo y el máximo valor, el rango y la suma de los datos.
Si desc=TRUE (también activado por defecto), la salida nos mostrará la mediana, la media, el error estándar de la media, el valor del 95 % del intervalo de confianza de la media, la varianza, la desvia- ción estándar y el coeficiente de variación.
Finalmente si norm=TRUE (no por defecto, hay que activarlo), la salida nos dará los estadísticos de la distribución normal incluyendo la curtosis, el apuntamiento (con su significación estadística y el test de normalidad Shapiro–Wilk. Activar este argumento es útil para comprobar que nuestros datos se pueden ajustar a una distribución normal.
El valor de p se usa para calcular el intervalo de confianza de la media. Así, si escribimos el siguiente código en la pantalla de instrucciones de RCommander:

stat.desc(media)

Obtendremos una salida con todas nuestras variables y con todos los estadísticos previamente escritos
como por defecto. Para hacerlo más elegante, podemos escribir:

round(stat.desc(media), digits = 3)

y obtendremos la misma salida anterior pero sólo con 3 decimales por estadístico. También podemos indicarle que sólo queremos una determinada variable, por ejemplo adg_tot (la ganancia media diaria total) de la siguiente forma:

round(stat.desc(media$adg_tot), digits = 3)

Y obtendremos la figura 3.



En el siguiente número veremos, utilizando este
mismo conjunto de datos, cómo realizar un informe,
con una serie de gráficos muy completos y algunas
cosas más interesantes.

Documento para realizar la prueba: "media.xlsx"

Comentarios

Entradas populares