Descripción de variables: la media de las medias, ¿es la media general?
En este número vamos a ver cómo realizar la descripción
de
una
serie
de
variables
de
una
investigación
que hemos llevado a cabo. Por ejemplo,
hemos
hecho un estudio de ganancias, consumos e
índices
de conversión en lechones en el destete, de
forma
muy sencilla y muy elegante.
R
es un paquete muy potente y nosotros estamos
usando
un entorno de trabajo muy sencillo como
es
RCommander.
Sin embargo, a veces las salidas
que
nos ofrece dejan mucho que desear,
por lo que
vamos
a explorar otras herramientas en los artículos siguientes.
DESCRIPCIÓN DEL REGISTRO DE DATOS
Imaginemos que queremos saber las ganancias diarias, los consumos y el índice de conversión en un destete.
■ Primero tomamos la muestra: para ello, seleccionamos y marcamos una serie de lechones que posteriormente en el destete distribuimos de forma aleatoria en 40 corrales.
■ Para registrar los consumos, los alimentamos diariamente durante 40 días y registramos el consumo diario por corral.
■ Para el registro de ganancias diarias se procede de la siguiente manera: el día de inicio de la prueba (comienzo de destete) se pesan los lechones; el día 12 cambiamos el primer pienso por el segundo y pesamos los lechones. Después, seguimos alimentando los lechones con el segundo pienso hasta el día 40. Pesamos los lechones de nuevo, dando por finalizada nuestra recogida de datos.
De este modo obtuvimos las siguientes variables: peso al inicio, a día 12 y a día 40, consumo diario de pienso por corral que lo resumimos en consumo hasta el día 12, del 13 al 40 y consumo global, calculamos la ganancia media diaria por corral y obtenemos la ganancia media del inicio al día 12, del día 13 al 40 y la global, y por último los correspondientes índices de conversión (tabla 1). Nuestro conjunto de datos podría asemejarse a la figura 1.
DESCRIPCIÓN DEL REGISTRO DE DATOS
Imaginemos que queremos saber las ganancias diarias, los consumos y el índice de conversión en un destete.
■ Primero tomamos la muestra: para ello, seleccionamos y marcamos una serie de lechones que posteriormente en el destete distribuimos de forma aleatoria en 40 corrales.
■ Para registrar los consumos, los alimentamos diariamente durante 40 días y registramos el consumo diario por corral.
■ Para el registro de ganancias diarias se procede de la siguiente manera: el día de inicio de la prueba (comienzo de destete) se pesan los lechones; el día 12 cambiamos el primer pienso por el segundo y pesamos los lechones. Después, seguimos alimentando los lechones con el segundo pienso hasta el día 40. Pesamos los lechones de nuevo, dando por finalizada nuestra recogida de datos.
De este modo obtuvimos las siguientes variables: peso al inicio, a día 12 y a día 40, consumo diario de pienso por corral que lo resumimos en consumo hasta el día 12, del 13 al 40 y consumo global, calculamos la ganancia media diaria por corral y obtenemos la ganancia media del inicio al día 12, del día 13 al 40 y la global, y por último los correspondientes índices de conversión (tabla 1). Nuestro conjunto de datos podría asemejarse a la figura 1.
TRABAJAMOS CON R EN LA DESCRIPCIÓN DE VARIABLES
Así que iniciaremos nuestro trabajo con R, cargaremos
RCommander
con
la
instrucción
library(Rcmdr).
En este
número
vamos a ver cómo
cargar
datos a RCommander (o a R) desde un fichero
de Excel (donde la mayoría vais a tener los datos).
Para
cargar nuestros
datos desde
un archivo
Excel,
en RCommander iremos a “Datos/Importar
datos/Desde
un archivo Excel…”, nos aparecerá
una
ventana donde le indicaremos el nombre que
queremos
darle a nuestro conjunto de datos, y posteriormente,
tendremos que indicarle a RCommander
dónde están y cuál es nuestro archivo, como en
la
figura
2.
Ya hemos elegido nuestro archivo de datos “media. xlsx” y ahora vamos a ver un resumen de los datos. Desde “Estadísticos/Resúmenes de datos activos” podemos ver nuestras variables y un resumen de cada una de ellas.
Pero R no es muy amigable con los resúmenes de datos. Si quisiéramos ver, por ejemplo la media de las variables “adg1, adg2 y adg_tot” podríamos ir a “Estadísticos/Resúmenes de datos activos/Resúmenes numéricos…” y elegir las anteriores. Yendo a la pestaña de “Estadísticos” podríamos elegir la media y la desviación típica y obtendríamos la siguiente salida:
Ya hemos elegido nuestro archivo de datos “media. xlsx” y ahora vamos a ver un resumen de los datos. Desde “Estadísticos/Resúmenes de datos activos” podemos ver nuestras variables y un resumen de cada una de ellas.
Pero R no es muy amigable con los resúmenes de datos. Si quisiéramos ver, por ejemplo la media de las variables “adg1, adg2 y adg_tot” podríamos ir a “Estadísticos/Resúmenes de datos activos/Resúmenes numéricos…” y elegir las anteriores. Yendo a la pestaña de “Estadísticos” podríamos elegir la media y la desviación típica y obtendríamos la siguiente salida:
numSummary(media[,c(“adg1”, “adg2”, “adg_tot”)], statistics=c(“mean”, “sd”), quantiles=c(0,.25,.5,.75,1))
mean sd n adg1 0.148800 0.05779681 40 adg2 0.599675 0.04632017 40 adg_tot 0.465575 0.03465721 40
stat.desc(x, basic=TRUE, desc=TRUE, norm=FALSE, p=0.95)
Los explicamos con más detalle:
n “x” son nuestros datos.
Si basic=TRUE (por defecto) la salida nos mostrará el número de datos, el número de datos nulos, el número de valores perdidos, el mínimo y el máximo valor, el rango y la suma de los datos.
Si desc=TRUE (también activado por defecto), la salida nos mostrará la mediana, la media, el error estándar de la media, el valor del 95 % del intervalo de confianza de la media, la varianza, la desvia- ción estándar y el coeficiente de variación.
Finalmente si norm=TRUE (no por defecto, hay que activarlo), la salida nos dará los estadísticos de la distribución normal incluyendo la curtosis, el apuntamiento (con su significación estadística y el test de normalidad Shapiro–Wilk. Activar este argumento es útil para comprobar que nuestros datos se pueden ajustar a una distribución normal.
El valor de p se usa para calcular el intervalo de confianza de la media. Así, si escribimos el siguiente código en la pantalla de instrucciones de RCommander:
Si basic=TRUE (por defecto) la salida nos mostrará el número de datos, el número de datos nulos, el número de valores perdidos, el mínimo y el máximo valor, el rango y la suma de los datos.
Si desc=TRUE (también activado por defecto), la salida nos mostrará la mediana, la media, el error estándar de la media, el valor del 95 % del intervalo de confianza de la media, la varianza, la desvia- ción estándar y el coeficiente de variación.
Finalmente si norm=TRUE (no por defecto, hay que activarlo), la salida nos dará los estadísticos de la distribución normal incluyendo la curtosis, el apuntamiento (con su significación estadística y el test de normalidad Shapiro–Wilk. Activar este argumento es útil para comprobar que nuestros datos se pueden ajustar a una distribución normal.
El valor de p se usa para calcular el intervalo de confianza de la media. Así, si escribimos el siguiente código en la pantalla de instrucciones de RCommander:
stat.desc(media)
Obtendremos una salida con todas nuestras variables y con todos los estadísticos previamente escritos
como por defecto. Para hacerlo más elegante, podemos escribir:
round(stat.desc(media), digits = 3)
y obtendremos la misma salida anterior pero sólo con 3 decimales por estadístico. También podemos indicarle que sólo queremos una determinada variable, por ejemplo adg_tot (la ganancia media diaria total) de la siguiente forma:
round(stat.desc(media$adg_tot), digits = 3)
Y obtendremos la figura 3.
En el siguiente número veremos, utilizando este
mismo conjunto de datos, cómo realizar un informe,
con una serie de gráficos muy completos y algunas
cosas más interesantes.
Documento para realizar la prueba: "media.xlsx"
Comentarios
Publicar un comentario