Relaciones entre variables

Una de las mejores herramientas de R, y además muy poderosa, es la creación de gráficos que con otros programas no pueden obtenerse o resultan muy difícil de hacer. En esta ocasión queremos mostrarles cómo de una forma muy sencilla podemos obtener unos gráficos que nos ayudarán en nuestra gestión y en la toma de decisiones: los denominados scatterplots o gráficos de dispersión.
Dichos gráficos pueden ofrecer una información muy valiosa a la hora de analizar la relación que pueda existir entre las variables de nuestro estudio.

DATOS Y OBJETIVOS
Para seguir el ejemplo es necesario descargarse el archivo denominado “numero4.xls” el cual se encuentra al final de la pagina. Una vez descargado, hay que abrir R y cargar RCommander (bien con la instrucción “library(“Rcdmr” o a través de “Paquetes/Cargar paquete...” y eligiendo “Rcmdr”).
Para cargar el archivo “numero4.xls” en RCommander, hay que ir a “Datos/Importar datos/Desde
conjunto de datos Excel...” y, mediante el buscador de Windows, acceder a la carpeta donde hayamos almacenado el archivo “numero4.xls”.
Para saber si lo hemos cargado correctamente, hayque hacer clic en el botón “Visualizar conjunto de
datos”. Allí aparecerán los datos del archivo “numero4.xls”. Una vez comprobado, cerraremos el visor.

RESÚMENES DE DATOS

Vamos a practicar con el menú “Estadísticos” de RCommander. En primer lugar, si seleccionamos
“Estadísticos” nos aparece la opción “Resúmenes/Conjunto de datos activos” (figura 1). Cuando elegimos esta opción, lo que hace RCommander
es darnos información sobre cada una de las variables de nuestros datos. De este modo sabremos cuántas crianzas hemos realizado en cada una de las tres granjas y para cuántas crianzas ha fabricado pienso cada fábrica. Así mismo, la variable cuantitativa “pesoentra” (peso de entrada en kg de nuestros animales), nos da una serie de valores estadísticos. Nos informa acerca del peso mínimo y del máximo, de la media y de una serie de medidas de dispersión, como los cuartiles.
El “1st Qu.” se refiere al cuartil 25, “3rd Qu.”es el cuartil 75 y la mediana o cuartil 50 viene indicado por el estadístico “Median”. Podemos ver que la instrucción generada en la ventana de instrucciones es “summary(Datos)” que no parece demasiado complicada. De hecho, si vamos a la ventana de R y escribimos en la línea de comandos “summary(Datos)” nos aparecerán los mismos resultados que hemos obtenido a través de RCommander.
Si escogemos la siguiente opción, “Resúmenes numéricos”, RCommander nos permite obtener para la variable cuantitativa “pesoentra” una serie de estadísticos resumidos por grupos formados por las variables cualitativas (en este caso “granja” y “fabrica”; figura 2).
Podemos seleccionarlos todos (“Media” (mean), “Desviación típica” (typical desviation), “Coeficiente de variación” (coefficient of variation), “Asimetría” (skewness), “Apuntamiento” (kurtosis) y “Cuantiles” (quantiles).
Seleccionamos con el botón “Resumir por grupos” primero la variable “granja”, aceptamos y obtendremos los estadísticos anteriormente seleccionados de la variable “pesoentra” (peso de entrada) para cada una de nuestras tres granjas en cuestión (figura 3).

Si repetimos la operación, pero esta vez eligiendo la variable “fabrica” obtendremos los anteriores estadísticos, pero ahora agrupados por dicha variable.En ambos casos RCommander nos informa ade-
más del número total de crianzas realizadas en cada granja o fábrica mediante la columna denominada “data:n” y también de los valores perdidos o missing (si los hubiera) mediante la colum-
na “data:NA” (Not Available).
Seguimos explorando la ventana “Estadísticos” y la siguiente opción que nos encontramos es la “Distribución de frecuencias”, que ya vimos cómo usar en el artículo anterior. El lector puede recordar su uso si la selecciona.
La siguiente opción nos informa de algo que ya hemos visto, los valores missing o valores ausentes. Si seleccionamos la opción, podremos confirmar si tenemos un valor ausente o missing. Dedicaremos al menos un artículo de esta serie al tratamiento de los valores missing que R etiqueta como NA (Not Available).Si seleccionamos “Tabla de estadísticas” tendremos la opción de obtener un solo estadístico o los que nosotros queramos en vez de todos los que nos ofrecía la opción “Resúmenes numéricos”. Dejamos al lector la libertad para interactuar con esta selección.

La programación no es complicada
Aunque el objetivo de esta serie es usar la interfaz RCommander para facilitar la tarea del análisis estadístico de datos, no queremos perder la oportunidad de resaltar la facilidad de programación de R. Si vemos tanto en la “Ventana de instrucciones” como en la “Ventana de resultados”, las órdenes que generan nuestras diferentes acciones podremos entender muy fácilmente qué hace R y cómo lo hace. Rogamos encarecidamente al menos tratar de entender estas simples instrucciones, ya que con unas sencillas modificaciones seremos capaces de incrementar nuestros estudios.
EDITAR DATOS PARA FACILITAR LA LECTURA
Antes de seguir adelante con nuestro análisis, quere- mos que las salidas de datos se realicen de forma más elegante. Como pretendemos enseñar a unos clien- tes nuestro análisis, vamos a decirle a RCommander que “pesoentra” es el “Peso de entrada en kg” de nuestros animales y daremos además una correcta descripción a las otras dos variables descriptivas. Para ello, seleccionamos el botón “Editar conjunto de datos” y nos aparecerá una ventana a modo de hoja de cálculo con nuestros datos. Si seleccionamos la casilla “pesoentra” nos aparece una ventana donde nos da la posibilidad de modificar esta descripción, así que la cambiaremos por “Peso de entrada”. Las otras dos variables las cambiaremos por “Granja” y “Fábrica de pienso”. Cerrando el “Editor del conjunto de datos” y seleccionando el botón “Visualizar conjunto de datos”, veremos nuestros cambios.



EDITAR DATOS PARA FACILITAR LA LECTURA
Dijimos en el primer artículo que una de las grandes posibilidades que nos da R es la multitud de gráficas que es capaz de generar, así como su potencia en el análisis gráfico. Hoy vamos a usar la opción “Gráficas” para ver de qué somos capaces y cómo podemos presentar nuestros datos con opciones del menú de RCommander.

Gráfica de tallos y hojas
En el menú “Gráficas” aparece una opción que no es muy usada pero que sirve para ver no sólo la forma de la distribución de nuestros datos, sino también ver todos los datos. Es la “Gráfica de tallo y hojas” también conocido por su nombre en inglés, stem and leaf. Si lo seleccionamos, nos aparecerá en la “Ventana de resultados” una curiosa forma de representar los datos de nuestro conjunto (figura4).

Histograma
Una de las gráficas más usadas en estadística son los histogramas. RCommander nos permite tres formas de ver los datos: mediante el “Recuentos de frecuencias”, en “Porcentajes” y en “Densidades”. Seleccionando cada uno de ellos veremos el resultado de nuestras acciones.

Diagrama de caja
Un gráfico muy útil y descriptivo es el diagrama de caja, también llamado boxplot. RCommander lo habilita en la opción “Diagrama de caja” y nos da la posibilidad de obtener los resultados en función de la variable de clasificación que elijamos, en nuestro caso, las variables a elegir serían “fabrica” o “granja”.Resulta muy útil representar, antes o después del diagrama de caja, un diagrama de puntos donde nos aparecerá cada uno de nuestros valores clasificados por la variable que hayamos elegido.

¿Por qué elegir gráficas combinadas?
La gráfica avanzada que les proponemos a continuación, que combina el histograma y el diagrama de caja y que añade información específica a las barras del histograma, sólo se puede realizar a través de programación que insertaremos en la “Ventana de instrucciones”. Aquí habrá que copiar, en la “Ventana de instrucciones” (con el fichero “numero3.xls” cargado y sin modificar las etiquetas), el código que aparece en el documento “guion3.doc”, descargable en http://testsndtrials.blogspot.com.es.
Una vez copiado el código, selecciónelo mediante el ratón y active el botón “Ejecutar” en la parte derecha de la pantalla de RCommander que se encuentra separando las ventanas de instrucciones y resultados y aparecerá este gráfico (figura 6). Si no lo vemos, será necesario abrir la ventana principal de R.

Sobre las gráficas
Un comentario acerca de cómo muestra RCommander las gráficas: el lector se habrá fijado que al crear una gráfica, y según cómo esté definido nuestro ordenador, en ocasiones no lo vemos, pero nuestra gráfica aparece al activar la ventana principal de R. Ya veremos cómo tener múltiples ventanas abiertas con múltiples gráficas en posteriores artículos. De momento lo que haremos con las gráficas es o bien guardarlas con las opciones que nos dan los menús de la propia ventana generada al crear una de ellas o simplemente destruirlas, cerrando la ventana de la misma.







Documento para realizar la prueba: "numero4.xls"

No hay comentarios:

Publicar un comentario