Gráficos que no debemos usar

Estudiando un curso de estadística (Data Analysis for Life Sciences, de RA Irizarrry y MI Love, 2015), los autores describen toda una sección de gráficos que se deben evitar al trabajar con datos obtenidos de estudios biológicos o animales. Esta sección está basada en una serie de conversaciones que los au- tores tuvieron con Karl W. Broman, quien se inspiró en el artículo de H. Wainer “¿Cómo mostrar los datos erróneamente?” (Wainer H., 1984). Las reglas generales que deben usarse cuando se quieran usar gráficos para mostrar los datos son:
1.Mostrar la máxima información posible en ese gráfico.
2.El gráfico debe ser tan claro y visual como sea posible.
3.No usar artilugios innecesarios como efectos 3D, colores imposibles u otros recursos artísticos.
4.No usar gráficos de sectores (pie charts en inglés). La mente humana distingue muy mal entre la superficie de sectores circulares, por lo que es más adecuado el uso de gráficos que muestran linealidades, como los gráficos de barras o los gráficos de puntos. Veremos ejemplos.
5.No usar escalas inapropiadas.
6.Usar el gráfico adecuado para cada tipo de dato. 
  
OLVIDEMOS LOS GRÁFICOS DE SECTORES
El peor error es el uso de gráficos de sectores, también denominados gráficos circulares en Microsoft Excel o gráficos de círculos en Open Office. Veamos la figura 1 donde se muestran los datos de mortalidad en las salas de parto de una granja de cerdas mediante un gráfico de sector. ¿Seríamos capaces de asignar el porcentaje de cada una de las causas de mortalidad en la citada granja viendo solo ese gráfico? Animamos al lector a que lo haga y siga leyendo.

Gráfico de sectores en R
Vamos a introducir los datos en R para realizar este gráfico. Iniciamos R, activamos RCommander mediante la instrucción library (Rcmdr) y en la pantalla de instrucciones escribiremos:

Con esta instrucción hemos asignado al objeto
“Mortalidad” los datos que tenemos y queremos
representar en el gráfico sobre el porcentaje de
mortalidad en la granja de cerdas.
Crearemos el gráfico de sectores:

Y obtendremos el gráfico de la figura 1.
Si queremos ver los porcentajes podemos escribir:







y nos dará la siguiente salida:







LOS GRÁFICOS DE TRAPECIOS CIRCULARES TAMPOCO SIRVEN
Por último en este apartado de gráficos que deben evitarse está el tipo denominado trapecios circulares o donuts charts (figura 2).




¿QUÉ TIPO DE GRÁFICO SERÍA CORRECTO PARA ESTOS DATOS Y OTROS SIMILARES?


El gráfico adecuado para este tipo de datos es el de barras con el eje “y” marcado. Escribimos en la pantalla de instrucciones:


y obtendremos la figura 3, mucho más informativa
que la figura 1.





Tampoco sirven en 3D
Debemos evitar los gráficos en 3D, dado que también hacen difícil la percepción de los datos (figura 4). Este gráfico no puede realizarse desde RCommander, por lo que hay que programarlo. El código que lo genera está en el archivo “Codigo graficos 1.pdf” localizado en nuestro blog, así como todos los demás códigos que no aparecen en el artículo para generar los diferentes gráficos. ¿Podemos ver las diferencias entre las dos granjas? Incluso si añadiésemos líneas sobre el eje “x” sería muy complicado. Así pues, este tipo de gráficos son bonitos pero poco útiles.


 Limitaciones de los gráficos de barras

Aunque los gráficos de barras son muy útiles e informativos para usar porcentajes o valores de una única variable, no debemos usarlos para mostrar resúmenes numéricos. Por ejemplo, si queremos mostrar datos que comparan dos grupos como la mortalidad de lechones en salas de parto, los gráficos de barras no son útiles ni ilustrativos. Veamos un ejemplo: imaginemos los datos de mortalidad de lechones en salas de parto en dos granjas durante el año 2016. Podemos obtener los datos al final de la pagina. Cargaremos el archivo con el nombre de “mortalidad.csv”. Denominaremos al conjunto de datos “Mortalidad”. Una vez cargados, lo primero que haremos será explorar el archivo de datos a través de “Estadísticos/Resúmenes/Resúmenes numéricos”, eligiendo la variable “Granja” como factor de agrupación y la variable “Mortalidad” como variable que queremos estudiar. Así obtendremos un resumen de la mortalidad en cada granja en el año 2016 (cuadro). Un gráfico de barras con estos datos tendría un aspecto como la figura 5. Este gráfico (cuyo código está en el archivo “Codigo graficos 1.pdf”) nos da básicamente tres números: la media y los límites del intervalo de confianza de la media. Es mucho más informativo un diagrama de caja o boxplot donde, además de ver la información anterior, la tenemos representada sobre la variabilidad de los datos (podemos ver incluso toda la distribución si nuestra serie de datos es pequeña, aunque no es este el caso del ejemplo).

Si vamos a “Gráficos/Diagrama de caja”, elegimos la variable “Granja” como factor de grupo y la variable “Mortalidad” como la variable que queremos representar, obtendremos un gráfico como el de la figura 6. En un diagrama de caja vemos el centro de la distribución de los valores (línea gruesa central), el rango de esa distribución dado por los límites de la caja (que además son el percentil 25 y 75) y los puntos máximo y mínimo.


En los próximos números seguiremos viendo cómo trabajar correctamente con gráficos y otras utilidades.

Archvo  mortalidad.csv

No hay comentarios:

Publicar un comentario