Entendamos la variación, ya que ésta es la clave para entender y manejar el caos numérico

El título de este número es la traducción adaptada de un libro que les aconsejamos encarecidamente que lean. Se titula Understanding variation: The Key to Managing Chaos. El autor es Donald J. Wheeler (se puede consultar su biografía en http://en.wikipedia.org/wiki/Donald_J._Wheeler), quien, como verán, es toda una autoridad en estadística y en manejo de datos. Lo que de verdad importa en este libro es tomar conciencia de sus primeras reflexiones, y para ello presentamos esta serie de artículos sobre el manejo de datos con un resumen de su introducción. Dice el doctor Wheeler que vivimos en la era de la información y que la mayor parte de ésta nos llega en forma numérica. Miremos a donde miremos, estamos sumergidos en montañas de datos numéricos, índices, encuestas, informes de mercado o indicadores que a veces incluso son contradictorios, ya que podemos llegar a la conclusión, errónea, o no, de que comer produce cáncer o a que ¡el fumar lo cura! Disponemos de tal cantidad de datos que nos encontramos con un problema de sobreinformación. Y, citando a Daniel Boorstin, “la información es aleatoria y dispuesta de forma heterogénea, pero el conocimiento debe ser ordenado y acumulativo”; es decir, porque tengamos muchos datos no sabemos nada si no somos capaces de extraer conclusiones de los mismos. Desafortunadamente, nuestro sistema de educa- ción en todos los niveles no nos ha enseñado a realizar estas funciones y toda nuestra fuerza laboral y la sociedad en general no es capaz de leer entre las líneas de números para entender el significado que subyace. Esta falta de conocimiento a la hora de entender los números ha sido descrita no como una falta de entendimiento matemático, ya que todos somos capaces de manipular y manejar los números, sino como una ingenuidad numérica que se traduce en una falta de capacidad para entender las series numéricas. Las técnicas que proponemos en éste y los siguientes números de esta serie de artículos hacen hincapié en adquirir conocimiento para resolver la ingenuidad matemática y aprender a entender lo que los números nos dicen. Siguiendo con el libro del doctor Wheeler, uno de los ejemplos que más me gustan particularmente es el de un director general de una fábrica de zapatos, que fue entrevistado por el doctor David Chambers (fallecido en 1989, profesor de estadística en la Universidad de Tennessee y presidente muchos años de la American Society for Quality Control) y que tenía en su despacho un gráfico como éste (figura 1):


El doctor Chambers le preguntó por qué tenía ese gráfico en su despacho, donde destacaba de forma evidente, a lo que el director respondió que así veía lo que la planta hacía. Chambers le preguntó: “y dígame, ¿qué es lo que la planta hace?”. Nadie se había atrevido a formular tamaña pregunta al director general. Él miró detenidamente de nuevo el gráfico y contestó: “Bueno, el gráfico me dice que unos días son mejores que otros”. Huelgan los comentarios. Da igual cómo se presenten los datos, en tablas, en gráficos, como sea. Lo importante es el uso de una serie de técnicas para analizar los datos y tener una interpretación de ellos. Eso es lo verdaderamente interesante. Vamos a intentar comenzar a interpretar los datos y para ellos seguiremos los principios del doctor Walter Shewhart (http://es.wikipedia.org/wiki/ Walter_A._Shewhart), pero me gustaría decirles que ha sido una de las personas que a lo largo de la historia de la humanidad más ha colaborado en el desarrollo de técnicas estadísticas para entender los datos y, por ende, a mejorar la calidad. Fue él quien el 16 de mayo de 1924, trabajando en la compañía Western Electric Company, definió lo que hoy conocemos como SPC (control estadístico de procesos, por sus siglas en inglés de Statistical Process Control), y probablemente gracias a él los aliados ganaron la segunda guerra mundial.

LOS PRINCIPIOS DE SHEWHART
El primer principio que debemos conocer y entender para dejar de ser ingenuos matemáticamente hablando es el siguiente: “Los datos deberían ser presentados de tal forma que mantengan la evidencia en sí mismos para todas aquellas predicciones que puedan ser hechas a partir de ellos”. Vamos a explicarlo con ejemplos y notas prácticas.
■ Primero, un gráfico debe ir acompañado de una tabla con datos. Un gráfico de una serie temporal de datos o un histograma deben ir acompañados de una tabla de datos para su mejor comprensión.
■ Segundo, una tabla de datos no es suficiente para explicar una gran imagen. Las personas estamos orientadas de forma visual y las tablas de datos a menudo son aburridas y difíciles de interpretar.
■ Y tercero, el contexto del que se obtuvieron esos datos debe estar completamente explicado y descrito. ¿Cómo se obtuvieron los datos? ¿Cuándo se obtuvieron? ¿Quién los obtuvo? ¿Qué representan esos datos? Y si son datos calculados, ¿cuáles han sido los cálculos que se han hecho para obtenerlos y desde qué datos originales se han obtenido? ¿se ha cambiado el modo de cálculo con el tiempo o es el mismo? Si solemos decir que un gráfico vale más que mil palabras, un gráfico al que añadimos esa información resulta aún más valioso. Los datos no pueden estar separados de su contexto, ya que causaríamos una distorsión en el sistema.
Con esto podríamos redefinir el primer principiode la comprensión de los datos de Shewhart diciendo que “los datos no tienen significado si losseparamos de su contexto”. Y esto tiene tres consecuencias:
■ No crean a quien no puede o no podrá proveernos del contexto de unas figuras o gráficos.
■ Dejemos de hacer informes comparativos entrepares de datos excepto en comparaciones muy generales o genéricas.
■ Comencemos a usar gráficos para presentar valores en contexto.

PREPARAMOS R PARA COMPRENDER LOS DATOS
De momento dejamos nuestro libro de cabecera y vamos a volver a R para ver qué hacemos con esto.Así que abrimos R como ya sabemos.
Necesitamos además dos nuevas librerías (sólo necesitamos instalarlas esta vez): iremos a “Paquetes/Seleccionar espejo CRAN”, elegimos uno, Spain(Madrid) por ejemplo, y después iremos a “Instalar paquete” y elegiremos el paquete “qcc”. A continuación, en misma lista instalaremos el paquete“RcmdrPlugin.qcc”.
Ahora ya iremos a “Paquetes/Cargar paquetes” y cargaremos primero “qcc” y después nuestro conocido “Rcmdr”, tras lo cual se abrirá la ventana de Rcommander. En esta ventana iremos a “Herramientas/Cargar plugin(s) de Rcmdr” y elegiremos la librería RcmdrPlugin.qcc. El sistema nosva a preguntar que si queremos activar esa librería RCommander debe reiniciarse. Aceptaremos y entonces tendremos RCommander, al que se habrá añadido una nueva pestaña llamada “ControlCharts”.
Ya tenemos la herramienta lista. Ahora vamos a descargarnos unos datos con los que trabajar. Iremos como siempre a http://testsndtrials.blogspot.com.es/ y descargaremos el archivo denominado IDC.csv. Después, lo cargaremos en RCommandercomo siempre a través de “Datos/Importar datos/
desde archivo de texto...”. Hay dos cosas muy importantes para que los datos se carguen bien. En elcuadro que nos aparece para cargar los datos hay que especificar, ya que si no el sistema no cargará
bien los datos, lo siguiente:
■ que las variables están separadas por comas (“,”o “;” dependiendo del equipo. Si no funciona con“,” será necesario cambiar a “;”.
■ que el signo decimal es “coma (,)”.
Ya podemos elegir el archivo IDC.csv en la carpeta donde lo hayamos guardado y podemos ver losdatos activando la pestaña “Visualizar el conjuntode datos”. Este archivo (255 filas y 5 columnas)
contiene los datos de una granja de cerdas ficticia,
tomados semanalmente y presentados como media aritmética de cada variable desde marzo de 2007hasta el 30 de enero de 2012 (los datos se han creado de forma aleatoria para su análisis, a modo ilustrativo y pedagógico). Tiene cinco variables:
■ “Dates”: fecha del inicio de la semana.
■ “Totalborn”: número de lechones totales nacidos de media esa semana.
■ “Farrowrate”: porcentaje medio semanal de partos calculado como la división entre el número decerdas paridas esa semana y el número de cerdascubiertas esa semana.
■ “Sowsbred7days”: porcentaje medio semanal delas cerdas destetadas cubiertas antes de siete días.
■ “Wean1stservinterval”: intervalo medio en díasque han necesitado las cerdas destetadas para ser cubiertas, lo que habitualmente conocemos como índice destetecelo.


¿Qué nos dice este gráfico?
1 Number of groups = 235: significa que hemos cogido datos de 235 semanas.
2 Center = 8,21: es la media de “Wean1stservinterval” en días.
3 StdDev = 1,05: es la desviación estándar de “Wean1stservinterval” en días.
4 LCL = 5,06: es el límite de control inferior de “Wean1stservinterval” en días.
5 UCL = 11,36: es el límite de control superior de “Wean1stservinterval” en días.
6 Number beyond limits = 25: significa que los datos han salido de los límites de control en 25 semanas.
7 Number violating runs = 102, significa que los datos han violado las reglas de SPC y son puntos a estudiar en 102 semanas.


ANÁLISIS DE “WEAN1STSERVINTERVAL”
Lo que vamos a hacer a continuación es crear ungráfico de control para ver los datos de la variable “Wean1stservinterval” y observar qué pasa con ella. Más adelante, en los próximos capítulos,aprenderemos a tomar decisiones con este gráficoy a interpretarlo totalmente. De momento generaremos el gráfico y daremos algunas explicaciones. Antes de nada, y para evitar que se nos active una ventana gráfica vacía de R junto a un mensaje en rojo en la ventana inferior del tipo “ERROR: se necesitan valores finitos de ‘ylim’”, debemos decirle a R que omita los registros con valores perdidos (no los necesitamos en este análisis). Para ello iremos a Datos/Conjunto de datos activo/ Eliminar los casos con valores omitidos... y el sistema nos preguntará la variable que queremos actualizar. Elegiremos “Wean1stservinterval” y le diremos que sobreescriba los datos con el mismo nombre que tengamos (u otro si queremos). El conjunto de los nuevos datos tendrá 235 filas y 5 columnas. El error se hubiera producido porque “Wean1stservinterval” tiene valores a partir de 07/08/07, por lo que los anteriores el sistema nos los da como valores missing o perdidos. Ahora iremos a “Control Charts/Individual/Graph”, seleccionaremos “Wean1stservinterval” y nos aparecerá el siguiente gráfico (figura 2). En el siguiente número de esta serie aprenderemos a calcular los UCL y LCL, y además daremos información para la interpretación de las violaciones de las reglas de SPC. De momento podemos decir “algo ha pasado desde hace un tiempo en esta granja”, ya que parece que los datos de “Wean1stservinterval” son mejores que anteriormente.

Nota: Si tiene problemas al instalar el RcmdrPlugin.qcc, debería reinstalarse R, ya que hay una nueva versión, la 2.15.1. Se instala siguiendo las instrucciones del primer artículo y eligiendo la versión indicada.

Comentarios

Entradas populares