Panel con información de la situación del coronavirus en España

Nota: El objetivo de esta entrada es educativo, no es presentar información actualizada sobre la pandemia de Covid-19

Los paneles o tableros (dashboards) son una muy buena opción para comunicar información de manera efectiva. Pueden ser útiles para presentaciones, descripción de datos y, por supuesto, las clases. Si se sabe programar un poco en R y escribir en R Markdown no parecen difíciles de elaborar. En esta página se pueden encontrar diversos ejemplos.

Con el fin de aprender a hacerlos he estado adaptando a los datos sobre la evolución del coronavirus en España este dashboard de Rami Krispin. Las instrucciones en esta entrada del blog de Antoine Soetewey me han sido muy útiles.

El resultado (y el código) podéis verlo aquí o pinchando en la imagen que encabeza la entrada.

Introducción a jamovi

Jamovi es un programa gratuito para realizar cálculos estadísticos. Su apariencia es la de una hoja de cálculo, pero es una interfaz gráfica de R. El año pasado publiqué aquí una valoración general del programa. Este año lo he usado en un curso de introducción a la estadística para estudiantes del Grado en Nutrición Humana y Dietética de la UAM y la experiencia ha sido bastante buena. Apenas ha dado problemas de instalación y uso, y al ser software libre todos podíamos tenerlo en nuestros ordenadores sin restricciones (el no poder tenerlo era una queja bastante común de los alumnos en cursos anteriores, en los que usábamos SPSS). Dejo para otra ocasión el debate de si sería mejor usar directamente R en este tipo de cursos. Siempre tengo la tentación de hacerlo, aunque por otra parte sí creo que jamovi y otros programas parecidos cumplen su función para cierto tipo de estudiantes que van a usar la estadística esporádicamente y para aplicaciones muy básicas.

Durante el curso hicimos varias prácticas con el programa. He unido y editado levemente los guiones de las prácticas y me ha quedado una guía introductoria (ahora también llamada tutorial) que comparto aquí:

Datos para las clases: dolor tras cirugía, tasa de eliminación de alcohol, tratamiento con talidomida

He añadido a mi página de datos para la docencia tres nuevos conjuntos de datos sobre diferentes temas: dolor de pacientes tras ser sometidos a cirugía, tasas de eliminación de alcohol en la respiración y en la sangre, y tratamiento con talidomida para la pérdida de peso de pacientes seropositivos. En esta entrada se documentan estos datos con detalle.

Dolor de garganta tras cirugía

  • Descripción: Datos correspondientes a 35 pacientes que han sido sometidos a cirugía: la variable D corresponde a la duración en minutos de la cirugía; la variable T corresponde al medio para garantizar la respiración (T=0 máscara laríngea, T=1 tubo traqueal) y la variable D corresponde a si el paciente experimentó dolor de garganta al despertar (D=0 no, D=1 sí).
  • Datos: garganta.csv | garganta.omv
  • Usos: análisis de tablas de contingencia, regresión logística.
  • Fuente: Los datos se encuentran en la página 132 de Agresti (2002). An introduction to categorical data analysis. Wiley. Pueden obtenerse en este enlace, junto con otros conjuntos de datos del mismo libro.

Tasa de eliminación de alcohol

  • Descripción Tasa de eliminación de alcohol en la respiración (mg/l por hora) y en la sangre (g/l por hora) en 32 hombres y 27 mujeres. Las variables son sexo (1, hombre; 2, mujer), respiraAC (tasa de eliminación de alcohol en la respiración en mg/l por hora) y sangreAC (tasa de eliminación de alcohol en la sangre en g/l por hora).
  • Datos: alc_elim.csv
  • Usos: Regresión lineal simple o mútiple (con una de las variables regresoras dicotómica si separamos por sexo).
  • Fuente Los datos se pueden encontrar en esta página web. Analizados en este artículo.

Tratamiento con talidomida

  • Descripción: 32 pacientes seropositivos, algunos de ellos con tuberculosis, que habían perdido más del 10% de su peso en los últimos seis meses participaron en un estudio sobre el efecto de un tratamiento con talidomida en la ganancia de peso. El fichero contiene tres variables: talidomida (1, reciben tratamiento con talidomida; 0, reciben placebo), tb (1, tienen tuberculosis; 0, no la tienen) y peso (ganancia de peso en kg tras 21 días de tratamiento).
  • Datos: talidomida.csv
  • Usos: ANOVA con dos factores.
  • Fuente: Los datos se pueden encontrar en esta página web. Proceden de un estudio publicado en este artículo.

Una nota sobre la historia del coeficiente de correlación

El concepto de correlación se debe a Francis Galton. Sin embargo, la fórmula matemática del coeficiente de correlación que usamos hoy fue desarrollada por Karl Pearson. En esta entrada resumo algunos detalles de la evolución de la idea de correlación, tomados principalmente de Stigler (1989).

Francis Galton (1822-1911)

Este polifacético científico de la época victoriana hizo aportaciones en muy diversos campos: participó en exploraciones en África e hizo contribuciones en geografía, en meteorología definió el anticiclón y fue un pionero en el uso de las huellas dactilares para identificar a las personas. En estadística se le conoce sobre todo por introducir el análisis de regresión y de correlación.

Las dos décadas de trabajos de Galton sobre la herencia de rasgos biológicos culminaron en la publicación en 1889 de su libro Natural Inheritance. La palabra correlación no aparece aún en el libro, pero Galton se encontraba muy cerca ya del concepto. Había ajustado una distribución normal bidimensional a datos de estaturas de padres e hijos y había obtenido las dos rectas de regresión (de X respecto a Y y de Y respecto a X). Sin embargo, aún no se había dado cuenta de que la pendiente de ambas rectas (intercambiando los ejes y estandarizando las variables) era la misma y que esa pendiente común podía ser usada como una medida numérica del grado de asociación entre las dos variables. Tampoco era consciente aún de que la idea se podía aplicar no solo a sus estudios de herencia sino que era mucho más general.

En el otoño de 1888 Galton tomó conciencia de este último punto al analizar datos para dos investigaciones diferentes en antropología y criminología. Más o menos modestamente, cualquier científico ha sentido alguna vez el placer que le produjo a Galton el descubrimiento [Galton (1890)] :

galton-intellectualpleasures2

La importancia de la cuestión le llevó a escribir un artículo que se publicó muy rápido, en diciembre de 1888, incluso antes que el libro con sus trabajos sobre la herencia. El artículo comienza así:

galtoncorrelation

Para Galton dos variables estaban correladas si había un conjunto de variables que influían en ambas simultáneamente. Por el párrafo anterior, parece que solo concebía la correlación como relación positiva. El artículo de 1890 concluye con un intento de definir un índice de correlación basado en las rectas de regresión.

Karl Pearson (1857-1936)

Unos años más tarde, en dos artículos de 1896 y 1898, el estadístico británico Karl Pearson se plantea la cuestión de cómo determinar de la mejor manera posible en la práctica  la correlación y deriva lo que ahora conocemos como coeficiente de correlación (la palabra coeficiente había sido usada anteriormente por Edgeworth). Esta es la primera aparición documentada del coeficiente de correlación en la literatura estadística (1896):

pearson-1896b

Más tarde, en 1920, Pearson escribió un artículo sobre la historia de la idea de correlación. Es interesante comprobar lo consciente que era Pearson de las limitaciones del concepto (a pesar de su utilidad):

pearson-1920

Podemos ver que Pearson se daba cuenta de lo problemática que era la interpretación de la correlación en los casos siguientes:

  • Cuando las distribuciones son asimétricas.
  • Cuando existen relaciones no lineales entre las variables.
  • Cuando hay heterocedasticidad, es decir, cuando la dispersión de una de las variables depende del nivel medio de la otra.

Desde entonces ha habido muchos desarrollos que tratan de paliar estas limitaciones. En el blog he tratado anteriormente alguno de ellos. La cuantificación de la relación entre dos o más variables es un tema fundamental en estadística, y la idea de correlación y cómo medirla es una de las ideas básicas.

Una breve introducción a ggplot2

La librería ggplot2 de R es un sistema organizado de visualización de datos. Forma parte del conjunto de librerías llamado tidyverse. Estoy diseñando un curso de introducción a R basado en tidyverse, así que he escrito una breve introducción a ggplot2, que comparto aquí.

La primera parte muestra las características generales del sistema utilizando como ejemplo los diagramas de dispersión. En la segunda parte se detalla cómo representar algunos de los gráficos más conocidos: histogramas, diagramas de barras y diagramas de cajas.

Algunos libros que he leído en 2019

Robert M. Sapolsky: Compórtate

Compórtate recibió críticas muy elogiosas en publicaciones como el New York Times y el Washington Post. Empezar a leerlo requiere cierta valentía: son casi mil páginas y hace referencia a un volumen inmenso de literatura científica. El autor es Robert Sapolsky, profesor de Biología en la Universidad de Stanford, y su objetivo es contarnos lo que puede decir la ciencia acerca de las razones por las que nos comportamos como lo hacemos. Cuando somos altruistas, agresivos o violentos; cuando somos generosos, indiferentes, constantes o dispersos… ¿cuáles son los factores que nos han llevado a comportarnos de esa forma?

La estructura del libro es brillante. Los factores que intervienen en el comportamiento se explican en un orden cronológico inverso: qué razones lo explican en los segundos anteriores, en los días y semanas anteriores, en los años anteriores, en las decenas de miles de años anteriores,… Este enfoque conduce a una respuesta multidisciplinar: la neurobiología, la endocrinología, la genética, la antropología y la psicología tendrán algo que decir. La premisa del libro es que las respuestas proporcionadas por cada rama del conocimiento están completamente entrelazadas y todas son necesarias para obtener conclusiones válidas.

Me resultó muy informativo y a pesar de la longitud no me aburrió en ningún momento.

Moreno, J.P., Obregón, M.J., De Pablo, F. y Puertas, F.: Gabriella Morreale: su vida y su tiempo

Gabriella Morreale (1930-2017)  fue una bioquímica que trabajó en endocrinología durante varias décadas del siglo XX, principalmente en el CSIC. Hizo importantes descubrimientos sobre el efecto de las hormonas tiroideas en el desarrollo cerebral y trabajó de manera decisiva para implantar en España la llamada prueba del talón a los recién nacidos. Esta prueba sirve para detectar el hipotiroidismo congénito y permite tratarlo a tiempo de evitar las discapacidades psíquicas asociadas a esta enfermedad.

Este libro es una biografía científica de Gabriella y, al mismo tiempo, una descripción del entorno y los tiempos en los que se desarrolló su trabajo de investigación. Me han parecido muy interesantes muchos datos sobre la evolución de diversas instituciones de investigación españolas a mediados del siglo XX, como el CSIC. Otros aspectos de interés son la descripción de la posición y las dificultades de las científicas en esa época, así como numerosas anécdotas relacionadas con el trabajo científico en general.

Una época en la que alguien podía defender una tesis y al año siguiente ganar una cátedra (pag. 109). Definitivamente eran otros tiempos.

Juan Luis Arsuaga: Vida, la gran historia

En 1844, Darwin anotó en el ejemplar de un libro que estaba leyendo la frase “nunca usar las palabras superior e inferior”. Se refería a los diferentes grados evolutivos de la vida en la Tierra. Esta frase responde a una de las preguntas que Arsuaga se plantea en el libro, la de si hay progreso en la evolución. La visión tradicional según la cual la historia de la vida es una historia de ascenso desde formas de vida elementales hasta llegar a las más sofisticadas y perfectas (nosotros) ha sido puesta en entredicho por diversos autores. Después de todo, “el cambio del mono al hombre bien podría parecerle un cambio para peor al mono” (Haldane).

La otra gran cuestión que se plantea en el libro es hasta qué punto interviene en la historia de la vida el azar y la necesidad. Si pusiéramos en marcha el planeta de nuevo, ¿evolucionarían las formas de vida de la misma manera o sería todo completamente diferente debido a causas fortuitas? El azar predomina cuando se consideran las consecuencias de factores geológicos o ambientales, como un terremoto o el impacto de un meteorito, pero la existencia de convergencias adaptativas demuestra que la evolución se repite como si hubiera un número limitado de posibilidades, lo que lleva a pensar en la necesidad.

Sobre estos dos grandes ejes -tratados con bastantante objetividad, aunque el autor no esconda tampoco sus opiniones- el libro describe los principales hitos de la historia de la vida: el misterio de su aparición en la Tierra, el origen de las células eucariotas, la conquista de la tierra firme, la extinción en masa de los dinosaurios y, por supuesto, la aparición del género Homo y todo lo que vino después.

Una lectura recomendable e informativa, puntualmente densa, casi siempre apasionante para los que somos de carácter reflexivo. Una pequeña crítica a la edición es que hubiera sido muy práctico incluir un índice temático para facilitar la consulta.

Eugenia Cheng: Beyond infinity

El objetivo general de este libro es explicar a no matemáticos el concepto matemático de infinito. En la primera parte se cuenta la conocida teoría de los números transfinitos de Cantor, la hipótesis del continuo, etc. Es un tema bastante repetido en la divulgación matemática. Siempre sorprende a quienes no lo han estudiado que el conjunto de los racionales sea numerable y cualquier lector puede apreciar la elegancia del argumento diagonal de Cantor. Está bien contado, pero el tema no es muy original. La segunda parte se dedica a lo infinitamente pequeño y culmina con la construcción de los números reales y un último capítulo sobre la serie armónica. Esta segunda parte se me hizo más pesada.

David Acheson: The calculus story, a mathematical adventure

Este es un libro sencillo y breve en el que se presentan de manera clara los principales conceptos del cálculo infinitesimal al tiempo que se traza de forma esquemática su evolución histórica. En el bachillerato me hubiera gustado que me contaran así estas ideas: por qué para calcular la integral hay que calcular una primitiva, sus relaciones con los fenómenos físicos, por qué la derivada del producto no es el producto de las derivadas, qué es el número e, qué aportaron Newton, Leibniz o Euler, qué es una ecuación diferencial y cómo son las ecuaciones que describen el péndulo o una cuerda que vibra,…

No hay nada demasiado nuevo, pero está bien escrito, es agradable de leer y los profesores de secundaria pueden sacar buenas ideas para sus clases.

El origen de la expresión “data science” en estadística

El término data science no es tan reciente como pudiera parecer. El profesor Jeff Wu de la Universidad de Michigan propuso renombrar la estadística como data science y llamar data scientists a los estadísticos en 1997, ya hace más de veinte años. Esta parece ser una de las primeras veces en que alguien propuso estos términos, al menos desde el campo de la estadística. En el campo de ciencias de la computación Peter Naur había propuesto previamente el uso del término datalogy en una carta de 1966:

En una entrevista publicada en 2016 en Statistical Science el propio Wu cuenta cómo introdujo su propuesta:

Como se puede ver, Wu hizo su propuesta en la conferencia inaugural de una cátedra y bromeaba diciendo que el mero cambio de nombre incrementaría los salarios. De hecho, Wu aún tiene colgada en su página web la presentación original de su charla.

Pocos años después, en un artículo de 2001 publicado en International Statistical Review, William Cleveland (sin hacer referencia a Wu) diseñó una nueva disciplina llamada también data science, que incluiría seis áreas de investigación a las que los departamentos universitarios deberían asignar recursos. El nombre en inglés de estas áreas es:

  • Multidisciplinary investigations
  • Models and methods for data
  • Computing with data
  • Pedagogy
  • Tools evaluation
  • Theory

La visión de Cleveland de data science como una disciplina más amplia que la estadística, a la que en cierta forma engloba (las áreas segunda y sexta) es bastante cercana a la visión actual. El propio Jeff Wu en la entrevista citada se reafirma en el cambio de nombre a la vista de cómo ha evolucionado la disciplina:

Así pues, para no luchar contra la tendencia, tal vez tengamos que ir cambiando de nombre.

Referencias

Chipman, H. A. y Joseph, V. R. (2016). A Conversation with Jeff Wu. Statistical Science31, 624-636.

Cleveland, W. S. (2001). Data science: an action plan for expanding the technical areas of the field of statistics. International statistical review69, 21-26.