Una breve introducción a ggplot2

La librería ggplot2 de R es un sistema organizado de visualización de datos. Forma parte del conjunto de librerías llamado tidyverse. Estoy diseñando un curso de introducción a R basado en tidyverse, así que he escrito una breve introducción a ggplot2, que comparto aquí.

La primera parte muestra las características generales del sistema utilizando como ejemplo los diagramas de dispersión. En la segunda parte se detalla cómo representar algunos de los gráficos más conocidos: histogramas, diagramas de barras y diagramas de cajas.

Publicado en estadística, R | Etiquetado , | Deja un comentario

Algunos libros sobre ciencia que he leído en 2019

Robert M. Sapolsky: Compórtate

Compórtate recibió críticas muy elogiosas en publicaciones como el New York Times y el Washington Post. Empezar a leerlo requiere cierta valentía: son casi mil páginas y hace referencia a un volumen inmenso de literatura científica. El autor es Robert Sapolsky, profesor de Biología en la Universidad de Stanford, y su objetivo es contarnos lo que puede decir la ciencia acerca de las razones por las que nos comportamos como lo hacemos. Cuando somos altruistas, agresivos o violentos; cuando somos generosos, indiferentes, constantes o dispersos… ¿cuáles son los factores que nos han llevado a comportarnos de esa forma?

La estructura del libro es brillante. Los factores que intervienen en el comportamiento se explican en un orden cronológico inverso: qué razones lo explican en los segundos anteriores, en los días y semanas anteriores, en los años anteriores, en las decenas de miles de años anteriores,… Este enfoque conduce a una respuesta multidisciplinar: la neurobiología, la endocrinología, la genética, la antropología y la psicología tendrán algo que decir. La premisa del libro es que las respuestas proporcionadas por cada rama del conocimiento están completamente entrelazadas y todas son necesarias para obtener conclusiones válidas.

Me resultó muy informativo y a pesar de la longitud no me aburrió en ningún momento.

Moreno, J.P., Obregón, M.J., De Pablo, F. y Puertas, F.: Gabriella Morreale: su vida y su tiempo

Gabriella Morreale (1930-2017)  fue una bioquímica que trabajó en endocrinología durante varias décadas del siglo XX, principalmente en el CSIC. Hizo importantes descubrimientos sobre el efecto de las hormonas tiroideas en el desarrollo cerebral y trabajó de manera decisiva para implantar en España la llamada prueba del talón a los recién nacidos. Esta prueba sirve para detectar el hipotiroidismo congénito y permite tratarlo a tiempo de evitar las discapacidades psíquicas asociadas a esta enfermedad.

Este libro es una biografía científica de Gabriella y, al mismo tiempo, una descripción del entorno y los tiempos en los que se desarrolló su trabajo de investigación. Me han parecido muy interesantes muchos datos sobre la evolución de diversas instituciones de investigación españolas a mediados del siglo XX, como el CSIC. Otros aspectos de interés son la descripción de la posición y las dificultades de las científicas en esa época, así como numerosas anécdotas relacionadas con el trabajo científico en general.

Una época en la que alguien podía defender una tesis y al año siguiente ganar una cátedra (pag. 109). Definitivamente eran otros tiempos.

Juan Luis Arsuaga: Vida, la gran historia

En 1844, Darwin anotó en el ejemplar de un libro que estaba leyendo la frase “nunca usar las palabras superior e inferior”. Se refería a los diferentes grados evolutivos de la vida en la Tierra. Esta frase responde a una de las preguntas que Arsuaga se plantea en el libro, la de si hay progreso en la evolución. La visión tradicional según la cual la historia de la vida es una historia de ascenso desde formas de vida elementales hasta llegar a las más sofisticadas y perfectas (nosotros) ha sido puesta en entredicho por diversos autores. Después de todo, “el cambio del mono al hombre bien podría parecerle un cambio para peor al mono” (Haldane).

La otra gran cuestión que se plantea en el libro es hasta qué punto interviene en la historia de la vida el azar y la necesidad. Si pusiéramos en marcha el planeta de nuevo, ¿evolucionarían las formas de vida de la misma manera o sería todo completamente diferente debido a causas fortuitas? El azar predomina cuando se consideran las consecuencias de factores geológicos o ambientales, como un terremoto o el impacto de un meteorito, pero la existencia de convergencias adaptativas demuestra que la evolución se repite como si hubiera un número limitado de posibilidades, lo que lleva a pensar en la necesidad.

Sobre estos dos grandes ejes -tratados con bastantante objetividad, aunque el autor no esconda tampoco sus opiniones- el libro describe los principales hitos de la historia de la vida: el misterio de su aparición en la Tierra, el origen de las células eucariotas, la conquista de la tierra firme, la extinción en masa de los dinosaurios y, por supuesto, la aparición del género Homo y todo lo que vino después.

Una lectura recomendable e informativa, puntualmente densa, casi siempre apasionante para los que somos de carácter reflexivo. Una pequeña crítica a la edición es que hubiera sido muy práctico incluir un índice temático para facilitar la consulta.

Eugenia Cheng: Beyond infinity

El objetivo general de este libro es explicar a no matemáticos el concepto matemático de infinito. En la primera parte se cuenta la conocida teoría de los números transfinitos de Cantor, la hipótesis del continuo, etc. Es un tema bastante repetido en la divulgación matemática. Siempre sorprende a quienes no lo han estudiado que el conjunto de los racionales sea numerable y cualquier lector puede apreciar la elegancia del argumento diagonal de Cantor. Está bien contado, pero el tema no es muy original. La segunda parte se dedica a lo infinitamente pequeño y culmina con la construcción de los números reales y un último capítulo sobre la serie armónica. Esta segunda parte se me hizo más pesada.

David Acheson: The calculus story, a mathematical adventure

Este es un libro sencillo y breve en el que se presentan de manera clara los principales conceptos del cálculo infinitesimal al tiempo que se traza de forma esquemática su evolución histórica. En el bachillerato me hubiera gustado que me contaran así estas ideas: por qué para calcular la integral hay que calcular una primitiva, sus relaciones con los fenómenos físicos, por qué la derivada del producto no es el producto de las derivadas, qué es el número e, qué aportaron Newton, Leibniz o Euler, qué es una ecuación diferencial y cómo son las ecuaciones que describen el péndulo o una cuerda que vibra,…

No hay nada demasiado nuevo, pero está bien escrito, es agradable de leer y los profesores de secundaria pueden sacar buenas ideas para sus clases.

Publicado en y otras cosas | Etiquetado | Deja un comentario

El origen de la expresión “data science” en estadística

El término data science no es tan reciente como pudiera parecer. El profesor Jeff Wu de la Universidad de Michigan propuso renombrar la estadística como data science y llamar data scientists a los estadísticos en 1997, ya hace más de veinte años. Esta parece ser una de las primeras veces en que alguien propuso estos términos, al menos desde el campo de la estadística. En el campo de ciencias de la computación Peter Naur había propuesto previamente el uso del término datalogy en una carta de 1966:

En una entrevista publicada en 2016 en Statistical Science el propio Wu cuenta cómo introdujo su propuesta:

Como se puede ver, Wu hizo su propuesta en la conferencia inaugural de una cátedra y bromeaba diciendo que el mero cambio de nombre incrementaría los salarios. De hecho, Wu aún tiene colgada en su página web la presentación original de su charla.

Pocos años después, en un artículo de 2001 publicado en International Statistical Review, William Cleveland (sin hacer referencia a Wu) diseñó una nueva disciplina llamada también data science, que incluiría seis áreas de investigación a las que los departamentos universitarios deberían asignar recursos. El nombre en inglés de estas áreas es:

  • Multidisciplinary investigations
  • Models and methods for data
  • Computing with data
  • Pedagogy
  • Tools evaluation
  • Theory

La visión de Cleveland de data science como una disciplina más amplia que la estadística, a la que en cierta forma engloba (las áreas segunda y sexta) es bastante cercana a la visión actual. El propio Jeff Wu en la entrevista citada se reafirma en el cambio de nombre a la vista de cómo ha evolucionado la disciplina:

Así pues, para no luchar contra la tendencia, tal vez tengamos que ir cambiando de nombre.

Referencias

Chipman, H. A. y Joseph, V. R. (2016). A Conversation with Jeff Wu. Statistical Science31, 624-636.

Cleveland, W. S. (2001). Data science: an action plan for expanding the technical areas of the field of statistics. International statistical review69, 21-26.

Publicado en estadística | Etiquetado , | Deja un comentario

Datos para las clases: concentración de colesterol y triglicéridos

Añado un nuevo archivo a la página de datos para la docencia.

Descripción y ficheros

Concentración de colesterol y triglicéridos (mg/dl) en pacientes evaluados por tener un dolor en el pecho. De ellos, 51 no presentaron evidencia de enfermedad cardiaca mientras que 320 sí la presentaron.


Puede servir para…

  • Análisis exploratorio
  • Clasificación y regresión
  • Estimación no paramétrica de funciones de densidad

Fuente

Scott, D.W. (2015). Multivariate density estimation: theory, practice, and visualization. John Wiley & Sons. Los datos se pueden encontrar en la página 305 y proceden de un estudio y análisis descrito en Scott et al. (1978).

Publicado en estadística | Etiquetado | Deja un comentario

Algunos consejos sobre Latex para principiantes

Después de varios años tutelando TFG y TFM me he dado cuenta de que hay una serie de errores pequeños descuidos que cometen sistemáticamente los estudiantes con poca experiencia en la escritura de matemáticas con \LaTeX. En esta entrada voy a elaborar un listado de consejos (que trataré ir actualizando) con el fin de que mis estudiantes futuros cometan el menor número posible de estos descuidos. Cualquier sugerencia para mejorar esta entrada es bienvenida.

Para tener en cuenta al escribir un texto matemático con \LaTeX

  • En un texto matemático, las ecuaciones tienen que ir acompañadas de los signos de puntuación necesarios. Si una frase o párrafo acaba en una ecuación, hay que escribir el correspondiente punto después de la misma. Si resulta necesario la ecuación debe ir entre comas, etc.
  • Dentro de una línea cualquier expresión matemática se escribe entre dólares, y esto incluye los nombres de las variables de las que se está hablando. Ejemplo incorrecto: sea X una variable aleatoria. Ejemplo correcto: sea X una variable aleatoria.
  • Dentro de una ecuación, los nombres de las funciones no van en cursiva. Ejemplo incorrecto: sen(\alpha). Ejemplo correcto: \mbox{sen}(\alpha). Nota: Cuando existe un comando para escribir la función, \LaTeX ya toma esto en cuenta automáticamente. Cuando esto no es así, se puede escribir el nombre de la función dentro de \mbox{}.
  • Queda muy antiestético que aparezcan dos niveles en una expresión matemática dentro de una línea, y hay que evitarlo siempre que se pueda. Esto afecta sobre todo a las fracciones. Es preferible escribir a/b a escribir \frac{a}{b}.
  • Los cuantificadores \forall y \exists son abreviaturas poco elegantes (a mí por lo menos me lo parece). Es mejor escribir con palabras para todo y existe.
  • Las ecuaciones que ocupan varias líneas tienen que estar correctamente alineadas y, para ello, hay que usar un comando de \LaTeX. Se puede consular información al respecto en este enlace.
  • Los teoremas (o proposiciones, lemas, corolarios, etc.) y las definiciones deben escribirse dentro del entorno de \LaTeX apropiado. Se puede consultar la información sobre estos entornos en este enlace. La demostración de un resultado también tiene su entorno correspondiente.

Recomiendo leer las notas de K. Conrad Advice on mathematical writing que incluyen más detalles a tener en cuenta sobre el estilo adecuado para escribir matemáticas. También puede ser útil esta entrada del blog del matemático Terry Tao.

Tablas con \LaTeX

La escritura de tablas y matrices en \LaTeX es una pesadilla bastante engorrosa. Dos ayudas a tener en cuenta son:

  • Para quienes tengan conocimiento de R, hay paquetes que traducen las matrices a \LaTeX. Hace mucho escribí en el blog una entrada sobre esto.
  • Otra posibilidad más sencilla es usar la web Tables Generator, que permite escribir los valores más cómodamente y genera el código de \LaTeX (y en otros formatos, como html o markdown).

Un truco para la bibliografía

Existen diversos formatos para escribir una bibliografía, pero hay un truco útil para evitar el trabajo de escribir manualmente las referencias. En la página de Google Académico se busca el libro o artículo que queremos citar. Veremos que debajo de cada artículo aparecen unas comillas:

Si hacemos clic en las comillas se abre una ventana con la referencia en varios formatos, tal y como aparece en la figura anterior. Podemos elegir el que más se parezca al que nosotros queremos para copiarlo y pegarlo en nuestro documento.

Para usuarios más avanzados, los botones inferiores permiten exportar la referencia a diversos formatos compatibles con varios gestores de citas.

Publicado en y otras cosas | Etiquetado | Deja un comentario

Datos para las clases: ácidos grasos en aceitunas

Incorporo estos datos a mi nueva página con conjuntos de datos para la docencia.

Descripción y ficheros

El fichero contiene datos sobre el porcentaje de ocho ácidos grasos en la fracción lipídica de aceitunas procedentes de nueve áreas de Italia correspondientes a tres grandes regiones: norte de italia, Cerdeña y sur de Italia. Las áreas están situadas sobre los números del mapa siguiente:

En total contiene 572 observaciones de 10 variables: la zona de Italia, el area dentro de esa zona (correspondiente a los números del mapa) y los ocho porcentajes correspondientes a los correspondientes ácidos grasos.

Puede ser útil para…

  • Descripción y visualización.
  • Regresión y ANOVA (puede ser un poco forzado, pero he visto algún atípico interesante).
  • Clasificación (el uso más natural de estos datos).
  • Son datos de los llamados composicionales (los porcentajes suman 100 % para cada observación) por lo que podrían usarse para ilustrar alguna técnica más avanzada para este tipo de datos.

Fuente

Los datos están incluidos en el paquete dslabs (Data Science Labs) de R, que es una coleccion de conjuntos de datos y funciones que se pueden utilizar para prácticas en ciencia de datos y estadística. Los autores son Rafael A. Irizarry y Amy Gill. En la página web del curso Data Science for Statisticians se puede encontrar bastante material interesante para la docencia.

Publicado en estadística | Etiquetado | Deja un comentario

Una lista de libros en línea sobre estadística, R y temas relacionados

He recopilado en una lista algunos libros disponibles en línea sobre estadística, R y temas relacionados (álgebra lineal, optimización, machine learning, etc.). Mantendré una versión actualizada de la lista en mi página web.

Estos son los libros que aparecen de momento:

Estadística y R

Probabilidad

Matemáticas

Publicado en estadística, probabilidad, R | Etiquetado | Deja un comentario