Docencia reproducible

Una de las cosas que conviene transmitir a los estudiantes de estadística es que la investigación científica debería ser reproducible: un investigador independiente de aquel que ha realizado un estudio debe poder utilizar los mismos datos y el mismo código de ordenador empleado para analizarlos, y reproducir los resultados numéricos del análisis. Esto, que parece un estándar mínimo de transparencia, es en realidad difícil de conseguir en la práctica.

Foto de Andrea Piacquadio en Pexels

Una forma efectiva de enseñar que la investigación debe ser reproducible es usar prácticas docentes que también lo sean. En un artículo reciente, Dogucu y Çetinkaya-Rundel (2022) recomiendan algunas prácticas docentes relacionadas con la reproducibilidad que se resumen en esta entrada. Las prácticas recomendadas se articulan en tres apartados: reproducibilidad computacional, documentación adecuada y materiales accesibles. Todas ellas son independientes del software concreto que se use para preparar las clases.

Reproducibilidad computacional

La presentación de los ejemplos numéricos y gráficos que usemos debe ser tal que puedan ser reproducidos de manera exacta por los estudiantes o por otros docentes. Para ello sirve de ayuda integrar el texto (los apuntes) y los cálculos (el código) en un mismo documento. Esta integración evita errores en los que, por ejemplo, el resultado de un cálculo no se corresponde con su descripción. Además, facilita mucho la actualización del material. En general, hay que evitar copiar y pegar nuestros resultados desde el software usado para hacer los cálculos a un procesador de texto. Cualquier mínimo cambio en el procesado de los datos puede llevar (y de hecho llevará) a errores por una actualización incorrecta del texto.

La reproducibilidad computacional también requiere que facilitemos a los estudiantes todos los ficheros de datos que usemos en los ejemplos, y que registremos todas las operaciones que hayamos llevado a cabo para procesarlos. De nuevo, la integración de texto y código facilitará esta tarea. En R, por ejemplo, el uso de R Markdown permite producir este tipo de documentos.

En el caso de datos simulados es imprescindible fijar una semilla para los generadores de números aleatorios, de manera que no solo sea posible replicar el experimento sino reproducirlo exactamente.

Se aconseja también una organización de ficheros en una estructura de carpetas coherente y adecuada, así como usar algún software de control de versiones. Los nombres de los ficheros se deben elegir cuidadosamente con el criterio de ser comprensibles para los humanos, ser legibles para las máquinas y tales que la ordenación automática de nombres que hace el ordenador nos resulte conveniente. Esta presentación contiene recomendaciones y ejemplos para nombrar los ficheros de forma adecuada.

Documentación adecuada

El material de cada tema de una asignatura podría estar incluido en una carpeta raíz, en la que idealmente habrá un fichero leeme en el que se explica la estructura de carpetas y se dan algunas indicaciones básicas de cómo obtener los resultados.

La documentación también incluye los datos utilizados (la fuente, qué variables contiene cada fichero y una descripción de cada una de ellas). Se puede usar un fichero de texto plano para este propósito.

También hay que documentar el software utilizado y el propio código. A la hora de escribir el código se debe seguir alguna guía de estilo que lo haga más legible. En este enlace se puede encontrar una guía de estilo como ejemplo para quien programe usando los paquetes del tidyverse de R.

Materiales accesibles

Facilitar el acceso a los materiales usados (datos, código) se recomienda en investigación, así que es también una práctica docente aconsejable. Aquí se puede optar por distintos niveles de apertura: para las tareas docentes basta con que nuestros estudiantes sean los que puedan acceder a los materiales, aunque también podemos optar por hacerlos disponibles de forma más amplia, lo que beneficia a otros docentes y estudiantes e incluso podría ser valorado en algún proceso de promoción profesional.

Otro nivel de acceso que habrá que decidir es si se facilitan todos los ficheros fuentes de nuestro material o únicamente el código necesario para reproducir los resultados.

A la hora de compartir los materiales hay que tener en cuenta qué licencia de uso vamos a conceder (si permitimos un uso arbitrario, o únicamente sin ánimo de lucro; si permitimos que sean modificados libremente o no, si se requiere que se cite siempre la procedencia, etc.). La licencia CC BY-NC 4.0 es elegida por muchos docentes.

Otro aspecto a considerar es dónde alojar todos esos materiales: una web institucional, GitHub, Netlify, etc.

Coda

Las recomendaciones del artículo citado que se han resumido aquí se deben entender como un objetivo ideal. Está claro que llevar a la práctica todas ellas es muy costoso y requiere una gran inversión de tiempo puesto que son bastantes las herramientas que hay que aprender a manejar, y además son habilidades no especialmente valoradas en la carrera docente universitaria. En cualquier caso, no está de más tenerlas como un horizonte de buenas prácticas hacia el que creo que sería oportuno acercarse.

Deja un comentario