El origen de la expresión “data science” en estadística

El término data science no es tan reciente como pudiera parecer. El profesor Jeff Wu de la Universidad de Michigan propuso renombrar la estadística como data science y llamar data scientists a los estadísticos en 1997, ya hace más de veinte años. Esta parece ser una de las primeras veces en que alguien propuso estos términos, al menos desde el campo de la estadística. En el campo de ciencias de la computación Peter Naur había propuesto previamente el uso del término datalogy en una carta de 1966:

En una entrevista publicada en 2016 en Statistical Science el propio Wu cuenta cómo introdujo su propuesta:

Como se puede ver, Wu hizo su propuesta en la conferencia inaugural de una cátedra y bromeaba diciendo que el mero cambio de nombre incrementaría los salarios. De hecho, Wu aún tiene colgada en su página web la presentación original de su charla.

Pocos años después, en un artículo de 2001 publicado en International Statistical Review, William Cleveland (sin hacer referencia a Wu) diseñó una nueva disciplina llamada también data science, que incluiría seis áreas de investigación a las que los departamentos universitarios deberían asignar recursos. El nombre en inglés de estas áreas es:

  • Multidisciplinary investigations
  • Models and methods for data
  • Computing with data
  • Pedagogy
  • Tools evaluation
  • Theory

La visión de Cleveland de data science como una disciplina más amplia que la estadística, a la que en cierta forma engloba (las áreas segunda y sexta) es bastante cercana a la visión actual. El propio Jeff Wu en la entrevista citada se reafirma en el cambio de nombre a la vista de cómo ha evolucionado la disciplina:

Así pues, para no luchar contra la tendencia, tal vez tengamos que ir cambiando de nombre.

Referencias

Chipman, H. A. y Joseph, V. R. (2016). A Conversation with Jeff Wu. Statistical Science31, 624-636.

Cleveland, W. S. (2001). Data science: an action plan for expanding the technical areas of the field of statistics. International statistical review69, 21-26.

Publicado en estadística | Etiquetado , | Deja un comentario

Datos para las clases: concentración de colesterol y triglicéridos

Añado un nuevo archivo a la página de datos para la docencia.

Descripción y ficheros

Concentración de colesterol y triglicéridos (mg/dl) en pacientes evaluados por tener un dolor en el pecho. De ellos, 51 no presentaron evidencia de enfermedad cardiaca mientras que 320 sí la presentaron.


Puede servir para…

  • Análisis exploratorio
  • Clasificación y regresión
  • Estimación no paramétrica de funciones de densidad

Fuente

Scott, D.W. (2015). Multivariate density estimation: theory, practice, and visualization. John Wiley & Sons. Los datos se pueden encontrar en la página 305 y proceden de un estudio y análisis descrito en Scott et al. (1978).

Publicado en estadística | Etiquetado | Deja un comentario

Algunos consejos sobre Latex para principiantes

Después de varios años tutelando TFG y TFM me he dado cuenta de que hay una serie de errores pequeños descuidos que cometen sistemáticamente los estudiantes con poca experiencia en la escritura de matemáticas con \LaTeX. En esta entrada voy a elaborar un listado de consejos (que trataré ir actualizando) con el fin de que mis estudiantes futuros cometan el menor número posible de estos descuidos. Cualquier sugerencia para mejorar esta entrada es bienvenida.

Para tener en cuenta al escribir un texto matemático con \LaTeX

  • En un texto matemático, las ecuaciones tienen que ir acompañadas de los signos de puntuación necesarios. Si una frase o párrafo acaba en una ecuación, hay que escribir el correspondiente punto después de la misma. Si resulta necesario la ecuación debe ir entre comas, etc.
  • Dentro de una línea cualquier expresión matemática se escribe entre dólares, y esto incluye los nombres de las variables de las que se está hablando. Ejemplo incorrecto: sea X una variable aleatoria. Ejemplo correcto: sea X una variable aleatoria.
  • Dentro de una ecuación, los nombres de las funciones no van en cursiva. Ejemplo incorrecto: sen(\alpha). Ejemplo correcto: \mbox{sen}(\alpha). Nota: Cuando existe un comando para escribir la función, \LaTeX ya toma esto en cuenta automáticamente. Cuando esto no es así, se puede escribir el nombre de la función dentro de \mbox{}.
  • Queda muy antiestético que aparezcan dos niveles en una expresión matemática dentro de una línea, y hay que evitarlo siempre que se pueda. Esto afecta sobre todo a las fracciones. Es preferible escribir a/b a escribir \frac{a}{b}.
  • Los cuantificadores \forall y \exists son abreviaturas poco elegantes (a mí por lo menos me lo parece). Es mejor escribir con palabras para todo y existe.
  • Las ecuaciones que ocupan varias líneas tienen que estar correctamente alineadas y, para ello, hay que usar un comando de \LaTeX. Se puede consular información al respecto en este enlace.
  • Los teoremas (o proposiciones, lemas, corolarios, etc.) y las definiciones deben escribirse dentro del entorno de \LaTeX apropiado. Se puede consultar la información sobre estos entornos en este enlace. La demostración de un resultado también tiene su entorno correspondiente.

Recomiendo leer las notas de K. Conrad Advice on mathematical writing que incluyen más detalles a tener en cuenta sobre el estilo adecuado para escribir matemáticas. También puede ser útil esta entrada del blog del matemático Terry Tao.

Tablas con \LaTeX

La escritura de tablas y matrices en \LaTeX es una pesadilla bastante engorrosa. Dos ayudas a tener en cuenta son:

  • Para quienes tengan conocimiento de R, hay paquetes que traducen las matrices a \LaTeX. Hace mucho escribí en el blog una entrada sobre esto.
  • Otra posibilidad más sencilla es usar la web Tables Generator, que permite escribir los valores más cómodamente y genera el código de \LaTeX (y en otros formatos, como html o markdown).

Un truco para la bibliografía

Existen diversos formatos para escribir una bibliografía, pero hay un truco útil para evitar el trabajo de escribir manualmente las referencias. En la página de Google Académico se busca el libro o artículo que queremos citar. Veremos que debajo de cada artículo aparecen unas comillas:

Si hacemos clic en las comillas se abre una ventana con la referencia en varios formatos, tal y como aparece en la figura anterior. Podemos elegir el que más se parezca al que nosotros queremos para copiarlo y pegarlo en nuestro documento.

Para usuarios más avanzados, los botones inferiores permiten exportar la referencia a diversos formatos compatibles con varios gestores de citas.

Publicado en y otras cosas | Etiquetado | Deja un comentario

Datos para las clases: ácidos grasos en aceitunas

Incorporo estos datos a mi nueva página con conjuntos de datos para la docencia.

Descripción y ficheros

El fichero contiene datos sobre el porcentaje de ocho ácidos grasos en la fracción lipídica de aceitunas procedentes de nueve áreas de Italia correspondientes a tres grandes regiones: norte de italia, Cerdeña y sur de Italia. Las áreas están situadas sobre los números del mapa siguiente:

En total contiene 572 observaciones de 10 variables: la zona de Italia, el area dentro de esa zona (correspondiente a los números del mapa) y los ocho porcentajes correspondientes a los correspondientes ácidos grasos.

Puede ser útil para…

  • Descripción y visualización.
  • Regresión y ANOVA (puede ser un poco forzado, pero he visto algún atípico interesante).
  • Clasificación (el uso más natural de estos datos).
  • Son datos de los llamados composicionales (los porcentajes suman 100 % para cada observación) por lo que podrían usarse para ilustrar alguna técnica más avanzada para este tipo de datos.

Fuente

Los datos están incluidos en el paquete dslabs (Data Science Labs) de R, que es una coleccion de conjuntos de datos y funciones que se pueden utilizar para prácticas en ciencia de datos y estadística. Los autores son Rafael A. Irizarry y Amy Gill. En la página web del curso Data Science for Statisticians se puede encontrar bastante material interesante para la docencia.

Publicado en estadística | Etiquetado | Deja un comentario

Una lista de libros en línea sobre estadística, R y temas relacionados

He recopilado en una lista algunos libros disponibles en línea sobre estadística, R y temas relacionados (álgebra lineal, optimización, machine learning, etc.). Mantendré una versión actualizada de la lista en mi página web.

Estos son los libros que aparecen de momento:

Estadística y R

Probabilidad

Matemáticas

Publicado en estadística, probabilidad, R | Etiquetado | Deja un comentario

Probabilidad II (Grado en Matemáticas)

Añado a la página de cursos del blog el material que he estado utilizando en la asignatura Probabilidad II, correspondiente al Grado en Matemáticas de la UAM. Dado que es un material de clase es posible que aún queden errores e imprecisiones por lo que debe utilizarse con precaución.

El objetivo de esta asignatura es estudiar los fundamentos matemáticos de la teoría de la probabilidad. Se imparte después de un curso sobre teoría de la integral y de la medida. Los tres grandes objetivos son a) demostrar las principales leyes de los grandes números (para lo cual hay que estudiar previamente el concepto de independencia y los principales modos de convergencia), b) demostrar las versiones más simples del teorema central del límite (lo que requiere el uso de la función característica) y c) introducir el concepto general de esperanza condicionada.

Publicado en probabilidad | Etiquetado | Deja un comentario

Un ejemplo sobre normalidad, incorrelación e independencia

En esta entrada doy un ejemplo muy sencillo que he usado a veces para demostrar:

  • Que dos variables aleatorias (v.a.) con distribución normal e incorreladas no son necesariamente independientes.
  • Que la combinación lineal de v.a. con distribución normal no tiene distribución normal en general.

Las conclusiones sí son ciertas si el vector formado por las dos variables tiene distribución conjunta normal bidimensional pero no basta con que las distribuciones marginales de las dos variables sean normales.

El ejemplo se puede encontrar en muchos libros. Por ejemplo en Gut (2009), págs. 122 y 131.

El ejemplo

Sea X una v.a. con distribución normal estándar y sea Z una v.a. independiente de X con \mathbb{P}(Z=1)= \mathbb{P}(Z=-1)=1/2. Se define Y=XZ. Esto equivale a observar X y tirar una moneda. Si sale cara, Y coincide con X; si sale cruz, Y es igual a X cambiada de signo.

Con estas definiciones se verifica:

  • Las variables X e Y tienen distribución normal estándar: la v.a. X es normal estándar por construcción. Además, la distribución de Y coincide con la de X ya que condicionando al valor de Z y aplicando la fórmula de la probabilidad total:

\mathbb{P}(Y\leq y)= \mathbb{P}(XZ\leq y|Z=1)\frac{1}{2} +    \mathbb{P}(XZ\leq y|Z=-1)\frac{1}{2}=  \mathbb{P}(X\leq y)\frac{1}{2} +  \mathbb{P}(X\geq -y)\frac{1}{2}=  \mathbb{P}(X\leq y) ,

donde la última igualdad se deduce de la simetría de la distribución normal.

  • Las variables X e Y son incorreladas: como X y Z son independientes y además tienen media cero,

\mbox{Cov}(X,Y)=\mathbb{E}(XY)=\mathbb{E}(X^2Z)= \mathbb{E}(X^2) \mathbb{E} (Z)=0.

  • Las variables X e Y no son independientes: es inmediato ya que Y tiene distribución normal mientras que Y condicionada a X=x solo puede tomar los valores x y -x.
  • Además, la suma X+Y se anula con probabilidad 1/2, por lo que no tiene distribución normal, a pesar de que tanto X como Y son v.a. normales incorreladas.

Otra consecuencia más técnica que se deduce del ejemplo es que aunque dos variables aleatorias sean absolutamente continuas respecto a la medida de Lebesgue en \mathbb{R} y por lo tanto tengan función de densidad, el vector que forman no tiene por qué ser absolutamente continuo respecto a la medida de Lebesgue en \mathbb{R}^2 y, por lo tanto, no existe la función de densidad conjunta. En el ejemplo, el vector (X,Y) solo toma valores en las bisectrices y=x o y=-x, y este conjunto tiene medida de Lebesgue en \mathbb{R}^2 igual a cero. Esto significa que la distribución de (X,Y) es singular.

Referencias

Gut, A. (2009). An Intermediate Course in Probability , Second Edition. Springer.

Publicado en probabilidad | Etiquetado , , | Deja un comentario