Datos para las clases: ácidos grasos en aceitunas

Incorporo estos datos a mi nueva página con conjuntos de datos para la docencia.

Descripción y ficheros

El fichero contiene datos sobre el porcentaje de ocho ácidos grasos en la fracción lipídica de aceitunas procedentes de nueve áreas de Italia correspondientes a tres grandes regiones: norte de italia, Cerdeña y sur de Italia. Las áreas están situadas sobre los números del mapa siguiente:

En total contiene 572 observaciones de 10 variables: la zona de Italia, el area dentro de esa zona (correspondiente a los números del mapa) y los ocho porcentajes correspondientes a los correspondientes ácidos grasos.

Puede ser útil para…

  • Descripción y visualización.
  • Regresión y ANOVA (puede ser un poco forzado, pero he visto algún atípico interesante).
  • Clasificación (el uso más natural de estos datos).
  • Son datos de los llamados composicionales (los porcentajes suman 100 % para cada observación) por lo que podrían usarse para ilustrar alguna técnica más avanzada para este tipo de datos.

Fuente

Los datos están incluidos en el paquete dslabs (Data Science Labs) de R, que es una coleccion de conjuntos de datos y funciones que se pueden utilizar para prácticas en ciencia de datos y estadística. Los autores son Rafael A. Irizarry y Amy Gill. En la página web del curso Data Science for Statisticians se puede encontrar bastante material interesante para la docencia.

Anuncios
Publicado en estadística | Etiquetado | Deja un comentario

Una lista de libros en línea sobre estadística, R y temas relacionados

He recopilado en una lista algunos libros disponibles en línea sobre estadística, R y temas relacionados (álgebra lineal, optimización, machine learning, etc.). Mantendré una versión actualizada de la lista en mi página web.

Estos son los libros que aparecen de momento:

Estadística y R

Probabilidad

Matemáticas

Publicado en estadística, probabilidad, R | Etiquetado | Deja un comentario

Probabilidad II (Grado en Matemáticas)

Añado a la página de cursos del blog el material que he estado utilizando en la asignatura Probabilidad II, correspondiente al Grado en Matemáticas de la UAM. Dado que es un material de clase es posible que aún queden errores e imprecisiones por lo que debe utilizarse con precaución.

El objetivo de esta asignatura es estudiar los fundamentos matemáticos de la teoría de la probabilidad. Se imparte después de un curso sobre teoría de la integral y de la medida. Los tres grandes objetivos son a) demostrar las principales leyes de los grandes números (para lo cual hay que estudiar previamente el concepto de independencia y los principales modos de convergencia), b) demostrar las versiones más simples del teorema central del límite (lo que requiere el uso de la función característica) y c) introducir el concepto general de esperanza condicionada.

Publicado en probabilidad | Etiquetado | Deja un comentario

Un ejemplo sobre normalidad, incorrelación e independencia

En esta entrada doy un ejemplo muy sencillo que he usado a veces para demostrar:

  • Que dos variables aleatorias (v.a.) con distribución normal e incorreladas no son necesariamente independientes.
  • Que la combinación lineal de v.a. con distribución normal no tiene distribución normal en general.

Las conclusiones sí son ciertas si el vector formado por las dos variables tiene distribución conjunta normal bidimensional pero no basta con que las distribuciones marginales de las dos variables sean normales.

El ejemplo se puede encontrar en muchos libros. Por ejemplo en Gut (2009), págs. 122 y 131.

El ejemplo

Sea X una v.a. con distribución normal estándar y sea Z una v.a. independiente de X con \mathbb{P}(Z=1)= \mathbb{P}(Z=-1)=1/2. Se define Y=XZ. Esto equivale a observar X y tirar una moneda. Si sale cara, Y coincide con X; si sale cruz, Y es igual a X cambiada de signo.

Con estas definiciones se verifica:

  • Las variables X e Y tienen distribución normal estándar: la v.a. X es normal estándar por construcción. Además, la distribución de Y coincide con la de X ya que condicionando al valor de Z y aplicando la fórmula de la probabilidad total:

\mathbb{P}(Y\leq y)= \mathbb{P}(XZ\leq y|Z=1)\frac{1}{2} +    \mathbb{P}(XZ\leq y|Z=-1)\frac{1}{2}=  \mathbb{P}(X\leq y)\frac{1}{2} +  \mathbb{P}(X\geq -y)\frac{1}{2}=  \mathbb{P}(X\leq y) ,

donde la última igualdad se deduce de la simetría de la distribución normal.

  • Las variables X e Y son incorreladas: como X y Z son independientes y además tienen media cero,

\mbox{Cov}(X,Y)=\mathbb{E}(XY)=\mathbb{E}(X^2Z)= \mathbb{E}(X^2) \mathbb{E} (Z)=0.

  • Las variables X e Y no son independientes: es inmediato ya que Y tiene distribución normal mientras que Y condicionada a X=x solo puede tomar los valores x y -x.
  • Además, la suma X+Y se anula con probabilidad 1/2, por lo que no tiene distribución normal, a pesar de que tanto X como Y son v.a. normales incorreladas.

Otra consecuencia más técnica que se deduce del ejemplo es que aunque dos variables aleatorias sean absolutamente continuas respecto a la medida de Lebesgue en \mathbb{R} y por lo tanto tengan función de densidad, el vector que forman no tiene por qué ser absolutamente continuo respecto a la medida de Lebesgue en \mathbb{R}^2 y, por lo tanto, no existe la función de densidad conjunta. En el ejemplo, el vector (X,Y) solo toma valores en las bisectrices y=x o y=-x, y este conjunto tiene medida de Lebesgue en \mathbb{R}^2 igual a cero. Esto significa que la distribución de (X,Y) es singular.

Referencias

Gut, A. (2009). An Intermediate Course in Probability , Second Edition. Springer.

Publicado en probabilidad | Etiquetado , , | Deja un comentario

Otra demostración de la ley fuerte de los grandes números

Uno de los resultados más clásicos de la teoría de probabilidad es la ley fuerte de los grandes números (LFGN) de Kolmogorov para variables aleatorias independientes e idénticamente distribuidas (v.a.i.i.d.): dada una sucesión X_1,X_2,\ldots de v.a.i.i.d. con esperanza finita \mu los promedios (X_1+\cdots + X_n) /n convergen a  \mu con probabilidad uno.

La demostración de este resultado es bastante larga y siempre resulta complicada la decisión de incluirla o no en un curso de probabilidad en el que el tiempo escasea. Me refiero al típico curso más avanzado que utiliza teoría de la medida para poder demostrar de forma totalmente general y rigurosa los resultados.

La demostración típica de la LFGN, tal y como aparece en textos como Shiryaev (1996) requiere:

  • Probar la desigualdad maximal de Kolmogorov.
  • Una LFGN para v.a. independientes con varianza finita en la que se usa el lema de Kronecker.
  • Eliminar la hipótesis de que la varianza sea finita mediante una técnica de truncamiento relativamente complicada acompañada de un análisis enrevesado de la serie de las varianzas de las variables truncadas.

Buscando alternativas me encontré con un artículo de 2015 de J. Michael Steele en el que se daba una demostración bastante más sencilla. He escrito unos apuntes con la demostración, adaptada con los detalles necesarios para que puedan seguirla (hopefully) los alumnos de mi asignatura. En este caso también hay que demostrar una desigualdad maximal, pero luego el resto del proceso es mucho más sencillo y la técnica de truncamiento necesaria es notablemente más simple. La demostración también requiere la LFGN de Cantelli para variables con momento finito de cuarto orden (o alternativamente v.a. acotadas), pero este resultado es muy fácil de probar con la desigualdad de Markov y el lema de Borel-Cantelli (o alternativamente la desigualdad de Hoeffding).

Comparto aquí mis apuntes para beneficio de la humanidad 🙂 Este es el enlace.

Otra demostración alternativa y más sencilla de la habitual, y que además solo requiere que las variables sean independientes dos a dos, se debe a Etemadi (1981).

Referencias

Etemadi, N. (1981). An elementary proof of the strong law of large numbers. Zeitschrift für Wahrscheinlichkeitstheorie und verwandte Gebiete55, 119-122.

Shiryaev, A. N. (1996). Probability, Graduate texts in mathematics, 81. Springer.

Steele, J. M. (2015). Explaining a Mysterious Maximal Inequality—and a Path to the Law of Large Numbers. The American Mathematical Monthly122, 490-494.

Publicado en probabilidad | Etiquetado , | Deja un comentario

Curso de estadística aplicada con R (quinta edición)

Los Departamentos de Matemáticas y Ecología de la Facultad de Ciencias de la Universidad Autónoma de Madrid organizan, en colaboración con el Departamento de Bioestadística de GEICAM, la quinta edición del curso Estadística aplicada con el software R. El programa está compuesto por diferentes módulos que pueden ser cursados en su totalidad o separadamente, dependiendo de los diferentes intereses y conocimientos de los alumnos. Los módulos se impartirán entre septiembre y diciembre de 2019 en la Facultad de Ciencias de la UAM:

  1. Introducción a R (este módulo se impartirá en dos turnos, el 12-13 y el 19-20 de septiembre)
  2. Métodos de regresión y análisis multivariante con R (2 a 4 de octubre)
  3. Métodos de Regresión Avanzados para la Investigación en Ciencias Naturales con R (15 a 17 de octubre).
  4. Estadística Aplicada a la Investigación Biomédica con R (28 a 30 de octubre).
  5. Modelos Mixtos / Jerárquicos / Multinivel con R (5 a 7 de noviembre).
  6. Visualización interactiva de datos con el paquete shiny (12 y 13 de noviembre).
  7. Técnicas Estadísticas de Data Mining con R (25 a 29 de noviembre).
  8. Deep learning con R (11 a 13 de diciembre).

Más información en este enlace.

Publicado en estadística, R | Etiquetado | Deja un comentario

Estadística (Grado en Biología)

Añado a la página de cursos del blog la mayor parte del material que he estado utilizando en la asignatura Estadística, correspondiente al Grado en Biología de la UAM. Dado que es un material de clase es posible que aún queden errores e imprecisiones por lo que debe utilizarse con precaución.

Este curso es una introducción estándar a la estadística desde un punto de vista aplicado. Incluye estadística descriptiva, conceptos básicos de probabilidad y técnicas elementales de estimación puntual, intervalos de confianza y contrastes de hipótesis.

Publicado en estadística | Etiquetado | Deja un comentario