Dos formas de abordar los problemas de probabilidad

La lectura del problema planteado en este tuit y las correspondientes respuestas que obtuvo me llevó a pensar en qué significa realmente resolver un problema de probabilidad y qué consecuencias para nuestra docencia puede tener la respuesta a esta pregunta.

Algunas respuestas hicieron un sencillo cálculo de probabilidad para hallar la respuesta:

Sin embargo, el problema se puede resolver (con el grado de precisión que se quiera) mediante una simulación que requiere solo una línea en R:

A efectos prácticos ambos enfoques son igualmente válidos. Con la solución analítica se consigue una comprensión más profunda de algunos aspectos (por ejemplo, se sabe cómo es la distribución de la diferencia de dos distribuciones uniformes). Sin embargo,  la respuesta basada en simulación es más potente que la analítica en varios sentidos. Si cambiamos la distribución uniforme por otra más complicada tendríamos que rehacer completamente los cálculos, pero bastaría cambiar una palabra en la línea de código. Además, si no sabemos si el tiempo en el que David y Emily llegan al Rec Center sigue una distribución uniforme, pero hemos registrado el tiempo al que han llegado durante 10 días (y suponemos que los tiempos de llegada son independientes), podríamos muestrear de la distribución empírica lo que conecta la solución del problema de probabilidad con una metodología estadística importante (el bootstrap).

# Generamos los datos
set.seed(2) # para reproducir resultados
n = 10
david = runif(n, 0, 2)
emily = runif(n, 0, 2)

#Muestreamos de las dist. empíricas
mean(abs(sample(david, 1e7, rep=TRUE) - sample(emily, 1e7, rep=TRUE)) < 1/3)

 

Para los datos generados por el código anterior, el resultado es 0.30 aprox., no lejos del valor obtenido en el caso en que conocemos que las variables tienen distribución uniforme.

Mi conclusión es que los métodos basados en simulación son muy importantes y creo que en el futuro lo serán aún más. Me parece que deberían ganar peso en los programas de nuestras asignaturas. Algunos autores han argumentado que la enseñanza de la inferencia mediante simulaciones debería constituir la base de los cursos habituales de introducción a la estadística [véase Tintle et al. (2015) y las muchas referencias que se citan en este artículo]. Copio del abstract de Tintle et al. (2015) las ventajas pedagógicas de esta metodología:

Abstract-Tintle et al-2015-TAS

Termino con enlaces a tres entradas del blog relacionadas con esta. Las dos primeras plantean problemas complicados de resolver analíticamente, pero que resultan fáciles de abordar mediante simulación. La tercera corresponde a un artículo que escribí sobre las interacciones entre los métodos de simulación y la inferencia estadística:

 

Referencia

Tintle, N., Chance, B., Cobb, G., Roy, S., Swanson, T., y VanderStoep, J. (2015). Combating Anti-Statistical Thinking Using Simulation-Based Methods Throughout the Undergraduate Curriculum. The American Statistician, 69, 362-370.

Anuncios
Esta entrada fue publicada en estadística, probabilidad y etiquetada , . Guarda el enlace permanente.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s