Una variable aleatoria que casi siempre toma valores menores que su media

Si la distribución de una variable aleatoria es asimétrica la media puede dar una impresión equivocada de los valores que toma la variable. Dada una probabilidad  p\in (0,1) tan cercana a uno como se quiera, en esta entrada veremos como dar un ejemplo sencillo de variable aleatoria X tal que \mathbb{P}(X < \mathbb{E}(X)) > p, es decir, si elegimos un valor de p cercano a uno, X toma valores que son casi siempre menores que su valor esperado \mathbb{E}(X). Posteriormente veremos que este ejemplo da lugar a un estimador insesgado que se comporta de una manera inesperada. He encontrado el ejemplo en  este blog.

El ejemplo

Sea Z una variable normal estándar y sea \sigma>0. Definimos X=\exp(\sigma Z), es decir, X es una v.a. con distribución log-normal de parámetros 0 y \sigma. La esperanza de esta variable es \mathbb{E}(X)=\exp(\sigma^2/2). Por lo tanto, dado p\in (0,1) arbitrario,

\mathbb{P}(X < \mathbb{E}(X)) = \mathbb{P}(\sigma Z < \sigma^2/2) = \mathbb{P}(Z < \sigma/2) > p,

para un valor de \sigma suficientemente grande.

Estimación de la media de una variable log-normal

Supongamos que X_1,\ldots,X_n es una muestra de v.a.i.i.d. con distribución log-normal de parámetros 0 y \sigma y que queremos estimar la media \mu = \exp(\sigma^2/2) de la población. Consideramos los dos estimadores alternativos siguientes:

  • La media muestral: este es un estimador insesgado que, además, no requiere ningún conocimiento de cuál es la distribución que siguen los datos.
  • Sabiendo que la población es log-normal, se puede usar también el  estimador plug-in que resulta de la expresión \mu = \exp(\sigma^2/2), donde \sigma^2 = \mbox{Var}(\log(X)). Esto lleva a \hat{\mu} =\exp(S^2/2), donde S^2 es la varianza muestral de \log X_1,\ldots,\log X_n. Este estimador tendrá un pequeño sesgo que no debería ser muy importante para tamaños muestrales grandes.

¿Cómo funcionan estos estimadores? Para responder a esta pregunta he simulado muestras muy grandes (de tamaño 10^6) para distintos valores de \sigma. Para cada muestra he calculado el cociente entre cada uno de los dos estimadores anteriores y el valor del parámetro. Los resultados son los que muestra el gráfico:

LogNormal

Los puntos negros son realizaciones de un estimador insesgado, mientras que los blancos corresponden a un estimador que sí tiene sesgo. Así que los resultados parecen ser justo al revés de lo que dice la intuición. El estimador insesgado prácticamente siempre toma valores menores que el parámetro. Sin embargo, su sesgo es cero porque en ocasiones con probabilidad muy pequeña toma un valor muy grande que compensa las numerosas veces en las que el parámetro se infraestima. En la simulación ha ocurrido una vez (el punto negro de la parte superior derecha).

A pesar de no ser insesgado, el estimador plug-in es mucho mejor que la media muestral, para estimar la media de la población. Esto no sorprende porque incorpora el conocimiento de cuál es la distribución de los datos. La media muestral en este caso funciona mal porque hereda el comportamiento de la variable, que está casi siempre por debajo de su media.

Este es el código de R usado en la simulación:

set.seed(100)
n <- 10^6
sigma <- seq(0.1, 5, 0.1)

theta1 = numeric(length(sigma))
theta2 = numeric(length(sigma))
theta = numeric(length(sigma))

for (i in 1:length(sigma)){
z <- rnorm(n)
x <- exp(sigma[i]*z)
theta[i] = exp(sigma[i]^2/2)
theta1[i] = mean(x)
theta2[i] = exp(sd(log(x))^2/2)
}

plot(sigma, theta1/theta, pch=16, xlab='sigma',
ylab='estimador / parámetro', xlim=range(sigma))
abline(h=1)
points(sigma, theta2/theta)
legend('topleft', c('media muestral','plug in'), pch=c(16,1))
Anuncios
Esta entrada fue publicada en estadística, probabilidad y etiquetada . Guarda el enlace permanente.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s