Geometría de las variables aleatorias

El sesgo (en valor absoluto) es un cateto, la varianza es el otro cateto al cuadrado, el error cuadrático medio es la hipotenusa al cuadrado. Algunos resultados sobre variables aleatorias, muy utilizados en estadística, tienen una interpretación geométrica atractiva. La relación de la esperanza condicionada con el concepto geométrico de proyección permite adquirir intuición sobre algunos resultados y contemplarlos casi como inmediatos. En particular, la identidad ANOVA, que aparece frecuentemente asociada a diversos modelos de regresión o diseño de experimentos, se puede ver como un caso particular del teorema de Pitágoras. Aquí se da una versión poblacional de esta identidad que no está asociada a ningún modelo, sino que depende únicamente de la distribución conjunta de las variables involucradas.

Foto de Nils en Pexels

Varianza, covarianza y correlación desde el punto de vista geométrico

Definir un producto escalar en el conjunto de variables aleatorias permite interpretar geométricamente varios resultados de probabilidad. El producto escalar que vamos a considerar es una medida de similaridad de las variables ya que, una vez que ajustamos por la posición y la escala, coincide con la correlación:

\langle X,Y\rangle := \mathbb{E}(XY).

Como todo producto escalar, el que acabamos de introducir define una norma, que podemos considerar como una vara de medir el tamaño de una variable: \|X\|^2 := \mathbb{E}(X^2). Si \mu_x es el valor esperado de X, entonces la varianza es el tamaño de las desviaciones a la media al cuadrado: \mbox{Var}(X) = \|X-\mu_x\|^2.

La covarianza es el producto escalar entre las desviaciones a la media de dos variables: \mbox{Cov}(X,Y)=\langle X-\mu_x, Y-\mu_y\rangle, y la correlación, por lo tanto, es

\mbox{Corr}(X,Y) = \left\langle \frac{X-\mu_x}{\|X-\mu_x\|}, \frac{Y-\mu_y}{\|Y-\mu_y\|}\right\rangle =\cos \theta,

donde \theta es el ángulo que forman X-\mu_x e Y-\mu_y. Obviamente entonces la correlación en valor absoluto es menor o igual a uno, y vale uno si y solo si existe una relación lineal entre las variables (\theta=0 o \theta=\pi).

Con estas relaciones, observamos que la ley de los cosenos:

\|X + Y\|^2 =  \|X\|^2 + \|Y\|^2 + 2\|X\|\cdot \|Y\|\cos \theta

se traduce en términos probabilísticos (para las variables centradas) en la conocida igualdad

\mbox{Var}(X+Y) = \mbox{Var}(X) + \mbox{Var}(Y) + 2\mbox{Cov}(X,Y).

Desde este punto de vista geométrico, decir que dos variables son incorreladas es lo mismo que decir que si las centramos son perpendiculares:

\mbox{Corr}(X,Y) = 0 \Leftrightarrow X-\mu_x \perp Y-\mu_y.

La esperanza condicionada entendida como una proyección

Si queremos predecir el valor de una variable Y a partir de otra variable, o vector, X, podemos usar el valor esperado de Y dado X o esperanza condicionada, \mathbb{E}(Y|X).

Una propiedad importante de esta función es la ley de la esperanza iterada

\mathbb{E}(Y) = \mathbb{E}[\mathbb{E}(Y|X)]

que podemos entender como una fórmula de la probabilidad total para esperanzas de variables, en lugar de probabilidades de sucesos. Por ejemplo, si sabemos que X toma dos posibles valores 0 y 1 con probabilidades 1/3 y 2/3 respectivamente, entonces la ley de la esperanza iterada dice que

\mathbb{E}(Y) = \frac{1}{3}\mathbb{E}(Y|X=0) + \frac{2}{3}\mathbb{E}(Y|X=1).

Desde el punto de vista de la predicción, si usamos \mathbb{E}(Y|X) para predecir el valor de Y conociendo X, la ley de la esperanza iterada nos asegura que tanto la predicción como la variable que queremos predecir tienen el mismo valor esperado, lo que es una buena propiedad: si usamos como predictor la esperanza condicionada no hay tendencias sistemáticas a sobrevalorar o infravalorar Y.

De hecho, la esperanza condicionada es, en cierto sentido, la predicción óptima ya que se puede entender como una proyección de Y (el elemento más cercano a Y) en un conjunto muy amplio de funciones g(X) (aquellas que tienen varianza finita, para las que tiene sentido la norma que hemos definido antes). Geométricamente, la proyección \hat{Y} se caracteriza por la condición de que la diferencia Y-\hat{Y} es perpendicular a cualquier otra función g(X). Véase la figura siguiente:

La condición de perpendicularidad que determina una proyección

Por lo tanto, para demostrar que la esperanza condicionada es la proyección, hay que comprobar Y-\mathbb{E}(Y|X) \perp g(X) para cualquier g. Ahora bien, por la ley de la esperanza iterada aplicada a Yg(X), tenemos
\mathbb{E}[Yg(X)] = \mathbb{E}[\mathbb{E}[Y g(X)|X] = \mathbb{E}[\mathbb{E}(Y|X) g(X)].

Entonces,

\langle Y-\mathbb{E}(Y|X) , g(X)\rangle=\mathbb{E}[Yg(X)]-\mathbb{E}[\mathbb{E}(Y|X) g(X)]=0.

Así pues, la esperanza condicionada es la mejor predicción posible, en el sentido de minimizar la norma de la diferencia (minimiza el error cuadrático medio de predicción).

La mejor predicción lineal

¿Y qué ocurre si, por simplicidad, solo estamos dispuestos a considerar funciones lineales de X? Queremos predecir Y mediante \beta_0 + \beta_1X. ¿Cuáles son los valores óptimos de \beta_0 y \beta_1? De nuevo, proyectamos Y pero ahora solo sobre el conjunto de funciones lineales que están generadas por 1 y por X (son combinaciones lineales de 1 y X). Para que la predicción \hat{Y} = \hat\beta_0 + \hat\beta_1 X sea la proyección, su diferencia con Y tiene que ser perpendicular a 1 y a X:

  • Primera condición (perpendicularidad a 1): \langle Y - \hat{\beta}_0-\hat{\beta}_1X, 1\rangle = 0\Leftrightarrow \mu_y = \hat\beta_0 + \hat\beta_1\mu_x. Equivalentemente, la recta que buscamos tiene que pasar por el vector de medias.
  • Segunda condición (perpendicularidad a X): \langle Y - \hat{\beta}_0-\hat{\beta}_1 X, X\rangle = 0, que se puede escribir equivalentemente como
    \mathbb{E}(XY) = \hat\beta_0\mu_x +\hat\beta_1\mathbb{E}(X^2).
    Restándole a esta ecuación la que resulta de la primera condición mutiplicada por \mu_x, y despejando, tenemos
    \hat{\beta}_1 = \frac{\mbox{Cov}(X,Y)}{\mbox{Var}(X)}.

Estas fórmulas son las versiones poblacionales de los parámetros de la recta de mínimos cuadrados. Aquí hemos obtenido las expresiones usando un argumento puramente geométrico.

La identidad de análisis de la varianza y el teorema de Pitágoras

Hay una identidad importante, relacionada con la varianza de una variable aleatoria, que se suele llamar identidad de análisis de la varianza (ANOVA):

\mbox{Var}(Y)=\mbox{Var}(\mathbb{E}(Y|X))+\mathbb{E}(\mbox{Var}(Y|X)).

En esta fórmula, la varianza condicionada se define como la usual pero condicionando a X en las esperanzas que aparecen en la definición: \mbox{Var}(Y|X) = \mathbb{E}[(Y-\mathbb{E}(Y|X))^2 |X].

Si usamos la notación \hat{Y} = \mathbb{E}(Y|X) y aplicamos la ley de la esperanza iterada al segundo término, la identidad ANOVA se puede escribir así:

\mbox{Var}(Y)=\mbox{Var}(\hat{Y}) + \mathbb{E}[(Y-\hat{Y})^2].

Esta igualdad tiene una interpretación muy clara: la varianza de una variable, la incertidumbre que tenemos sobre ella, se descompone en dos partes: la primera es la parte que X es capaz de explicar, \mbox{Var}(\hat{Y}), y la segunda es aquella que X no es capaz de explicar, \mathbb{E}[(Y-\hat{Y})^2], que a veces se llama varianza residual. En los libros aparecen identidades ANOVA asociadas a diferentes modelos de regresión o diseño de experimentos, pero en esta versión probabilística es un resultado que depende únicamente de la distribución de (Y,X) y ayuda a determinar la capacidad que tiene X de explicar Y.

En esta interpretación ayuda considerar los casos extremos: si fuese Y=g(X) entonces Y=\hat{Y}, con lo que X lo explica todo de Y, ya que el segundo término de la identidad ANOVA se anula. En el otro extremo, si X e Y son independientes, entonces \hat{Y}=\mathbb{E}(Y), y entonces \mbox{Var}(Y|X)=\mbox{Var}(Y) y es el primer término el que se anula. En este caso, X no aporta nada al conocimiento de Y.

Veamos que desde el punto de vista geométrico la identidad ANOVA no es más que el teorema de Pitágoras. Para ello basta considerar la figura siguiente:

La identidad ANOVA como caso particular del teorema de Pitágoras

Para interpretar la figura observamos lo siguiente:

  • El triángulo es rectángulo porque, como hemos observado antes, la esperanza condicionada es la proyección de Y sobre el espacio de las variables que son función de X.
  • Que la hipotenusa al cuadrado es la varianza de Y es obvio por las definiciones que hemos dado al principio de esta entrada.
  • El cateto b al cuadrado es \mbox{Var}[\mathbb{E}(Y|X)] porque, por la ley de la esperanza iterada, \mathbb{E}(Y) es la esperanza de \mathbb{E}(Y|X).
  • El cateto c al cuadrado es \mathbb{E}[\mbox{Var}(Y|X)] por la ley de la esperanza iterada, en este caso aplicada a la variable (Y-\mathbb{E}(Y|X))^2.

Como hemos dicho antes, la identidad tal y como la hemos enunciado aquí es totalmente general ya que solo depende de la distribución conjunta de (X,Y). Haciendo diversas hipótesis sobre esta distribución se pueden deducir las identidades ANOVA asociadas a distintos modelos.

Deja un comentario