El sesgo (en valor absoluto) es un cateto, la varianza es el otro cateto al cuadrado, el error cuadrático medio es la hipotenusa al cuadrado. Algunos resultados sobre variables aleatorias, muy utilizados en estadística, tienen una interpretación geométrica atractiva. La relación de la esperanza condicionada con el concepto geométrico de proyección permite adquirir intuición sobre algunos resultados y contemplarlos casi como inmediatos. En particular, la identidad ANOVA, que aparece frecuentemente asociada a diversos modelos de regresión o diseño de experimentos, se puede ver como un caso particular del teorema de Pitágoras. Aquí se da una versión poblacional de esta identidad que no está asociada a ningún modelo, sino que depende únicamente de la distribución conjunta de las variables involucradas.
Varianza, covarianza y correlación desde el punto de vista geométrico
Definir un producto escalar en el conjunto de variables aleatorias permite interpretar geométricamente varios resultados de probabilidad. El producto escalar que vamos a considerar es una medida de similaridad de las variables ya que, una vez que ajustamos por la posición y la escala, coincide con la correlación:
.
Como todo producto escalar, el que acabamos de introducir define una norma, que podemos considerar como una vara de medir el tamaño de una variable: . Si es el valor esperado de , entonces la varianza es el tamaño de las desviaciones a la media al cuadrado: .
La covarianza es el producto escalar entre las desviaciones a la media de dos variables: , y la correlación, por lo tanto, es
donde es el ángulo que forman e . Obviamente entonces la correlación en valor absoluto es menor o igual a uno, y vale uno si y solo si existe una relación lineal entre las variables ( o ).
Con estas relaciones, observamos que la ley de los cosenos:
se traduce en términos probabilísticos (para las variables centradas) en la conocida igualdad
Desde este punto de vista geométrico, decir que dos variables son incorreladas es lo mismo que decir que si las centramos son perpendiculares:
La esperanza condicionada entendida como una proyección
Si queremos predecir el valor de una variable a partir de otra variable, o vector, , podemos usar el valor esperado de dado o esperanza condicionada, .
Una propiedad importante de esta función es la ley de la esperanza iterada
que podemos entender como una fórmula de la probabilidad total para esperanzas de variables, en lugar de probabilidades de sucesos. Por ejemplo, si sabemos que toma dos posibles valores y con probabilidades y respectivamente, entonces la ley de la esperanza iterada dice que
Desde el punto de vista de la predicción, si usamos para predecir el valor de conociendo , la ley de la esperanza iterada nos asegura que tanto la predicción como la variable que queremos predecir tienen el mismo valor esperado, lo que es una buena propiedad: si usamos como predictor la esperanza condicionada no hay tendencias sistemáticas a sobrevalorar o infravalorar .
De hecho, la esperanza condicionada es, en cierto sentido, la predicción óptima ya que se puede entender como una proyección de (el elemento más cercano a ) en un conjunto muy amplio de funciones (aquellas que tienen varianza finita, para las que tiene sentido la norma que hemos definido antes). Geométricamente, la proyección se caracteriza por la condición de que la diferencia es perpendicular a cualquier otra función . Véase la figura siguiente:
Por lo tanto, para demostrar que la esperanza condicionada es la proyección, hay que comprobar para cualquier . Ahora bien, por la ley de la esperanza iterada aplicada a , tenemos
Entonces,
Así pues, la esperanza condicionada es la mejor predicción posible, en el sentido de minimizar la norma de la diferencia (minimiza el error cuadrático medio de predicción).
La mejor predicción lineal
¿Y qué ocurre si, por simplicidad, solo estamos dispuestos a considerar funciones lineales de ? Queremos predecir mediante . ¿Cuáles son los valores óptimos de y ? De nuevo, proyectamos pero ahora solo sobre el conjunto de funciones lineales que están generadas por 1 y por (son combinaciones lineales de 1 y ). Para que la predicción sea la proyección, su diferencia con tiene que ser perpendicular a 1 y a :
- Primera condición (perpendicularidad a 1): . Equivalentemente, la recta que buscamos tiene que pasar por el vector de medias.
- Segunda condición (perpendicularidad a ): , que se puede escribir equivalentemente como
Restándole a esta ecuación la que resulta de la primera condición mutiplicada por , y despejando, tenemos
Estas fórmulas son las versiones poblacionales de los parámetros de la recta de mínimos cuadrados. Aquí hemos obtenido las expresiones usando un argumento puramente geométrico.
La identidad de análisis de la varianza y el teorema de Pitágoras
Hay una identidad importante, relacionada con la varianza de una variable aleatoria, que se suele llamar identidad de análisis de la varianza (ANOVA):
En esta fórmula, la varianza condicionada se define como la usual pero condicionando a en las esperanzas que aparecen en la definición: .
Si usamos la notación y aplicamos la ley de la esperanza iterada al segundo término, la identidad ANOVA se puede escribir así:
Esta igualdad tiene una interpretación muy clara: la varianza de una variable, la incertidumbre que tenemos sobre ella, se descompone en dos partes: la primera es la parte que es capaz de explicar, , y la segunda es aquella que no es capaz de explicar, , que a veces se llama varianza residual. En los libros aparecen identidades ANOVA asociadas a diferentes modelos de regresión o diseño de experimentos, pero en esta versión probabilística es un resultado que depende únicamente de la distribución de y ayuda a determinar la capacidad que tiene de explicar .
En esta interpretación ayuda considerar los casos extremos: si fuese entonces , con lo que lo explica todo de , ya que el segundo término de la identidad ANOVA se anula. En el otro extremo, si e son independientes, entonces , y entonces y es el primer término el que se anula. En este caso, no aporta nada al conocimiento de .
Veamos que desde el punto de vista geométrico la identidad ANOVA no es más que el teorema de Pitágoras. Para ello basta considerar la figura siguiente:
Para interpretar la figura observamos lo siguiente:
- El triángulo es rectángulo porque, como hemos observado antes, la esperanza condicionada es la proyección de sobre el espacio de las variables que son función de .
- Que la hipotenusa al cuadrado es la varianza de es obvio por las definiciones que hemos dado al principio de esta entrada.
- El cateto al cuadrado es porque, por la ley de la esperanza iterada, es la esperanza de .
- El cateto al cuadrado es por la ley de la esperanza iterada, en este caso aplicada a la variable .
Como hemos dicho antes, la identidad tal y como la hemos enunciado aquí es totalmente general ya que solo depende de la distribución conjunta de . Haciendo diversas hipótesis sobre esta distribución se pueden deducir las identidades ANOVA asociadas a distintos modelos.