¿En qué consiste estandarizar un vector aleatorio?

Cuando se estandariza una variable aleatoria (restando su media y dividiendo por su desviación típica) se obtiene otra variable con media 0 y desviación típica 1. ¿Cuál es la operación análoga para vectores aleatorios?

Cualquier transformación de un vector que merezca el nombre de  estandarización debe conseguir que las componentes del vector estandarizado sean variables aleatorias con media 0 y varianza 1. La cuestión interesante es qué condición exigir sobre la relación entre estas componentes. En función de si somos más o menos exigentes podríamos definir dos versiones de la estandarización de un vector, una débil y otra fuerte:

  • Estandarización débil: las componentes del vector estandarizado son variables aleatorias incorreladas.
  • Estandarización fuerte: las componentes del vector estandarizado son variables aleatorias independientes.

Si el vector tiene distribución normal multivariante ambas estandarizaciones son equivalentes ya que en este caso incorrelación implica independencia. Sin embargo, si el vector no tiene distribución normal ambas versiones pueden dar resultados muy diferentes. De hecho, aunque (casi) siempre es posible estandarizar un vector en el sentido débil, no siempre es posible hacerlo en el sentido fuerte. La versión débil está relacionada con lo que en estadística multivariante se llama análisis de componentes principales (iniciales en inglés PCA) mientras que la versión fuerte es básicamente equivalente al conocido como análisis de componentes independientes (iniciales en inglés, ICA).

Estandarización débil

Supongamos que X es un vector aleatorio con vector de medias \mu y matriz de covarianzas definida positiva \Sigma.

Dado que \Sigma es una matriz simétrica y definida positiva podemos diagonalizarla, es decir,  \Sigma = CDC', donde D es una matriz diagonal formada por los autovalores de \Sigma y C es la matriz ortonormal cuyas columnas son los autovectores unitarios de \Sigma. Definimos entonces \Sigma^{-1/2} = CD^{-1/2}C'.

Es bastante fácil comprobar que el vector Z=\Sigma^{-1/2}(X-\mu)=CD^{-1/2}C'(X-\mu) tiene componentes incorreladas de media 0 y varianza 1. Geométricamente, para obtener Z a partir de X realizamos la siguiente secuencia de operaciones:

  1. Una traslación X-\mu (para que el nuevo vector de medias sea el origen).
  2. Un giro o reflexión C'(X-\mu) (para que la nueva matriz de covarianzas sea diagonal, es decir, las nuevas componentes sean incorreladas).
  3. Un cambio de escala en cada variable D^{-1/2}C'(X-\mu) (para que la nueva matriz de covarianzas sea la identidad, es decir, las componentes sean incorreladas con varianza 1).
  4. Deshacemos el giro o reflexión del paso 2: Z=CD^{-1/2}C'(X-\mu). Esto es así porque al ser C una matriz ortonormal, se tiene que C^{-1}=C'.

Una observación importante es que el paso 4 no es necesario para conseguir el objetivo. Únicamente con los tres primeros ya hemos conseguido estandarizar en sentido débil. Una vez llevados a cabo los tres primeros pasos, un nuevo giro (sea deshacer el del paso 2 u otro cualquiera) no modifica la matriz de covarianzas. Esto significa que hay en realidad infinitas estandarizaciones débiles posibles para un vector dado. También significa que eligiendo cuidadosamente el giro en la etapa 4 podemos aproximarnos a llevar a cabo una estandarización fuerte.

Estandarización fuerte

Supongamos ahora además que X=AY, donde Y es un vector cuyas coordenadas son variables independientes de media 0 y varianza 1 y A es una matriz cuadrada invertible desconocida. Recuperar Y=A^{-1}X a partir de X es básicamente el problema que se plantean las técnicas de  análisis de componentes independientes . También consiste en lo que hemos definido más arriba como estandarización fuerte.

Teniendo en cuenta el comentario del final de la sección anterior, el problema se reduce a encontrar una matriz ortonormal V de manera que las componentes de Z=VD^{-1/2}C'(X-\mu) sean independientes (ya son incorreladas, de media 0 y varianza 1).

Se han propuesto diferentes enfoques para determinar V. Sin entrar aquí en detalles, estos enfoques tratan de:

  • maximizar algún criterio que mida la diferencia de la distribución del vector Z con la normal multivariante (se han propuesto criterios basados en la entropía), o bien,
  • minimizar algún criterio de dependencia (como por ejemplo la información mutua).

En este artículo se puede encontrar una propuesta reciente de análisis de componentes independientes basado en la covarianza de distancias.

Anuncios
Esta entrada fue publicada en estadística y etiquetada . Guarda el enlace permanente.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s