La formulación matricial del problema de componentes principales

El problema de análisis de componentes principales se puede formular como un problema de optimización en un espacio de matrices. Este planteamiento tiene la ventaja de que permite resolver el problema de manera compacta, sin recurrir a una sucesión de problemas de optimización con restricciones. Además, facilita comprobar la equivalencia de distintos criterios de reducción de la dimensión.

La técnica más conocida de reducción de la dimensión de un conjunto de datos es el análisis de componentes principales, que permite pasar de datos de dimensión $p$ a dimensión $d<p$ de manera que se pierda la menor cantidad de información posible. En la mayoría de los libros el problema de componentes principales se presenta como un procedimiento iterativo que comienza por la primera componente. Se trata de buscar la dirección $a$ en la que proyectar los datos de manera que se maximice la varianza de las proyecciones (que es $a'Sa$ , donde $S$ es la matriz de covarianzas de los datos). Posteriormente, se encuentra la dirección ortogonal a la primera en la que se maximiza la varianza de las proyecciones, y así sucesivamente. En esta entrada se presenta la técnica de una forma matricial más compacta y matemáticamente más elegante.

La observación clave es que el problema de encontrar las $d$ primeras componentes principales consiste matemáticamente en determinar la matriz de proyección óptima $Q$ de rango $d$ para la que se maximiza la traza de $SQ$ .

Esta formulación permite comprobar la equivalencia de distintos criterios de manera casi inmediata. Además, se plantea un problema de optimización sin restricciones (que están implícitas en el hecho de que $Q$ es una matriz de proyección) lo que permite evitar el uso de multiplicadores de Lagrange. Finalmente, un resultado de Fan de 1949 da la solución del problema de una vez para cualquier número de componentes. Todas estas afirmaciones se demuestran con detalle en estas notas que aquí comparto para beneficio de la humanidad. Las notas son un resumen de la exposición que se puede encontrar en Mathar et al (2020), un libro reciente sobre los fundamentos matemáticos del análisis de datos.

Referencias

Mathar, R., Alirezaei, G., Balda, E., & Behboodi, A. (2020). Fundamentals of Data Analytics. Springer.

La formulación matricial del problema de componentes principales

Referencias

Publicado por JRB

Deja un comentario Cancelar la respuesta

Referencias

Comparte esta entrada:

Relacionado

Publicado por JRB

Deja un comentario Cancelar la respuesta