Selección de variables en clasificación de datos funcionales

En un contexto de creciente abundancia de datos, cada vez es más frecuente tener que analizar muestras de curvas o funciones, en lugar de escalares o vectores. Espectros de frecuencias, electrocardiogramas o incluso imágenes proporcionan este tipo de observaciones en distintos campos. Por ejemplo, la figura de abajo muestra los espectros de absorción obtenidos a partir del análisis de 215 piezas de carne. La parte de la estadística que analiza este tipo de observaciones se llama análisis de datos funcionales.

EjemploTecator

Es imposible observar las funciones completamente. Únicamente se conoce su valor en una rejilla fina (incluso a veces tan fina como se quiera) de valores. Esto quiere decir que en la práctica se trabaja con vectores de alta dimensión a los que no es posible aplicar los métodos clásicos de análisis multivariante. Una posible solución es utilizar solo un número pequeño, cuidadosamente seleccionado, de los valores de las funciones. De esta forma, al reducir la dimensión ya es posible aplicar los métodos estadísticos tradicionales.

¿Es posible entonces sustituir una curva completa por muy pocos puntos sin perder apenas información o, incluso, salir ganando? ¿Cómo seleccionar estos puntos? En esta entrada presento uno de nuestros artículos en el que se aborda esta cuestión en un problema de clasificación.

Clasificación supervisada con datos funcionales

El gráfico siguiente muestra los espectros de absorción anteriores en distinto color según el contenido en grasas de la pieza de carne a la que corresponden (por encima del 20% en rojo y por debajo en azul):

EjemploTecatorGrasa

El problema de clasificación supervisada en esta situación consiste en utilizar la información de esta muestra (muestra de entrenamiento) con el fin de clasificar un nuevo espectro como perteneciente a una carne con bajo o alto contenido en grasas.

Más en general, en clasificación supervisada se dispone de dos muestras de funciones generadas a partir de dos modelos diferentes. El problema consiste en clasificar  una nueva función, independiente de las muestras anteriores y cuya procedencia se desconoce, en uno de los dos modelos.

Selección de variables

Nuestro objetivo en este problema es clasificar la curva usando los valores de los espectros en un número muy pequeño de longitudes de onda cuidadosamente seleccionadas, y despreciar el resto de la curva. Aunque pueda parecer que se pierde información, es sorprendente que para muchos conjuntos de datos (la mayoría de los que hemos analizado) se incrementa la tasa de aciertos de la clasificación procediendo de esta manera.

En Berrendero, J.R., Cuevas, A. y Torrecilla, J.L. (2016) [aquí se puede obtener un preprint publicado en Arxiv] proponemos un criterio relativamente simple para seleccionar los puntos relevantes que da resultados muy buenos, tanto en conjuntos de datos reales como en simulaciones. Se trata de utilizar una medida adecuada para cuantificar el grado de dependencia entre los espectros para cada longitud de onda y la variable que determina si la carne es baja o alta en grasas. La medida que utilizamos es la covarianza de distancias (y su versión estandarizada, la correlación de distancias)  cuyas definiciones y propiedades comentábamos en la anterior entrada del blog. Esta es una medida que, al contrario que el coeficiente de correlación lineal, permite detectar relaciones no lineales entre variables.

En el gráfico siguiente hemos representado (línea negra discontinua) la correlación de distancias entre los espectros evaluados en cada longitud de ondas y la variable que determina si la carne es baja o alta en grasas. Con una barra vertical se señala el punto en el que se maximiza la correlación de distancias:

TecatorMasRelevante

De acuerdo con este criterio, si tuviéramos que representar cada curva con un único punto, lo haríamos con su valor para la longitud de onda 931 aproximadamente. Este es el punto más relevante. Si tuviéramos que elegir dos puntos, ¿cuál sería el siguiente?

Relevancia y redundancia 

El segundo punto no puede ser aquel que da la segunda mayor correlación de distancias porque, debido a la naturaleza de los datos funcionales, este segundo punto sería adyacente al primero y básicamente contendría la misma información. A la hora de seleccionar puntos no solo hay que tener en cuenta su relevancia en la clasificación sino también su redundancia en relación a los puntos ya seleccionados. En nuestro artículo, proponemos seleccionar los puntos que correspondan a máximos locales de la correlación de distancias. Esta es una forma de seleccionar puntos relevantes que al mismo tiempo recogen distintos aspectos de la información contenida en la curva, lo que implícitamente toma en cuenta la redundancia. Al mismo tiempo, el numero de máximos locales sugiere cuántos puntos es necesario seleccionar.  En el ejemplo, los dos mejores puntos son los señalados en el gráfico siguiente, y entre los dos ya contienen la mayor parte de la información relevante:

TecatorSegundo

En el siguiente gráfico cada punto representa un espectro. Los puntos corresponden a la segunda derivada de los espectros evaluada en los dos puntos que hemos seleccionado:

ProyeccionesDerivadas2

Está claro que la tasa de error de clasificación (con cualquier regla de clasificación estándar) va a ser muy baja ya que los puntos azules se muestran bien separados de los rojos. Si comparamos el gráfico de las curvas originales con esta nube de puntos, parece que sí hemos salido ganando al reducir cada curva a un vector bidimensional. De hecho, en este ejemplo, únicamente usando el punto 1 el error de clasificación sería muy pequeño.

 

 

Anuncios
Esta entrada fue publicada en estadística y etiquetada , . Guarda el enlace permanente.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s