El clasificador tangente

En un problema de clasificación supervisada, las reglas de clasificación lineales son preferibles a otras más complicadas debido a que se pueden interpretar con mayor facilidad. Por ejemplo, con una regla lineal es posible determinar qué variables son importantes  y qué variables no son relevantes a efectos de clasificar una nueva observación. Sin embargo, las reglas de clasificación óptimas bajo normalidad no son en general lineales, sino cuadráticas. En un artículo que hemos publicado recientemente en The American Statistician mostramos cómo obtener una regla lineal a partir de una regla que no lo sea. Una versión preliminar del manuscrito se puede encontrar aquí.

Consideremos la frontera g(x)=0 correspondiente a una regla no lineal que separa ambas poblaciones. La idea consiste simplemente en calcular el plano tangente a esta frontera en un punto relevante \mu. Este punto es la intersección entre la recta definida por los centros de ambas poblaciones, \mu_0 y \mu_1, y la frontera del clasificador no lineal, tal y como muestra esta figura:

 

tangente

Resulta que cuando esta idea se aplica a las reglas cuadráticas óptimas bajo normalidad, o a otras reglas cuadráticas bien conocidas, da lugar a un clasificador lineal cuya expresión es muy sencilla. Por ejemplo, consideremos la regla de Mahalanobis, consistente en clasificar una observación x en el grupo 1 si la distancia de Mahalanobis entre x y \mu_1 es menor que  entre x y \mu_0, y definamos \Delta_i como la distancia de Mahalanobis entre los dos centros (tomando como referencia la matriz de covarianzas \Sigma_i correspondiente al grupo i), es decir,

\Delta^2_i = (\mu_1 - \mu_0)^\top \Sigma_i^{-1} (\mu_1 - \mu_0),\ i=0,1.

En este caso, el clasificador tangente consiste en asignar x al grupo 1 si w^\top (x-\mu)>0, donde

\mu = \left(\frac{\Delta_0}{\Delta_0+\Delta_1}\right)\mu_0+\left(\frac{\Delta_1}{\Delta_0+\Delta_1}\right)\mu_1,

y

w = \left[\left(\frac{\Delta_1} {\Delta_0+\Delta_1}\right) \Sigma^{-1}_0+ \left(\frac{\Delta_0}{\Delta_0+\Delta_1}\right)\Sigma^{-1}_1 \right] (\mu_1 - \mu_0).

En el artículo aplicamos estas ideas para obtener clasificadores tangentes robustos (que funcionan bien ante la presencia de datos atípicos en la muestra) y regularizados (apropiados cuando la dimensión de los datos es muy alta en relación al tamaño muestral).

Anuncios
Esta entrada fue publicada en estadística y etiquetada , , . Guarda el enlace permanente.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s