¿Son incorreladas dos variables aleatorias independientes cuya covarianza es cero?

Sean X e Y dos variables aleatorias independientes cuya covarianza es igual a cero. ¿Podemos decir que el coeficiente de correlación lineal entre ellas también vale cero?

En esta entrada se presenta un ejemplo que demuestra que, estrictamente hablando, la respuesta a la pregunta es negativa. La razón es que para que el coeficiente de correlación esté bien definido hay que imponer condiciones a la existencia de momentos de las variables. Además, estas condiciones son ligeramente más restrictivas que las necesarias para que exista la covarianza.

Se trata de una cuestión sobre todo técnica, pero es necesario tenerla en cuenta al aplicar el coeficiente de correlación a variables con colas pesadas como las que aparecen, por ejemplo, en datos económicos. Y en cualquier caso hay que tenerla en cuenta para hacer afirmaciones matemáticamente correctas.

El ejemplo

Como punto de partida consideramos Z_1,\ldots,Z_5 v.a.i.i.d. con distribución normal estándar. Definimos X=Z_1^2 e Y=(Z^2_2+Z^2_3+Z^2_4+Z^2_5)^{-1}. Obviamente X e Y son v.a. independientes. Además X e Y verifican las siguientes propiedades:

  1. E(X)=E(Z_1^2)=1.
  2. E(Y)=1/2, ya que Y es la inversa de una v.a. con distribución chi-cuadrado con 4 grados de libertad. (Se aplica la fórmula que aparece en esta entrada de wikipedia.)
  3. Dado que 4XY tiene distribución F con 1 y 4 grados de libertad  también se verifica E(4XY)=2 (de nuevo, se puede consultar la fórmula en wikipedia) y, por lo tanto, E(XY)=1/2.
  4. Como consecuencia de los tres puntos anteriores Cov(X,Y)=E(XY)-E(X)E(Y)=0.
  5. Sin embargo, Var(Y)=\infty ya que la varianza de la inversa de una chi-cuadrado con n grados de libertad solo es finita si n>4. Por lo tanto el coeficiente de correlación entre X e Y no está definido.

He tomado el ejemplo anterior de Mukhopadhyay (2010). En el artículo se presenta también un ejemplo aún más sencillo en el que las variables son independientes pero ni siquiera la covarianza está definida. Basta tomar X=Z_1 e Y=Z_2^{-1}, con lo que XY=Z_1/Z_2 tiene distribución de Cauchy y E(XY) no es finita.

Referencias

Mukhopadhyay, N. (2010). When finiteness matters: counterexamples to notions of covariance, correlation, and independence. The American Statistician, 64, 231-233.

 

Anuncios
Publicado en estadística, probabilidad | Etiquetado , | Deja un comentario

VI jornada estadística en la UAM

El próximo día 24 de febrero, viernes, tendremos en el Departamento de Matemáticas de la UAM una nueva jornada estadística, con diferentes charlas de miembros del departamento y de algunos profesores invitados de otras universidades. Este es el programa completo de la jornada:

jornada

Publicado en estadística | Etiquetado , | Deja un comentario

Una (dulce) receta con R

El brazo de gitano (llamado en los países anglosajones Swiss roll) es un conocido bizcocho relleno y enrollado en forma de cilindro. En esta entrada se describe cómo generar una muestra aleatoria en \mathbb{R}^3 que tiene la forma de este dulce, y cómo representar estos datos en un gráfico tridimensional.

brazo

Este ejercicio de simulación no es una simple curiosidad, puesto que estos datos o similares se utilizan en la literatura estadística sobre manifold learning y métodos no lineales de reducción de la dimensión para ilustrar las propiedades de los métodos. Un ejemplo es el artículo original acerca de Isomap [Tenenbaum et al. (2000)], que es un conocido método de reducción no lineal de la dimensión.

Según Izenman (2008), página 617, las ecuaciones de la variedad con forma de brazo donde toman valores las observaciones son las siguientes: x_1 = \theta\cos\theta, x_2 =\theta\sin\theta y  x_3 = t, donde \theta\in [3\pi/2,\, 9\pi/2] y t\in [0,15]. En nuestra receta se generan   n realizaciones de una variable aleatoria uniforme \Theta en el intervalo  [3\pi/2, 9\pi/2] y otras n realizaciones (independientes de las anteriores)  de una variable aleatoria T con distribución uniforme en el intervalo [0, 15]. Insertando los valores obtenidos en las ecuaciones se obtienen los puntos.

Para representar los datos en un gráfico tridimensional dinámico he usado el comando plot3d de la librería rgbEl código en R y el gráfico tridimensional dinámico (los puntos se pueden girar y hacer más grandes o pequeños con el ratón) se pueden ver aquí. El resultado de nuestra receta es el siguiente:

swiss

Imaginemos que queremos identificar dos clusters diferentes en una muestra de datos en esta variedad. Los métodos clásicos de clustering (k medias, por ejemplo) se basan en distancias entre las observaciones que no tienen en cuenta la estructura no lineal de la variedad en la que viven, por lo que en general no van a dar buenos resultados. Adoptar un punto de vista adecuado es crucial. Los gráficos siguientes corresponden a los mismos datos contemplados desde dos lugares diferentes:

Mientras que en el gráfico de la izquierda no se distingue apenas la existencia de grupos bien diferenciados en los datos, en el de la derecha aparecen dos clusters de forma totalmente natural. Resulta por lo tanto necesario disponer de métodos que permitan detectar la estructura no lineal de la variedad en la que viven los datos. Este problema puede ser bastante complicado si la dimensión del espacio ambiente es mucho mayor que la de la variedad a la que pertenecen realmente las observaciones.

Volviendo al auténtico brazo de gitano dulce con el que empezábamos la entrada, en esta página se cuentan varias historias que explican su curioso nombre en España. Según wikipedia en otros países de habla hispana se le llama de otras formas, también curiosas: brazo de reina (Chile y Colombia), niño envuelto (México), arrollado (Argentina) o pionono (Perú).

Referencias

Izenman, A. J. (2008). Modern multivariate statistical techniques. Springer.

Tenenbaum, J. B., De Silva, V. y Langford, J. C. (2000). A global geometric framework for nonlinear dimensionality reduction. Science, 290, 2319-2323.

Publicado en estadística, R | Etiquetado , , | 2 comentarios

Investigación Operativa (Grado en Matemáticas)

Añado a la página de cursos del blog la mayor parte del material que he estado utilizando los dos últimos cursos en la asignatura Investigación Operativa, optativa en el Grado en Matemáticas de la UAM. Dado que es un material de clase que solo se ha utilizado durante dos años es posible que aún queden errores e imprecisiones por lo que debe utilizarse con precaución.

La asignatura estaba estructurada en dos partes: el objetivo de la primera parte (temas 1 a 3) era estudiar el algoritmo simplex para resolver problemas de optimización lineal (al mismo tiempo que se daba una introducción a la convexidad de conjuntos); en la segunda parte (temas 4 y 5) se introducía la convexidad de funciones y se estudiaba la teoría de dualidad, junto con la metodología de Karush-Kuhn-Tucker (KKT). La asignatura finalizaba (tema 6) con la aplicación de la metodología de KKT a las máquinas de vectores soporte.

Me hubiera gustado dar alguna aplicación más en Estadística de las técnicas de optimización: tenía pensado contar el uso del algoritmo simplex para ajustar modelos de regresión minimizando la suma de valores absolutos de los residuos (en lugar de aplicar el criterio de mínimos cuadrados) o la utilización de las técnicas de optimización convexa en los métodos de regresión conocidos como lasso, pero al final no hubo tiempo.

Como reflexión general, creo que un curso de optimización (tal vez incluso centrado exclusivamente en optimización convexa y renunciando al algoritmo simplex) resulta cada vez más importante en la formación de un profesional del análisis de datos, así que ha sido para mí una buena experiencia impartir esta asignatura y, de hecho, me hubiera gustado seguir haciéndolo algún curso más.

Publicado en estadística | Etiquetado , | Deja un comentario

Los dados de Efron

Disponemos de un conjunto de cuatro dados en cuyas caras aparecen otros números en lugar de los tradicionales 1 a 6:

DadosEfron

Imaginemos una partida entre dos jugadores en la que cada uno tira uno de estos dados y gana aquel que obtenga una mayor puntuación. Si vuestro caballeroso oponente os deja elegir primero el dado con el que queréis jugar, ¿cuál elegiríais?

Un juego no transitivo

La respuesta es que no importa cuál seleccionéis, vuestro adversario siempre puede elegir otro con el que os gana con probabilidad 2/3. Por ejemplo, si seleccionáis el aburrido dado B (siempre sale 3) entonces A gana con probabilidad 2/3 (cada vez que sale 4), pero si animados por este cálculo seleccionáis el dado A, entonces también D gana a A con probabilidad 2/3 (ejercicio fácil). Podéis pensar en el dado que elegiríais vosotros si es vuestro adversario el que elige primero para cada una de las dos opciones restantes (la respuesta más abajo).

Este ejemplo, que demuestra que ciertas relaciones entre variables aleatorias no tienen por qué ser transitivas, se debe a  Bradley Efron, un estadístico de la Universidad de Stanford conocido sobre todo por introducir a finales de los 70 del siglo XX las técnicas de remuestreo bootstrap. Sus contribuciones en estadística son muy variadas y relevantes, como se puede comprobar en su perfil de Google Académico. En 1998, Efron fue investido doctor honoris causa por la Universidad Carlos III de Madrid (por cierto, su discurso de investidura, que resume la evolución de la estadística en el siglo XX, fue muy interesante y aún se puede encontrar aquí traducido al castellano).

Volviendo a los dados de Efron, el código de R siguiente (que podéis modificar si queréis experimentar con otros dados) simula 10.000.000 de partidas entre algunos pares de los cuatro dados y devuelve la proporción de veces que cada uno gana a otro. El 66,6% de las veces A le gana a B, B le gana a C, C le gana a D, pero también D le gana al dado A. Intuitivamente, cada dado tiene ventajas e inconvenientes que son las que determinan si es mejor o peor que otro. Lo que supone una ventaja en unas comparaciones puede no serlo tanto en otras.

# Esta función simula R partidas entre dos dados
# y devuelve la proporción de veces que el primero le gana
# al segundo

partidas = function(dado1, dado2, R=10^7){
# dado1 y dado2 son vectores con los 6 números de cada dado
sample1 = sample(dado1, R, rep=TRUE)
sample2 = sample(dado2, R, rep=TRUE)
return(sum(sample1 > sample2)/R)
}

# Aplicamos la función a los datos de Efron
dadoA = c(0, 0, 4, 4, 4, 4)
dadoB = c(3, 3, 3, 3, 3, 3)
dadoC = c(2, 2, 2, 2, 6, 6)
dadoD = c(1, 1, 1, 5, 5, 5)

set.seed(100) # para reproducir los resultados
partidas(dadoA, dadoB)
partidas(dadoB, dadoC)
partidas(dadoC, dadoD)
partidas(dadoD, dadoA)

La paradoja de Steinhaus-Trybula

En términos más generales, supongamos que X, Y, Z,\ldots son variables aleatorias que representan el beneficio obtenido, por ejemplo, en diferentes inversiones. Decimos que la inversión X es mejor que la inversión Y (notación, X\succ Y) si es más probable ganar más con X que con Y, es decir, si \mathbb{P}(X>Y)> 0.5. Podría pensarse que si una inversión X es mejor que otra Y, y a su vez Y es mejor que una tercera Z, entonces X también será mejor que Z. Sin embargo, los dados de Efron proporcionan un ejemplo de que la relación no es transitiva. De hecho, es posible encontrar tres variables X,Y,Z tales que  X\succ YY\succ Z, pero Z\succ X (es muy fácil comprobar que el dado C le gana al A con probabilidad 5/9>1/2). A este hecho a veces se le llama la paradoja de Steinhaus-Trybula.

En Trybula (1965) se demuestra que si X_1,X_2,X_3,X_4 son variables aleatorias independientes, entonces

\min\{\mathbb{P}(X_1>X_2),\mathbb{P}(X_2>X_3),\mathbb{P}(X_3>X_4),\mathbb{P}(X_4>X_1)\} \leq 2/3.

Teniendo en cuenta esta cota, los dados de Efron constituyen un ejemplo que no puede mejorarse en el sentido de que no es posible encontrar cuatro variables independientes tales que las cuatro probabilidades anteriores sean todas ellas estrictamente mayores que 2/3.

Para tres variables independientes puede probarse

\min\{\mathbb{P}(X_1>X_2),\mathbb{P}(X_2>X_3),\mathbb{P}(X_3>X_1)\} \leq \varphi -1,

donde \varphi = (1+\sqrt{5})/2\approx 1.618 es la proporción áurea, que de pronto aparece en este contexto. En particular, no es posible diseñar tres dados de forma que A le gane a B, B a C y C a A, siempre con probabilidad 2/3.

El artículo de Trybula contiene cotas para un número arbitrario n de variables aleatorias. Si p_n es la cota para n variables independientes (los ejemplos anteriores corresponden a p_3 y p_4) entonces p_n es una sucesión creciente que converge a 3/4. Otros resultados en relación con la paradoja de Steinhaus-Trybula se pueden encontrar, por ejemplo, en Usiskin (1964) y Savage (1994).

 

 

Publicado en probabilidad, R | Etiquetado | Deja un comentario

Curso de estadística aplicada con R (2ª edición)

La Facultad de Ciencias de la Universidad Autónoma de Madrid (UAM) y la Unidad de Bioestadística del Instituto IMDEA Alimentación  han organizado conjuntamente el curso de formación continua en “Estadística Aplicada con R” (segunda edición) que se va a impartir en Madrid, entre septiembre y diciembre de 2016, de forma presencial. El programa está compuesto por 7 módulos que pueden ser cursados de forma independiente:

1. Introducción a R (22, 23 de septiembre )

2. Métodos de Regresión con R (6, 7 de octubre)

3. Métodos de Regresión Avanzados para la Investigación en Ciencias Naturales con R (19, 20, 21 de octubre)

4. Estadística Aplicada a la Investigación Biomédica con R (24, 25, 26 de octubre)

5. Modelos Mixtos / Jerárquicos / Multinivel con R (16, 17, 18 de noviembre)

6. Estadística Multivariante con R (24 y 25 de noviembre)

7. Técnicas Estadísticas de Data Mining con R (12, 13, 14, 15 de diciembre)

Los módulos 4 y 7 se impartirán en el Instituto IMDEA Alimentación, y el resto en la Facultad de Ciencias de la UAM. El programa completo de todos los módulos lo puedes encontrar en este enlace.

Si quieres obtener más información, lo puedes hacer en las siguientes páginas, donde también podrás formalizar la matrícula:

http://goo.gl/whB1MM

http://www.alimentacion.imdea.org/unidad-de-formacion

Publicado en estadística, R | Etiquetado | Deja un comentario

Selección de variables en clasificación de datos funcionales

En un contexto de creciente abundancia de datos, cada vez es más frecuente tener que analizar muestras de curvas o funciones, en lugar de escalares o vectores. Espectros de frecuencias, electrocardiogramas o incluso imágenes proporcionan este tipo de observaciones en distintos campos. Por ejemplo, la figura de abajo muestra los espectros de absorción obtenidos a partir del análisis de 215 piezas de carne. La parte de la estadística que analiza este tipo de observaciones se llama análisis de datos funcionales.

EjemploTecator

Es imposible observar las funciones completamente. Únicamente se conoce su valor en una rejilla fina (incluso a veces tan fina como se quiera) de valores. Esto quiere decir que en la práctica se trabaja con vectores de alta dimensión a los que no es posible aplicar los métodos clásicos de análisis multivariante. Una posible solución es utilizar solo un número pequeño, cuidadosamente seleccionado, de los valores de las funciones. De esta forma, al reducir la dimensión ya es posible aplicar los métodos estadísticos tradicionales.

¿Es posible entonces sustituir una curva completa por muy pocos puntos sin perder apenas información o, incluso, salir ganando? ¿Cómo seleccionar estos puntos? En esta entrada presento uno de nuestros artículos en el que se aborda esta cuestión en un problema de clasificación.

Clasificación supervisada con datos funcionales

El gráfico siguiente muestra los espectros de absorción anteriores en distinto color según el contenido en grasas de la pieza de carne a la que corresponden (por encima del 20% en rojo y por debajo en azul):

EjemploTecatorGrasa

El problema de clasificación supervisada en esta situación consiste en utilizar la información de esta muestra (muestra de entrenamiento) con el fin de clasificar un nuevo espectro como perteneciente a una carne con bajo o alto contenido en grasas.

Más en general, en clasificación supervisada se dispone de dos muestras de funciones generadas a partir de dos modelos diferentes. El problema consiste en clasificar  una nueva función, independiente de las muestras anteriores y cuya procedencia se desconoce, en uno de los dos modelos.

Selección de variables

Nuestro objetivo en este problema es clasificar la curva usando los valores de los espectros en un número muy pequeño de longitudes de onda cuidadosamente seleccionadas, y despreciar el resto de la curva. Aunque pueda parecer que se pierde información, es sorprendente que para muchos conjuntos de datos (la mayoría de los que hemos analizado) se incrementa la tasa de aciertos de la clasificación procediendo de esta manera.

En Berrendero, J.R., Cuevas, A. y Torrecilla, J.L. (2016) [aquí se puede obtener un preprint publicado en Arxiv] proponemos un criterio relativamente simple para seleccionar los puntos relevantes que da resultados muy buenos, tanto en conjuntos de datos reales como en simulaciones. Se trata de utilizar una medida adecuada para cuantificar el grado de dependencia entre los espectros para cada longitud de onda y la variable que determina si la carne es baja o alta en grasas. La medida que utilizamos es la covarianza de distancias (y su versión estandarizada, la correlación de distancias)  cuyas definiciones y propiedades comentábamos en la anterior entrada del blog. Esta es una medida que, al contrario que el coeficiente de correlación lineal, permite detectar relaciones no lineales entre variables.

En el gráfico siguiente hemos representado (línea negra discontinua) la correlación de distancias entre los espectros evaluados en cada longitud de ondas y la variable que determina si la carne es baja o alta en grasas. Con una barra vertical se señala el punto en el que se maximiza la correlación de distancias:

TecatorMasRelevante

De acuerdo con este criterio, si tuviéramos que representar cada curva con un único punto, lo haríamos con su valor para la longitud de onda 931 aproximadamente. Este es el punto más relevante. Si tuviéramos que elegir dos puntos, ¿cuál sería el siguiente?

Relevancia y redundancia 

El segundo punto no puede ser aquel que da la segunda mayor correlación de distancias porque, debido a la naturaleza de los datos funcionales, este segundo punto sería adyacente al primero y básicamente contendría la misma información. A la hora de seleccionar puntos no solo hay que tener en cuenta su relevancia en la clasificación sino también su redundancia en relación a los puntos ya seleccionados. En nuestro artículo, proponemos seleccionar los puntos que correspondan a máximos locales de la correlación de distancias. Esta es una forma de seleccionar puntos relevantes que al mismo tiempo recogen distintos aspectos de la información contenida en la curva, lo que implícitamente toma en cuenta la redundancia. Al mismo tiempo, el numero de máximos locales sugiere cuántos puntos es necesario seleccionar.  En el ejemplo, los dos mejores puntos son los señalados en el gráfico siguiente, y entre los dos ya contienen la mayor parte de la información relevante:

TecatorSegundo

En el siguiente gráfico cada punto representa un espectro. Los puntos corresponden a la segunda derivada de los espectros evaluada en los dos puntos que hemos seleccionado:

ProyeccionesDerivadas2

Está claro que la tasa de error de clasificación (con cualquier regla de clasificación estándar) va a ser muy baja ya que los puntos azules se muestran bien separados de los rojos. Si comparamos el gráfico de las curvas originales con esta nube de puntos, parece que sí hemos salido ganando al reducir cada curva a un vector bidimensional. De hecho, en este ejemplo, únicamente usando el punto 1 el error de clasificación sería muy pequeño.

 

 

Publicado en estadística | Etiquetado , | Deja un comentario