La formulación matricial del problema de componentes principales

El problema de análisis de componentes principales se puede formular como un problema de optimización en un espacio de matrices. Este planteamiento tiene la ventaja de que permite resolver el problema de manera compacta, sin recurrir a una sucesión de problemas de optimización con restricciones. Además, facilita comprobar la equivalencia de distintos criterios de reducción … Sigue leyendo La formulación matricial del problema de componentes principales →

Tan cerca y tan lejos: la distancia de Mahalanobis

A veces digo en mis clases que uno de los objetivos principales -y difíciles- de la estadística es determinar cuándo dos elementos son parecidos y cuándo no. Resolver adecuadamente esta cuestión es la base de multitud de procedimientos y algoritmos, desde contrastes de hipótesis hasta métodos de clasificación. Uso la ambigua palabra elementos, porque a … Sigue leyendo Tan cerca y tan lejos: la distancia de Mahalanobis →

Cómo transformar un vector aleatorio para que tenga distribución uniforme

Si $latex X$ es una variable aleatoria con función de distribución continua $latex F$, entonces la variable $latex U=F(X)$ tiene distribución uniforme en el intervalo $latex [0,1]$. Por ejemplo, si tenemos observaciones independientes $latex x_1,\ldots, x_n$ procedentes de una distribución normal estándar y llamamos $latex \Phi$ a la función de distribución $latex \mbox{N}(0,1)$, entonces $latex … Sigue leyendo Cómo transformar un vector aleatorio para que tenga distribución uniforme →

Sobre los ceros en la matriz de precisión

En esta entrada se explica cómo interpretar la aparición de ceros en algunas posiciones de la matriz de precisión de un vector aleatorio, que es la inversa de su matriz de covarianzas. Un ejemplo Supongamos que $latex \epsilon_1$, $latex \epsilon_2$ y $latex \epsilon_3$ son v.a.i.i.d. con distribución normal estándar y definamos las variables $latex X_1=\epsilon_1$, … Sigue leyendo Sobre los ceros en la matriz de precisión →

Una (dulce) receta con R

El brazo de gitano (llamado en los países anglosajones Swiss roll) es un conocido bizcocho relleno y enrollado en forma de cilindro. En esta entrada se describe cómo generar una muestra aleatoria en $latex \mathbb{R}^3$ que tiene la forma de este dulce, y cómo representar estos datos en un gráfico tridimensional. Este ejercicio de simulación … Sigue leyendo Una (dulce) receta con R →

Una correlación para el siglo XXI

La mayoría de los científicos ha calculado alguna vez el coeficiente de correlación de Pearson para valorar el grado de asociación lineal entre dos variables. Aunque es una medida muy sencilla y útil, la correlación de Pearson no es efectiva para detectar relaciones no lineales entre las variables. Existen medidas más recientes que resuelven este problema a cambio, normalmente, … Sigue leyendo Una correlación para el siglo XXI →

¿En qué consiste estandarizar un vector aleatorio?

Cuando se estandariza una variable aleatoria (restando su media y dividiendo por su desviación típica) se obtiene otra variable con media 0 y desviación típica 1. ¿Cuál es la operación análoga para vectores aleatorios? Cualquier transformación de un vector que merezca el nombre de estandarización debe conseguir que las componentes del vector estandarizado sean variables aleatorias con media … Sigue leyendo ¿En qué consiste estandarizar un vector aleatorio? →

Máquinas de vectores soporte con R

He añadido a la página de R del blog una introducción a la aplicación de máquinas de vectores soporte (SVM, iniciales en inglés) con R. Hay varios paquetes que se pueden utilizar. Yo he elegido la función svm del paquete e1071. En función de los parámetros y del núcleo seleccionado, las máquinas de vectores soporte incluyen bajo una … Sigue leyendo Máquinas de vectores soporte con R →

Análisis de datos (antigua Licenciatura en Biología)

Añado a la página de cursos parte del material que aún tengo de la asignatura Análisis de Datos de la antigua Licenciatura en Biología de la UAM. Esta asignatura dejó de impartirse con la implantación de los nuevos grados (lo que es una pena ya que se daban técnicas que cada vez son más importantes … Sigue leyendo Análisis de datos (antigua Licenciatura en Biología) →

El clasificador tangente

En un problema de clasificación supervisada, las reglas de clasificación lineales son preferibles a otras más complicadas debido a que se pueden interpretar con mayor facilidad. Por ejemplo, con una regla lineal es posible determinar qué variables son importantes y qué variables no son relevantes a efectos de clasificar una nueva observación. Sin embargo, las … Sigue leyendo El clasificador tangente →