Algunos artículos que me han llamado la atención en arXiv entre marzo y julio de 2022:
- Finite Sample t-Tests for High-Dimensional Means. Presenta una propuesta para realizar contrastes de una o dos medias cuando el tamaño muestral está fijo y el número de variables crece a infinito. Las distribuciones asintóticas de los estadísticos de contraste son bastante sencillas: t de Student con grados de libertad dependientes del tamaño muestral.
- Las matemáticas de la inteligencia artificial. Un resumen de resultados matemáticos relevantes para lo que se conoce como deep learning. Basado en una charla invitada en el Congreso Internacional de Matemáticos de 2022.
- SVD aleatorizado. Se estudian propiedades de procedimientos aleatorizados para obtener la descomposición en valores singulares de una matriz de alta dimensión. Relacionado con técnicas que en otros contextos (regresión) se llaman sketching.
- Teoría asintótica para la regresión de Cox con datos de alta dimensión. Hace unos años se publicaron algunos artículos (por ejemplo, este de Sur y Candés) en los que se mostraba que en situaciones de alta dimensión la teoría asintótica clásica que se aplica en regresión logística no funciona. Algo de esto ya he comentado en el blog. Aquí se obtienen resultados análogos (aunque parece que basados en técnicas diferentes) de que lo mismo ocurre en el modelo de regresión de Cox.
- Tres demostraciones del teorema fundamental de las cadenas de Markov. Se incluyen varias demostraciones (basadas en probabilidad, álgebra lineal o teoría de grafos) de que toda cadena de Markov ergódica tiene una única distribución estacionaria positiva, y que la cadena alcanza esta distribución en el límite independientemente de la distribución de probabilidad sobre su estado inicial.
- Nuevos resultados para el coeficiente de Chatterjee. El nuevo coeficiente de correlación de Chatterjee ha tenido cierto impacto en la literatura estadística. Aquí se demuestra que es asintóticamente normal para variables no necesariamente independientes.
- Comportamiento asintótico de la versión simétrica del coeficiente de Chatterjee. Más resultados sobre el comportamiento asintótico del nuevo coeficiente.
- La paradoja de los dos hijos. For a two-children family having at least a girl whose name is Florida, what is the probability that the other child is a boy? Aquí se analiza este problema, que es una variante de otro propuesto inicialmente por Martin Gardner en 1959.
- Computational Statistics and Data Science in the Twenty-first Century. Una discusión no demasiado técnica sobre los problemas a los que se enfrenta la estadística computacional en la actualidad.
- Dificultades de los contrastes de hipótesis bayesianos. Algunos problemas de los contrastes de hipótesis desde el punto de vista bayesiano comentados por Christian Robert, un conocido especialista del área.
- Pen and paper exercises in ML. Una extensa colección de problemas sobre estadística, aprendizaje automático y temas relacionados. He visto alguna solución no muy cuidada técnicamente, pero puede dar ideas para la docencia.
- Measures of independence and functional dependence. Algunos resultados negativos sobre la potencia del test basado en el coeficiente de Chatterjee.
- Correction of overfitting bias in regression models. Se analiza el comportamiento de los estimadores de máxima verosimilitud en modelos de regresión (generalizada) bajo el régimen .
- A review and recommendations on variable selection methods in regression models for binary data. En este artículo se presenta una extensa simulación en la que se comparan muchos métodos de selección de variables en regresión logística.
- Functional Regression Models with Functional Response. Se proponen tres nuevos métodos para el modelo de regresión cuando tanto la variable respuesta como la variable regresora son funciones.
- The Importance Markov Chain. Un nuevo algoritmo de simulación en el que se combinan ideas de los métodos MCMC con el muestreo de importancia (importance sampling).