El Arte de Inferir: Una Introducción Profunda a la Inferencia Estadística

El Arte de Inferir: Una Introducción Profunda a la Inferencia Estadística
“Predicción, clasificación, agrupamiento y estimación son todos casos especiales de inferencia estadística. Análisis de datos, aprendizaje automático y minería de datos son varios nombres dados a la práctica de la inferencia estadística, dependiendo del contexto.” — L. Wasserman, All of Statistics, 2004Bienvenido al fascinante mundo de la inferencia estadística. Olvida por un momento las fórmulas complejas. En su corazón, la estadística es el arte y la ciencia de aprender a partir de los datos. Específicamente, es la disciplina que nos permite tomar decisiones inteligentes frente a la incertidumbre. Esta lección te llevará de la mano para entender cómo lo hacemos.
1. La Idea Central: ¿Por Qué Necesitamos Inferir?
Imagina que preparas una olla gigante de sopa. Quieres saber si está bien de sal. ¿Qué haces? No te bebes la olla entera. Tomas una cucharada, la pruebas y, basándote en ese pequeño sorbo, tomas una decisión sobre toda la olla. ¡Acabas de realizar una inferencia estadística! En esta simple acción residen los conceptos más fundamentales:- La Población: Es el universo completo de interés. En nuestra analogía, es toda la sopa en la olla. En un estudio real, podría ser “todos los votantes de un país”, “todos los productos fabricados en una línea de producción” o “el peso de todos los adultos en una ciudad”. Generalmente, es imposible o impráctico estudiar a toda la población.
- La Muestra: Es un subconjunto representativo que extraemos de la población. En la analogía, es la cucharada de sopa. Debe ser una “foto” en miniatura y sin sesgos de la población para que nuestras conclusiones sean válidas.
Probabilidad vs. Inferencia: Dos Caras de la Misma Moneda
Para entender la inferencia, es crucial distinguirla de la probabilidad.- La Probabilidad es un proceso deductivo (de lo general a lo específico). Si conocemos las reglas del juego (la población), podemos calcular las posibilidades de un resultado específico (la muestra).
- Ejemplo: Si sabemos que en una baraja de 52 cartas hay 4 Ases (conocemos la población), podemos calcular la probabilidad de sacar un As.
- La Inferencia Estadística es un proceso inductivo (de lo específico a lo general). Observamos un resultado (la muestra) e intentamos descubrir cuáles eran las reglas del juego (la población).
- Ejemplo: Sacamos 10 cartas de una baraja misteriosa y obtenemos 3 Ases. Inferimos que la baraja probablemente no es una estándar; quizás está “cargada”.
Ejemplo (Deductivo – Probabilidad): Supongamos que un biólogo sabe, por estudios previos extensos, que el tiempo de vida de una especie de insecto sigue una distribución de probabilidad específica, llamada Gamma, con ciertos parámetros (forma \(\alpha = 2\) y razón \(\beta = 3\)). Es decir, conoce el comportamiento de la “población” completa de tiempos de vida.
La pregunta de probabilidad sería: “Dado este conocimiento, ¿cuál es la probabilidad de que un insecto elegido al azar viva más de 1 día?”
\[
\textsf{P}(X > 1) = \int_1^\infty f_X(x)\,\text{d}x = 0.1991
\]
Aquí, partimos de la población (la distribución Gamma) para deducir algo sobre una observación específica.
2. Dos Filosofías de Inferencia: ¿Cómo Hacemos la Generalización?
Existen dos grandes escuelas o enfoques para realizar inferencias. La elección depende del problema, los datos disponibles y los objetivos del estudio.Inferencia Basada en el Diseño (El Enfoque del Encuestador)
Imagina a un encuestador político que quiere saber la intención de voto en un país. Su universo es claro y tangible: la lista de todos los votantes registrados (una población finita). Su principal preocupación es cómo seleccionar a las personas para su encuesta (la muestra).- Clave del Proceso: El mecanismo de muestreo aleatorio. El investigador controla este proceso para garantizar que cada persona de la población tenga una probabilidad conocida y no nula de ser seleccionada. Esto es lo que hace que la muestra sea representativa.
- Objetivo: Estimar un parámetro real y fijo de esa población finita (ej. el porcentaje exacto de personas que votarán por el candidato A).
- Pro: Las conclusiones se aplican directamente y con gran validez a la población específica que se estudió. Es muy robusto si se hace bien.
- Con: Requiere un marco muestral (el listado completo de la población), lo cual es a menudo carísimo, difícil de obtener o simplemente imposible.
Inferencia Basada en el Modelo (El Enfoque del Científico)
Ahora, imagina a un físico que estudia la caída de objetos. Su “población” no es una lista de objetos; es un concepto abstracto e infinito: todos los posibles resultados que su experimento podría generar, ahora y en el futuro, bajo las mismas condiciones. Es una población hipotética e infinita.- Clave del Proceso: El modelo probabilístico. El investigador propone un “mecanismo generador de datos”, una fórmula matemática (ej. una distribución Normal) que se cree que describe el fenómeno que produce los datos.
- Objetivo: Estimar los parámetros de ese modelo teórico (ej. la aceleración gravitacional, \(g\), en su ecuación).
- Pro: No necesita un listado de la población y puede funcionar incluso con muestras que no fueron seleccionadas de forma perfectamente aleatoria, siempre que el modelo sea correcto. Permite generalizar más allá de la muestra a un proceso subyacente.
- Con: La validez de la inferencia depende críticamente de que el modelo elegido sea una buena representación de la realidad. Si el modelo es incorrecto, las conclusiones pueden ser erróneas. Por eso, es crucial verificar los supuestos del modelo.
3. El Corazón de la Inferencia Moderna: Modelos Paramétricos
En el enfoque basado en modelos, no trabajamos directamente con la población, sino con una idealización matemática de ella.
Definición: Modelo Paramétrico
Un modelo paramétrico es una familia de distribuciones de probabilidad que se describe completamente mediante un conjunto finito de “perillas” o “ajustes” llamados parámetros. Lo denotamos como \(\mathcal{P} = \{f(x;\boldsymbol{\theta}):\boldsymbol{\theta}\in\Theta\}\).
La tarea de la inferencia es usar los datos de la muestra para hacer la mejor conjetura posible sobre el verdadero valor de \(\boldsymbol{\theta}\).
- \(f(x; \boldsymbol{\theta})\) es la función de densidad o masa de probabilidad (la “receta” matemática que genera los datos).
- \(\boldsymbol{\theta}\) es el vector de parámetros desconocidos (ej. \(\boldsymbol{\theta} = (\mu, \sigma^2)\) para una distribución Normal). Son las cantidades fijas que queremos aprender.
- \(\Theta\) es el espacio de parámetros, es decir, el conjunto de todos los valores posibles que los parámetros pueden tomar.
Ejemplo: Un médico estudia el peso (en kg) de pacientes que se someten a una nueva terapia. Es imposible pesar a todos los pacientes pasados, presentes y futuros.
- Población (Hipotética): Los pesos de todas las personas similares a los pacientes que podrían recibir la terapia.
- Modelo Propuesto: El médico postula que la distribución de los pesos en esta población se parece mucho a una campana de Gauss. Por lo tanto, elige el modelo Normal: \(X\sim\textsf{Normal}(\mu,\sigma^2)\).
- Parámetros de Interés: \(\boldsymbol{\theta} = (\mu,\sigma^2)\). El médico no conoce la media (\(\mu\)) ni la varianza (\(\sigma^2)\) verdaderas de esta población. Su objetivo es estimarlas usando los datos de una muestra de pacientes.
4. La Materia Prima: Muestras Aleatorias
Para que nuestro modelo funcione, necesitamos datos. Pero no cualquier conjunto de datos sirve. Necesitamos una muestra aleatoria.
Definición: Muestra Aleatoria
Una muestra aleatoria de tamaño \(n\) es una colección de \(n\) variables aleatorias, \(X_1, X_2, \ldots, X_n\), que son:
Una de las propiedades más poderosas de una muestra i.i.d. es que la distribución de probabilidad conjunta de toda la muestra es simplemente el producto de las distribuciones individuales:
\[
f_{\boldsymbol{X}}(x_1,\ldots,x_n) = f_{X}(x_1) \times f_{X}(x_2) \times \cdots \times f_{X}(x_n) = \prod_{i=1}^{n} f_{X}(x_i)
\]
Esta fórmula es la piedra angular de muchos métodos de estimación, como el de máxima verosimilitud.
- Independientes: El valor de una observación no influye en el valor de otra. (La selección de un paciente no afecta al peso de otro).
- Idénticamente Distribuidas (i.i.d.): Todas las observaciones provienen de la misma población y, por lo tanto, siguen la misma distribución de probabilidad \(f_X(x)\). (Todos los pesos de los pacientes son generados por la misma distribución \(\textsf{Normal}(\mu,\sigma^2)\)).
5. Resumiendo la Evidencia: Estadísticos y sus Distribuciones
Tenemos una muestra de \(n\) números. ¿Cómo la usamos para aprender sobre \(\boldsymbol{\theta}\)? Sería poco práctico trabajar con todos los datos a la vez. Necesitamos resúmenes inteligentes.
Definición: Estadístico
Un estadístico es cualquier función de la muestra aleatoria \(T = T(X_1, \ldots, X_n)\) que no depende de ningún parámetro desconocido. Es algo que podemos calcular directamente a partir de nuestros datos observados.
Ejemplos Clave de Estadísticos:
- La media muestral: \(\quad \bar{X} = \frac{1}{n}\sum_{i=1}^n X_i\). Es nuestro mejor resumen de la tendencia central de la muestra.
- La varianza muestral: \(\quad S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i – \bar{X})^2\). Es nuestro mejor resumen de la dispersión de la muestra.
- El mínimo o máximo de la muestra, la mediana, etc.
La Idea más Importante: ¡Un Estadístico es una Variable Aleatoria!
Este es un salto conceptual crucial. Si tomas una muestra y calculas su media, obtienes un número. Si tu colega toma otra muestra de la misma población y calcula su media, obtendrá un número ligeramente diferente. Si repetimos este proceso miles de veces, obtendremos miles de medias muestrales diferentes. Dado que el valor de un estadístico varía de muestra en muestra de una manera impredecible, el propio estadístico es una variable aleatoria. Y como toda variable aleatoria, tiene su propia distribución de probabilidad.
Definición: Distribución Muestral
La distribución de probabilidad de un estadístico se llama su distribución muestral. Describe cómo se comportarían los valores de nuestro estadístico si pudiéramos tomar un número infinito de muestras del mismo tamaño.
Conocer la distribución muestral de un estadístico es la clave para la inferencia. Nos permite cuantificar la incertidumbre de nuestras estimaciones.
Propiedades Fundamentales de los Estadísticos Más Comunes
Demostremos por qué la media y la varianza muestrales son tan especiales. Supongamos que nuestra población tiene una media desconocida \(\mu\) y una varianza desconocida \(\sigma^2\).1. La Media Muestral (\(\bar{X}\))
- Valor Esperado (Centro): ¿Cuál es el valor promedio de \(\bar{X}\) a lo largo de infinitas muestras? \[ \textsf{E}(\bar{X}) = \textsf{E}\left(\frac{1}{n}\sum_{i=1}^n X_i\right) = \frac{1}{n}\sum_{i=1}^n \textsf{E}(X_i) = \frac{1}{n}\sum_{i=1}^n \mu = \frac{1}{n}(n\mu) = \mu \] Interpretación: La media muestral es un estimador insesgado de la media poblacional. En promedio, “da en el clavo”. No tiende a sobreestimar ni a subestimar sistemáticamente.
- Varianza (Dispersión): ¿Cuán variables son los valores de \(\bar{X}\) de una muestra a otra? \[ \textsf{Var}(\bar{X}) = \textsf{Var}\left(\frac{1}{n}\sum_{i=1}^n X_i\right) \stackrel{\text{indep.}}{=} \frac{1}{n^2}\sum_{i=1}^n \textsf{Var}(X_i) = \frac{1}{n^2}\sum_{i=1}^n \sigma^2 = \frac{1}{n^2}(n\sigma^2) = \frac{\sigma^2}{n} \] Interpretación: La variabilidad de la media muestral disminuye a medida que el tamaño de la muestra \(n\) aumenta. Una muestra más grande produce una estimación más precisa y fiable.
2. La Varianza Muestral (\(S^2\))
Se puede demostrar (aunque el álgebra es más extensa) que el valor esperado de la varianza muestral es: \[ \textsf{E}(S^2) = \sigma^2 \] Interpretación: La varianza muestral (definida con \(n-1\) en el denominador) es un estimador insesgado de la varianza poblacional \(\sigma^2\). El uso de \(n-1\) en lugar de \(n\) es una corrección matemática necesaria para eliminar un pequeño sesgo que surgiría de otro modo. Se conocen como los “grados de libertad”.
Definición: Estimador vs. Estimación
- Un estimador es el estadístico visto como una variable aleatoria, es decir, la fórmula o procedimiento. Ejemplo: \(\bar{X}\).
- Una estimación es el valor numérico concreto que el estimador toma para una muestra particular. Ejemplo: \(\bar{x} = 25.4\).
6. Resumen de Ideas Clave
- La Inferencia Estadística nos permite aprender sobre una población a partir de una muestra.
- La Inferencia Basada en el Modelo asume que los datos son generados por un modelo probabilístico definido por parámetros desconocidos.
- Una Muestra Aleatoria (i.i.d.) es nuestro puente entre los datos observados y el modelo teórico.
- Un Estadístico es un resumen de la muestra (ej. \(\bar{X}\), \(S^2\)) que no depende de parámetros desconocidos.
- La idea más poderosa es que un estadístico es una variable aleatoria con su propia distribución muestral.
- Las propiedades de la distribución muestral (como \(\textsf{E}(\bar{X})=\mu\) y \(\textsf{Var}(\bar{X})=\sigma^2/n\)) nos permiten evaluar la calidad de nuestras inferencias y cuantificar la incertidumbre.
7. Referencias y Lecturas Adicionales
Para aquellos que deseen profundizar en los fundamentos matemáticos, el siguiente libro es una referencia clásica y excepcional: Casella, G., & Berger, R. L. (2002). Statistical inference. Duxbury press.8. Ejercicios para Consolidar el Conocimiento
La verdadera comprensión viene con la práctica. Estos ejercicios cubren desde los fundamentos teóricos hasta la aplicación práctica.- Preguntas Conceptuales:
- Explique con la analogía de la sopa (o una propia) la diferencia entre población, muestra, parámetro y estadístico.
- ¿Cuáles son las características clave de la inferencia basada en el diseño y de la inferencia basada en el modelo? ¿Cuándo podría preferir una sobre la otra?
- Explique con sus propias palabras por qué el error estándar de la media muestral (\(\sigma/\sqrt{n}\)) disminuye a medida que aumenta el tamaño de la muestra. ¿Qué implica esto en la práctica?
- Se suele decir que la inferencia frecuentista trata los parámetros como constantes desconocidas y la inferencia Bayesiana los trata como variables aleatorias. Investigue y explique brevemente qué significa esto.
- La inferencia paramétrica asume que los datos vienen de una distribución específica (Normal, Poisson, etc.). Investigue qué es la inferencia no paramétrica y cuál es su principal ventaja.
- Fundamentos de Distribuciones (Ejemplo con la Exponencial):
Sea \(X\) una variable aleatoria con distribución Exponencial con parámetro de razón \(\lambda > 0\), esto es, \(X\sim\textsf{Exp}(\lambda)\). Esta distribución es comúnmente usada para modelar tiempos de espera.
- Demostrar que la función de distribución acumulada de \(X\) es \[ F_X(x) = \begin{cases} 1 – e^{-\lambda x}, & x > 0; \\ 0, & \text{en otro caso.} \end{cases} \]
- Demostrar que el percentil \(p\) de \(X\) está dado por \(-\ln(1-p)/\lambda\), para \(0<p<1\).
- Demostrar que el valor esperado de \(X\) es \(\mu = \textsf{E}(X) = 1/\lambda\).
- Demostrar que la varianza de \(X\) es \(\sigma^2 = \textsf{Var}(X) = 1/\lambda^2\).
- Demostrar que la función generadora de momentos de \(X\) es \(m_X(t) = \lambda/(\lambda – t)\), para \(t < \lambda\).
- Aplicación y Simulación (Exponencial):
Sea \(X \sim \textsf{Exp}(1/2)\).
- Graficar la función de densidad de \(X\).
- Graficar la función de distribución acumulada de \(X\).
- Calcular los cuartiles de \(X\).
- Calcular la probabilidad de que \(X > 1\).
- Simular una muestra aleatoria de \(X\) de tamaño \(n=1000\). Hacer un histograma de la muestra y superponer la función de densidad teórica de \(X\) para ver qué tan bien coinciden.
- Modelos y Muestras Aleatorias:
Sea \(X_1,\ldots,X_n\) una muestra aleatoria de una población \(X\) con distribución Bernoulli con parámetro \(\theta\), esto es, \(X\sim\textsf{Ber}(\theta)\).
- ¿Cuál es el espacio de parámetros \(\Theta\)?
- ¿Cuál es la función de masa de probabilidad de \(X\)?
- Hallar la función de masa de probabilidad conjunta de \(\boldsymbol{X}=(X_1,\ldots,X_n)\).
- Generalización de Modelos:
Repetir el numeral anterior para las siguientes poblaciones:
- Poisson(\(\lambda\))
- Normal(\(\mu, \sigma^2\))
- Log-Normal(\(\mu, \sigma^2\))
- Beta(\(\alpha, \beta\))
- Gamma(\(\alpha, \beta\))
- Laplace(\(\mu, b\))
- Weibull(\(k, \lambda\))
- Propiedades de los Estimadores (Demostraciones Clave):
Sea \(X_1,\ldots,X_n\) una muestra aleatoria de tamaño \(n\) de una población con media \(\mu\) y varianza \(\sigma^2\).
- Demostrar que \(\textsf{E}(\bar{X}) = \mu\) y \(\textsf{Var}(\bar{X}) = \sigma^2/n\), donde \(\bar{X} = \frac{1}{n}\sum_{i=1}^{n} X_i\) es la media muestral.
- Demostrar que \(\textsf{E}(S^2) = \sigma^2\), donde \(S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i – \bar{X})^2\) es la varianza muestral.
- Identidad Algebraica Útil: Sea \(X_1,\ldots,X_n\) una muestra aleatoria de una población \(X\) con media \(\mu\) y varianza \(\sigma^2\). Demostrar la siguiente identidad que relaciona la suma de cuadrados con la media y varianza muestrales: \[ \sum_{i=1}^n(X_i – \mu)^2 = (n-1)S^2 + n(\bar{X} – \mu)^2 \]
- Simulación de Muestras: Sea \(X_1,\ldots, X_5\) una muestra aleatoria de tamaño \(n=5\) de una población \(X \sim \textsf{Exp}(1/2)\). Simular \(N=1,000,000\) de realizaciones de esta muestra y visualizar tanto la distribución empírica (histograma) como la distribución teórica (curva de densidad) de una de las variables (ej. \(X_1\)).
- Visualización de una Distribución Muestral: Sea \(X_1,\ldots, X_n\) una muestra aleatoria de una población \(X \sim \textsf{Exp}(1/2)\). Para cada tamaño de muestra \(n\in\{5, 10, 30, 100\}\), simular \(N=100,000\) realizaciones de la muestra. En cada una, calcular la media muestral \(\bar{x}\). Visualizar la distribución empírica (histograma) de estas 100,000 medias muestrales para cada \(n\). ¿Qué observas a medida que \(n\) aumenta? (Pista: Teorema del Límite Central).