Función de Verosimilitud: El Paradigma Unificador de la Inferencia Estadística Moderna
La inferencia estadística representa uno de los logros intelectuales más profundos de la humanidad: la capacidad de extraer conocimiento sistemático y cuantificable sobre poblaciones completas a partir de información parcial y limitada. Este desafío epistemológico fundamental —cómo transitar rigurosamente desde lo particular observado hacia lo general desconocido— encuentra su solución más elegante y poderosa en el concepto de función de verosimilitud.
Cuando Ronald A. Fisher introdujo este concepto en 1922, no solo propuso una herramienta matemática nueva, sino que revolucionó completamente nuestra comprensión filosófica de la evidencia estadística. Fisher invirtió la dirección tradicional del razonamiento probabilístico: en lugar de preguntarnos “¿qué tan probable es observar estos datos si el parámetro vale θ?”, propuso preguntarnos “¿qué valores del parámetro θ hacen más plausibles los datos que hemos observado?”. Esta inversión conceptual, aparentemente sutil, desencadenó una transformación completa en la metodología estadística que continúa hasta nuestros días.
La verosimilitud no es simplemente una función matemática más; es el lenguaje fundamental mediante el cual los datos empíricos “hablan” sobre los parámetros desconocidos. Proporciona una medida objetiva y matemáticamente rigurosa de la evidencia contenida en cualquier conjunto de observaciones, permitiéndonos comparar la plausibilidad relativa de diferentes hipótesis paramétricas de manera coherente y óptima. Esta función única conecta tres pilares fundamentales de la inferencia: la estimación puntual (mediante el estimador de máxima verosimilitud), la cuantificación de incertidumbre (a través de la información de Fisher), y la comparación de hipótesis (mediante razones de verosimilitudes).
Arquitectura Conceptual: Los Fundamentos Matemáticos Rigurosos
Para comprender profundamente la función de verosimilitud, debemos primero establecer con precisión matemática los componentes fundamentales del marco inferencial en el que opera. Cada elemento de esta arquitectura conceptual desempeña un papel específico y crítico en la construcción del edificio teórico de la inferencia estadística.
- Modelo Estadístico Paramétrico: Un modelo estadístico constituye una representación matemática formal de nuestras suposiciones sobre el mecanismo generador de datos. Matemáticamente, se define como una familia parametrizada de distribuciones de probabilidad \(\mathcal{P} = \{P_\theta : \theta \in \Theta\}\), donde cada \(P_\theta\) es una medida de probabilidad completamente especificada sobre el espacio muestral \(\mathcal{X}\). En términos de funciones de densidad (para variables continuas) o de masa (para variables discretas), escribimos \(\{f(x | \theta) : \theta \in \Theta\}\). Es crucial entender que el modelo encapsula todas nuestras suposiciones sobre la estructura probabilística subyacente, incluyendo la forma funcional de la distribución y las restricciones sobre los parámetros. La elección del modelo constituye una decisión fundamental que debe basarse tanto en consideraciones teóricas como en evidencia empírica previa.
- Parámetro \(\theta\) y su Interpretación: El parámetro \(\theta\) representa una característica poblacional desconocida pero fija (en el paradigma frecuentista) que queremos inferir. Es fundamental comprender que \(\theta\) no es una variable aleatoria sino una constante desconocida de la naturaleza. Puede ser unidimensional (como la media μ de una distribución normal) o multidimensional (como el vector (μ, σ²) que parametriza completamente una distribución normal). El parámetro encapsula la información esencial que caracteriza completamente el comportamiento probabilístico del fenómeno bajo estudio. En aplicaciones prácticas, \(\theta\) frecuentemente tiene interpretaciones científicas directas: tasas de mutación en genética, elasticidades en economía, o probabilidades de transición en procesos estocásticos.
- Espacio Paramétrico \(\Theta\) y sus Propiedades Topológicas: El espacio paramétrico \(\Theta\) es el conjunto matemático que contiene todos los valores admisibles del parámetro según nuestro modelo y conocimiento previo. Su estructura matemática —si es abierto o cerrado, acotado o no acotado, conexo o disconexo— tiene implicaciones profundas para las propiedades de los estimadores y la validez de los resultados asintóticos. Por ejemplo, en el modelo normal \(\mathcal{N}(\mu, \sigma^2)\), tenemos \(\Theta = \mathbb{R} \times \mathbb{R}^+\), un espacio abierto no acotado. La apertura del espacio es crucial para garantizar que podamos tomar derivadas en el interior, condición necesaria para la teoría asintótica del EMV. En modelos con restricciones (como proporciones donde \(\theta \in [0,1]\)), la presencia de fronteras requiere consideraciones especiales en la optimización y puede invalidar resultados asintóticos estándar.
- Muestra Aleatoria IID y su Importancia Fundamental: Una muestra aleatoria simple consiste en una secuencia de variables aleatorias \(X_1, X_2, \ldots, X_n\) que satisfacen dos condiciones cruciales:
- Independencia: Las variables son mutuamente independientes, es decir, \(P(X_i \in A_i, \forall i) = \prod_{i=1}^n P(X_i \in A_i)\). Esta condición garantiza que la información de cada observación sea “nueva” y no redundante.
- Identidad distribucional: Todas las variables siguen la misma distribución \(f(x|\theta)\). Esto asegura que todas las observaciones informan sobre el mismo parámetro poblacional.
Definición Rigurosa de la Función de Verosimilitud
Definición Formal. Sea \(\mathbf{X} = (X_1, \ldots, X_n)\) un vector aleatorio con función de densidad (o masa) conjunta \(f_{\mathbf{X}}(\mathbf{x}|\theta)\), donde \(\theta \in \Theta\) es el parámetro desconocido. Dada una realización observada específica \(\mathbf{x}^{obs} = (x_1^{obs}, \ldots, x_n^{obs})\) de este vector aleatorio, la función de verosimilitud se define como:
\[L(\theta | \mathbf{x}^{obs}) := f_{\mathbf{X}}(\mathbf{x}^{obs}|\theta) \quad \text{vista como función de } \theta \text{ con } \mathbf{x}^{obs} \text{ fijo}\]Para el caso fundamental de muestras IID, esta definición se simplifica elegantemente a:
\[L(\theta | \mathbf{x}^{obs}) = \prod_{i=1}^{n} f(x_i^{obs} | \theta)\]Interpretación Profunda y Advertencias Críticas:
- La verosimilitud NO es una densidad de probabilidad sobre \(\theta\): Este es quizás el malentendido más común y perjudicial. La integral \(\int_\Theta L(\theta | \mathbf{x}) d\theta\) generalmente no es igual a 1, y puede ser infinita. La verosimilitud no satisface los axiomas de probabilidad de Kolmogorov cuando se considera como función de \(\theta\).
- Solo las razones de verosimilitudes tienen significado interpretable: El valor absoluto \(L(\theta_0 | \mathbf{x})\) carece de interpretación directa. Sin embargo, la razón \(L(\theta_1 | \mathbf{x}) / L(\theta_2 | \mathbf{x})\) cuantifica precisamente cuántas veces más plausible es \(\theta_1\) comparado con \(\theta_2\) dados los datos observados. Esta propiedad es fundamental para el principio de verosimilitud.
- La verosimilitud contiene TODA la información de la muestra sobre \(\theta\): Este resultado profundo, conocido como el Principio de Suficiencia, establece que dos muestras que producen la misma función de verosimilitud (hasta una constante multiplicativa) proporcionan exactamente la misma evidencia sobre \(\theta\).
- Dependencia crucial del modelo especificado: La función de verosimilitud está intrínsecamente ligada al modelo probabilístico asumido. Cambiar el modelo (por ejemplo, de normal a t-Student) produce una función de verosimilitud completamente diferente, incluso para los mismos datos.
El Principio de Máxima Verosimilitud: De la Intuición al Rigor Matemático
El principio de máxima verosimilitud representa una de las ideas más naturales y a la vez más profundas en estadística: entre todos los valores posibles del parámetro, deberíamos preferir aquel que hace más probable (más verosímil) la observación de los datos que efectivamente hemos obtenido. Esta idea intuitiva, cuando se formaliza matemáticamente, conduce a un método de estimación con propiedades óptimas notables.
Formalmente, el Estimador de Máxima Verosimilitud (EMV) se define como:
\[\hat{\theta}_{EMV}(\mathbf{x}) = \underset{\theta \in \Theta}{\arg\max} \; L(\theta | \mathbf{x})\]Es crucial entender que \(\hat{\theta}_{EMV}\) es una función de los datos observados, y por tanto es una variable aleatoria cuando consideramos los datos como realizaciones de variables aleatorias. La distribución muestral de \(\hat{\theta}_{EMV}\) determina sus propiedades estadísticas.
En la práctica, debido a que el logaritmo es una función estrictamente creciente, maximizar \(L(\theta)\) es equivalente a maximizar \(\log L(\theta)\), lo que simplifica considerablemente los cálculos:
\[\hat{\theta}_{EMV} = \underset{\theta \in \Theta}{\arg\max} \; \ell(\theta | \mathbf{x})\]donde \(\ell(\theta | \mathbf{x}) = \log L(\theta | \mathbf{x})\) es la log-verosimilitud. Para muestras IID, esta se convierte en una suma en lugar de un producto:
\[\ell(\theta | \mathbf{x}) = \sum_{i=1}^{n} \log f(x_i | \theta)\]Esta transformación logarítmica no solo simplifica el álgebra, sino que también mejora la estabilidad numérica al evitar productos de números muy pequeños que podrían causar underflow computacional.
Teorema Fundamental: Propiedades Asintóticas del EMV
Teorema (Normalidad Asintótica del EMV). Sea \(\{f(x|\theta) : \theta \in \Theta\}\) una familia paramétrica de densidades con \(\Theta \subseteq \mathbb{R}^k\) un conjunto abierto. Sea \(\mathbf{X}_n = (X_1, \ldots, X_n)\) una muestra IID de tamaño \(n\) de la distribución \(f(x|\theta_0)\), donde \(\theta_0\) denota el verdadero valor del parámetro. Supongamos que se satisfacen las siguientes condiciones de regularidad:
- Identificabilidad del modelo: Si \(\theta_1 \neq \theta_2\), entonces \(f(x|\theta_1) \neq f(x|\theta_2)\) para casi todo \(x\) (con respecto a la medida dominante). Esta condición garantiza que diferentes valores del parámetro producen distribuciones distinguibles.
- Soporte común: El conjunto \(\mathcal{S} = \{x : f(x|\theta) > 0\}\) no depende de \(\theta\). Esto excluye modelos como el uniforme en \([0,\theta]\) donde el soporte mismo depende del parámetro.
- Diferenciabilidad de orden superior: Para todo \(x \in \mathcal{S}\), la función \(\theta \mapsto f(x|\theta)\) es al menos tres veces continuamente diferenciable en el interior de \(\Theta\).
- Integrabilidad de derivadas: Las derivadas parciales de \(f(x|\theta)\) con respecto a los componentes de \(\theta\) pueden intercambiarse con la integral respecto a \(x\). Formalmente, para \(i,j,k \in \{1,\ldots,k\}\): \[\frac{\partial}{\partial \theta_i} \int f(x|\theta) dx = \int \frac{\partial f(x|\theta)}{\partial \theta_i} dx\] y análogamente para derivadas de orden superior.
- Información de Fisher finita y positiva: La matriz de información de Fisher \[I(\theta) = E_\theta\left[\nabla \log f(X|\theta) \cdot [\nabla \log f(X|\theta)]^T\right]\] existe, es finita, y es definida positiva para todo \(\theta\) en el interior de \(\Theta\).
- Condición de Lindeberg: Existe una función \(M(x)\) con \(E_{\theta_0}[M(X)] < \infty\) tal que \[\left|\frac{\partial^3 \log f(x|\theta)}{\partial \theta_i \partial \theta_j \partial \theta_k}\right| \leq M(x)\] para todo \(\theta\) en una vecindad de \(\theta_0\) y todos los índices \(i,j,k\).
Entonces, el estimador de máxima verosimilitud \(\hat{\theta}_n\) satisface:
(a) Consistencia: \(\hat{\theta}_n \xrightarrow{P} \theta_0\) cuando \(n \to \infty\)
(b) Normalidad asintótica: \[\sqrt{n}(\hat{\theta}_n – \theta_0) \xrightarrow{d} \mathcal{N}_k\left(\mathbf{0}, I(\theta_0)^{-1}\right)\] donde \(\xrightarrow{d}\) denota convergencia en distribución.
(c) Eficiencia asintótica: El EMV alcanza la cota inferior de Cramér-Rao asintóticamente, es decir, ningún otro estimador consistente puede tener menor varianza asintótica.
Demostración: Ideas Principales y Técnicas Clave
La demostración completa de este teorema fundamental requiere herramientas sofisticadas de análisis y teoría de probabilidad. Presentamos aquí el esquema detallado de la argumentación, destacando las ideas cruciales en cada paso.
Parte I: Consistencia del EMV
La consistencia se establece mediante argumentos de teoría de procesos empíricos:
- Convergencia uniforme de la función objetivo: Definimos \(M_n(\theta) = \frac{1}{n}\ell_n(\theta)\) y \(M(\theta) = E_{\theta_0}[\log f(X|\theta)]\). Por la Ley Fuerte de los Grandes Números, para cada \(\theta\) fijo: \[M_n(\theta) \xrightarrow{a.s.} M(\theta)\]
- Identificación del máximo poblacional: Usando la desigualdad de Jensen y la identificabilidad del modelo, se demuestra que \(M(\theta)\) tiene un único máximo global en \(\theta = \theta_0\): \[M(\theta) = E_{\theta_0}[\log f(X|\theta)] < E_{\theta_0}[\log f(X|\theta_0)] = M(\theta_0)\] para todo \(\theta \neq \theta_0\).
- Convergencia del maximizador: Aplicando teoremas de convergencia uniforme (bajo condiciones de equicontinuidad estocástica), se establece que \[\sup_{\theta \in K} |M_n(\theta) – M(\theta)| \xrightarrow{P} 0\] para todo compacto \(K \subset \Theta\). Esto implica que \(\hat{\theta}_n \xrightarrow{P} \theta_0\).
Parte II: Normalidad Asintótica
La normalidad asintótica se establece mediante una expansión de Taylor cuidadosa:
- Condición de primer orden: Por definición del EMV, la función de score se anula: \[S_n(\hat{\theta}_n) = \nabla \ell_n(\hat{\theta}_n) = \sum_{i=1}^n \nabla \log f(X_i|\hat{\theta}_n) = 0\]
- Expansión de Taylor: Expandiendo \(S_n(\hat{\theta}_n)\) alrededor de \(\theta_0\): \[0 = S_n(\hat{\theta}_n) = S_n(\theta_0) + H_n(\theta^*)(\hat{\theta}_n – \theta_0)\] donde \(H_n(\theta) = \nabla^2 \ell_n(\theta)\) es la matriz Hessiana y \(\theta^*\) está entre \(\hat{\theta}_n\) y \(\theta_0\).
- Reorganización algebraica: \[\sqrt{n}(\hat{\theta}_n – \theta_0) = -\left[\frac{1}{n}H_n(\theta^*)\right]^{-1} \left[\frac{1}{\sqrt{n}}S_n(\theta_0)\right]\]
- Aplicación del Teorema Central del Límite: El término \(\frac{1}{\sqrt{n}}S_n(\theta_0)\) es una suma normalizada de variables IID con media cero: \[\frac{1}{\sqrt{n}}S_n(\theta_0) = \frac{1}{\sqrt{n}}\sum_{i=1}^n \nabla \log f(X_i|\theta_0) \xrightarrow{d} \mathcal{N}(0, I(\theta_0))\]
- Ley de los Grandes Números para la Hessiana: Por consistencia de \(\hat{\theta}_n\) y continuidad: \[-\frac{1}{n}H_n(\theta^*) \xrightarrow{P} I(\theta_0)\]
- Teorema de Slutsky: Combinando los resultados anteriores: \[\sqrt{n}(\hat{\theta}_n – \theta_0) \xrightarrow{d} [I(\theta_0)]^{-1} \cdot \mathcal{N}(0, I(\theta_0)) = \mathcal{N}(0, I(\theta_0)^{-1})\]
Parte III: Eficiencia Asintótica
La eficiencia se establece verificando que el EMV alcanza la cota inferior de Cramér-Rao asintóticamente. Para cualquier estimador insesgado \(\tilde{\theta}_n\) con varianza finita: \[\text{Var}(\tilde{\theta}_n) \geq [nI(\theta_0)]^{-1}\] El EMV satisface esta cota con igualdad asintóticamente, estableciendo su optimalidad.
Lema: Invarianza del EMV bajo Transformaciones
Enunciado. Sea \(\hat{\theta}\) el EMV de \(\theta\) y sea \(g: \Theta \to \Psi\) una función medible. Entonces:
- Si \(g\) es biyectiva y diferenciable, entonces \(g(\hat{\theta})\) es el EMV de \(\eta = g(\theta)\).
- Si \(g\) no es inyectiva, entonces \(g(\hat{\theta})\) es el EMV generalizado de \(\eta = g(\theta)\) en el sentido de que maximiza la verosimilitud perfilada.
Demostración para el caso biyectivo:
Sea \(\eta = g(\theta)\) con \(g\) biyectiva. La verosimilitud en términos de \(\eta\) es: \[L^*(\eta | \mathbf{x}) = L(g^{-1}(\eta) | \mathbf{x})\] Maximizar \(L^*(\eta)\) es equivalente a maximizar \(L(g^{-1}(\eta))\). Como \(\hat{\theta}\) maximiza \(L(\theta)\), tenemos que \(g^{-1}(\hat{\eta})\) debe ser igual a \(\hat{\theta}\), lo que implica \(\hat{\eta} = g(\hat{\theta})\).
Esta propiedad es extremadamente útil en la práctica: si queremos estimar la desviación estándar \(\sigma\) y tenemos el EMV de la varianza \(\hat{\sigma}^2\), entonces \(\sqrt{\hat{\sigma}^2}\) es automáticamente el EMV de \(\sigma\).
Corolario: Método Delta para Transformaciones del EMV
Enunciado. Bajo las condiciones del teorema de normalidad asintótica, si \(g: \mathbb{R}^k \to \mathbb{R}^m\) es diferenciable en \(\theta_0\) con matriz Jacobiana \(\nabla g(\theta_0)\) de rango completo, entonces:
\[\sqrt{n}(g(\hat{\theta}_n) – g(\theta_0)) \xrightarrow{d} \mathcal{N}_m\left(0, \nabla g(\theta_0) \cdot I(\theta_0)^{-1} \cdot [\nabla g(\theta_0)]^T\right)\]Aplicación práctica: Este resultado es fundamental para construir intervalos de confianza para funciones de parámetros. Por ejemplo:
- Si estimamos \(\mu\) y \(\sigma^2\) en un modelo normal y queremos inferir sobre el coeficiente de variación \(CV = \sigma/\mu\)
- Si estimamos probabilidades \(p_1\) y \(p_2\) y queremos inferir sobre el odds ratio \(\psi = \frac{p_1/(1-p_1)}{p_2/(1-p_2)}\)
- Si estimamos parámetros de regresión y queremos inferir sobre efectos marginales o elasticidades
Protocolo Sistemático para el Cálculo del EMV
El cálculo efectivo del EMV requiere un enfoque sistemático que combine rigor matemático con consideraciones prácticas. El siguiente protocolo detallado garantiza la correcta identificación y verificación del estimador:
- Fase 1: Verificación de Condiciones Previas
- Confirmar que el modelo está bien especificado: la familia paramétrica debe ser apropiada para los datos
- Verificar identificabilidad: diferentes valores del parámetro deben producir distribuciones distinguibles
- Examinar el soporte: confirmar que no depende del parámetro (excluye modelos tipo uniforme en [0,θ])
- Verificar diferenciabilidad: la densidad debe ser suficientemente suave respecto al parámetro
- Documentar el espacio paramétrico Θ: identificar si es abierto, cerrado, acotado, etc.
- Fase 2: Construcción de la Función de Verosimilitud
- Escribir explícitamente la función de densidad/masa \(f(x|\theta)\)
- Para datos IID: \(L(\theta | \mathbf{x}) = \prod_{i=1}^{n} f(x_i | \theta)\)
- Para datos dependientes: usar la densidad conjunta apropiada
- Identificar estadísticos suficientes para simplificar la expresión
- Considerar casos especiales: datos censurados, truncados, o con valores faltantes
- Fase 3: Optimización Matemática
- Tomar logaritmo: \(\ell(\theta) = \sum_{i=1}^{n} \log f(x_i | \theta)\)
- Simplificar algebraicamente, identificando términos que no dependen de θ
- Calcular el gradiente (score): \(S(\theta) = \nabla \ell(\theta)\)
- Resolver el sistema de ecuaciones: \(S(\theta) = 0\)
- Para modelos complejos: usar métodos numéricos (Newton-Raphson, BFGS)
- Fase 4: Verificación de la Solución
- Confirmar que la solución está en el interior de Θ
- Calcular la matriz Hessiana: \(H(\hat{\theta}) = \nabla^2 \ell(\hat{\theta})\)
- Verificar concavidad: \(H(\hat{\theta})\) debe ser definida negativa
- Examinar el comportamiento en la frontera de Θ si es necesario
- Comparar con estimadores método de momentos como validación
- Fase 5: Análisis Post-Estimación
- Calcular la matriz de información de Fisher: \(I(\hat{\theta})\)
- Obtener errores estándar: \(SE(\hat{\theta}_j) = \sqrt{[I(\hat{\theta})^{-1}]_{jj}/n}\)
- Construir intervalos de confianza asintóticos
- Realizar diagnósticos de bondad de ajuste
- Evaluar la estabilidad numérica de las estimaciones
Ejemplos Desarrollados con Análisis Exhaustivo
Ejemplo 1: Modelo Bernoulli – Análisis Completo de la Proporción Poblacional
Contexto del Problema: Consideremos un experimento donde observamos \(n\) ensayos independientes de Bernoulli, cada uno con probabilidad de éxito \(p\) desconocida. Este es uno de los modelos más fundamentales en estadística, con aplicaciones que van desde control de calidad hasta ensayos clínicos.
Modelo Formal: \(X_1, \ldots, X_n \stackrel{iid}{\sim} \text{Bernoulli}(p)\) con \(p \in (0,1)\)
Desarrollo Matemático Completo:
- Función de Verosimilitud:
Para una observación individual: \(f(x|p) = p^x(1-p)^{1-x}\) para \(x \in \{0,1\}\)
Para la muestra completa con \(k = \sum_{i=1}^n x_i\) éxitos:
\[L(p|\mathbf{x}) = \prod_{i=1}^n p^{x_i}(1-p)^{1-x_i} = p^k(1-p)^{n-k}\]Observamos que \(k\) es un estadístico suficiente para \(p\).
- Log-verosimilitud:
\[\ell(p) = k\log(p) + (n-k)\log(1-p)\]
Notemos que \(\ell(p) \to -\infty\) cuando \(p \to 0^+\) (si \(k > 0\)) o \(p \to 1^-\) (si \(k < n\)), garantizando un máximo interior.
- Función Score y Ecuación de Verosimilitud:
\[S(p) = \frac{d\ell}{dp} = \frac{k}{p} – \frac{n-k}{1-p}\]
Igualando a cero y resolviendo:
\[\frac{k}{p} = \frac{n-k}{1-p} \implies k(1-p) = p(n-k) \implies k = np \implies \hat{p} = \frac{k}{n} = \bar{x}\] - Verificación de Máximo Global:
\[\frac{d^2\ell}{dp^2} = -\frac{k}{p^2} – \frac{n-k}{(1-p)^2} < 0 \quad \forall p \in (0,1)\]
La segunda derivada es siempre negativa, confirmando que \(\hat{p}\) es un máximo global único.
- Información de Fisher:
\[I(p) = -E\left[\frac{d^2\ell}{dp^2}\right] = E\left[\frac{k}{p^2} + \frac{n-k}{(1-p)^2}\right] = \frac{n}{p(1-p)}\]
La varianza asintótica del EMV es \(I(p)^{-1}/n = p(1-p)/n\), que coincide exactamente con la varianza de \(\bar{X}\).
- Propiedades del Estimador:
- Insesgado: \(E[\hat{p}] = E[\bar{X}] = p\)
- Consistente: \(\hat{p} \xrightarrow{P} p\) por la Ley de los Grandes Números
- Eficiente: alcanza la cota de Cramér-Rao para todo \(n\)
- Suficiente: \(\hat{p}\) es función del estadístico suficiente minimal \(k\)
- Distribución exacta: \(n\hat{p} \sim \text{Binomial}(n,p)\)
- Distribución asintótica: \(\sqrt{n}(\hat{p} – p) \xrightarrow{d} \mathcal{N}(0, p(1-p))\)
- Intervalos de Confianza:
Intervalo asintótico (Wald): \(\hat{p} \pm z_{\alpha/2}\sqrt{\hat{p}(1-\hat{p})/n}\)
Intervalo de Wilson (mejor cobertura): \(\frac{\hat{p} + \frac{z^2}{2n} \pm z\sqrt{\frac{\hat{p}(1-\hat{p})}{n} + \frac{z^2}{4n^2}}}{1 + \frac{z^2}{n}}\)
Intervalo exacto (Clopper-Pearson): basado en la distribución binomial exacta
Casos Especiales y Consideraciones:
- Si \(k = 0\): El EMV formal no existe en \((0,1)\), pero \(\hat{p} = 0\) maximiza en el cierre \([0,1]\)
- Si \(k = n\): Análogamente, \(\hat{p} = 1\) maximiza en \([0,1]\)
- Para muestras pequeñas, se recomienda el estimador de Laplace: \(\tilde{p} = \frac{k+1}{n+2}\)
Ejemplo 2: Modelo Normal – Estimación Simultánea de Media y Varianza
Contexto del Problema: El modelo normal es fundamental en estadística debido al Teorema Central del Límite. La estimación simultánea de sus dos parámetros ilustra perfectamente el análisis multivariado del EMV.
Modelo Formal: \(X_1, \ldots, X_n \stackrel{iid}{\sim} \mathcal{N}(\mu, \sigma^2)\) con \(\theta = (\mu, \sigma^2) \in \mathbb{R} \times \mathbb{R}^+\)
Desarrollo Matemático Detallado:
- Función de Verosimilitud: \[L(\mu, \sigma^2|\mathbf{x}) = \prod_{i=1}^n \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x_i-\mu)^2}{2\sigma^2}\right)\] \[= (2\pi\sigma^2)^{-n/2} \exp\left(-\frac{1}{2\sigma^2}\sum_{i=1}^n(x_i-\mu)^2\right)\]
- Log-verosimilitud: \[\ell(\mu, \sigma^2) = -\frac{n}{2}\log(2\pi) – \frac{n}{2}\log(\sigma^2) – \frac{1}{2\sigma^2}\sum_{i=1}^n(x_i-\mu)^2\]
- Sistema de Ecuaciones de Verosimilitud:
Derivada respecto a μ:
\[\frac{\partial \ell}{\partial \mu} = \frac{1}{\sigma^2}\sum_{i=1}^n(x_i-\mu) = 0\]Solución: \(\hat{\mu} = \frac{1}{n}\sum_{i=1}^n x_i = \bar{x}\)
Derivada respecto a σ²:
\[\frac{\partial \ell}{\partial \sigma^2} = -\frac{n}{2\sigma^2} + \frac{1}{2(\sigma^2)^2}\sum_{i=1}^n(x_i-\mu)^2 = 0\]Sustituyendo \(\hat{\mu} = \bar{x}\):
\[\hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^2\] - Matriz Hessiana y Verificación:
\[H(\mu, \sigma^2) = \begin{pmatrix}
\frac{\partial^2 \ell}{\partial \mu^2} & \frac{\partial^2 \ell}{\partial \mu \partial \sigma^2} \\
\frac{\partial^2 \ell}{\partial \sigma^2 \partial \mu} & \frac{\partial^2 \ell}{\partial (\sigma^2)^2}
\end{pmatrix}\]
Evaluando en \((\hat{\mu}, \hat{\sigma}^2)\):
\[H(\hat{\mu}, \hat{\sigma}^2) = \begin{pmatrix} -\frac{n}{\hat{\sigma}^2} & 0 \\ 0 & -\frac{n}{2(\hat{\sigma}^2)^2} \end{pmatrix}\]Los eigenvalores son negativos, confirmando un máximo.
- Matriz de Información de Fisher:
\[I(\mu, \sigma^2) = \begin{pmatrix}
\frac{n}{\sigma^2} & 0 \\
0 & \frac{n}{2\sigma^4}
\end{pmatrix}\]
La matriz es diagonal, indicando que \(\hat{\mu}\) y \(\hat{\sigma}^2\) son asintóticamente independientes.
- Propiedades de los Estimadores:
- \(\hat{\mu}\) es insesgado: \(E[\hat{\mu}] = \mu\)
- \(\hat{\sigma}^2\) es sesgado: \(E[\hat{\sigma}^2] = \frac{n-1}{n}\sigma^2\)
- Distribución exacta de \(\hat{\mu}\): \(\hat{\mu} \sim \mathcal{N}(\mu, \sigma^2/n)\)
- Distribución exacta relacionada: \(\frac{n\hat{\sigma}^2}{\sigma^2} \sim \chi^2_{n-1}\)
- \(\hat{\mu}\) y \(\hat{\sigma}^2\) son independientes (resultado no trivial)
- Comparación con Estimador Insesgado:
El estimador insesgado \(s^2 = \frac{1}{n-1}\sum(x_i-\bar{x})^2\) tiene mayor varianza:
\[\text{Var}(\hat{\sigma}^2) = \frac{2\sigma^4(n-1)}{n^2} < \text{Var}(s^2) = \frac{2\sigma^4}{n-1}\]Para \(n\) grande, la diferencia es negligible, pero ilustra el trade-off sesgo-varianza.
Ejemplo 3: Modelo Exponencial – Análisis de Tiempos de Vida
Contexto: La distribución exponencial modela tiempos entre eventos en procesos de Poisson, fundamental en teoría de colas, fiabilidad, y supervivencia.
Modelo: \(X_1, \ldots, X_n \stackrel{iid}{\sim} \text{Exp}(\lambda)\) con \(f(x|\lambda) = \lambda e^{-\lambda x}\) para \(x > 0\), \(\lambda > 0\)
- Verosimilitud: \[L(\lambda|\mathbf{x}) = \lambda^n \exp\left(-\lambda \sum_{i=1}^n x_i\right) = \lambda^n e^{-\