Saltar al contenido principal

Inferencia estadística

Definiciones y propiedades

En los capítulos previos hemos visto de manera introductoria como, dada una distribución (pX(x),fX(x)FX(x))\left(p_X(x), f_X(x) \circ F_X(x)\right) de una variable aleatoria XX y el valor de sus parámetros, obtener probabilidades.

El calculo de probabilidades depende del valor de los parámetros. Por tanto, nos interesa disponer de métodos que permitan seleccionar adecuadamente valores de estos para las distribuciones de importancia práctica.

Para realizar lo anteriormente expuesto, requerimos información "del mundo real". Por ejemplo, datos referente a la pluviosidad en cierta área, intensidad y frecuencia de los movimientos telúricos, conteos, velocidades y flujo de vehículos en cierta intersección o vía, etc.

Con base a estos datos, los parámetros pueden ser estimados estadísticamente, y con información sobre el fenómeno inferir la distribución de probabilidad.

Mundo realColeccioˊn de datosEstimacioˊn de paraˊmetros (escoger distribucioˊn)Calculo de probabilidadesInformacioˊn para Decidir - Hacer - Disen˜ar\begin{array}{c} \text{Mundo real} \\ \downarrow \\ \text{Colección de datos} \\ \downarrow \\ \text{Estimación de parámetros (escoger distribución)} \\ \downarrow \\ \text{Calculo de probabilidades} \\ \downarrow \\ \text{Información para Decidir - Hacer - Diseñar} \end{array}

La estimación clásica de parámetros consiste en dos tipos:

  • Puntual: simplemente indica un valor único, basado en los datos, para representar el parámetro de interés.
  • Intervalar: entrega un conjunto de valores (intervalo) donde el parámetro puede estar con cierto nivel de confianza.

Para un estimador puntual, las siguientes propiedades son deseables:

  • Insesgamiento: valor esperado del estimador sea igual al parámetro de interés.
  • Consistencia: implica que si nn \rightarrow \infty, el estimador converge al parámetro (propiedad asintótica).
  • Eficiencia: se refiere a que la varianza del estimador. Dado un conjunto de datos, θ1\theta_1 es más eficiente que θ2\theta_2 para estimar θ\theta si tiene menor varianza.
  • Suficiencia: un estimador se dice suficiente si utiliza toda la información contenida en la muestra para estimar el parámetro.

Métodos de estimación

Método de los Momentos

En términos generales, el método propone igualar los momentos teóricos no centrales de una variable aleatoria XX denotados por μk\mu_k, con los momentos empíricos, basados en los datos, mkm_k, y despejar los parámetros de interés. Es decir,

μk=E(Xk) y mk=1ni=1nxikμk=mk,k=1,2,\begin{gathered} \mu_k=E\left(X^k\right) \quad \text { y } \quad m_k=\frac{1}{n} \sum_{i=1}^n x_i^k \\ \Rightarrow \mu_k=m_k, \quad k=1,2, \ldots \end{gathered}

Método de Máxima Verosimilitud

Otro método de estimación puntual es el denominado método de máxima verosimilitud (MV). En contraste con el método de los momentos, el método de máxima verosimilitud deriva directamente en estimador puntual del parámetro de interés.

Sea XX variable aleatoria con función de probabilidad fX(x,θ)f_X(x, \theta), donde θ\theta es el parámetro de interés. Dada una muestra (es decir, valores observados) x1,,xnx_1, \ldots, x_n, nos preguntamos cuál es el valor más probable de θ\theta que produzca estos valores. En otras palabras, para los diferentes valores de θ\theta, cuál es el valor que maximiza la verosimilitud de los valores observados x1,,xnx_1, \ldots, x_n.

La función de verosimilitud de una muestra aleatoria x1,,xnx_1, \ldots, x_n, es decir, independiente e idénticamente distribuida es:

L(x1,x2,,xn,θ)=fX1,,Xn(x1,,xn,θ)=fX1(x1,θ)××fXn(xn,θ), por independencia =i=1nfX(xi,θ), por ideˊntica distribucioˊ\begin{aligned} L\left(x_1, x_2, \ldots, x_n, \theta\right) & =f_{X_1, \ldots, X_n}\left(x_1, \ldots, x_n, \theta\right) \\ & =f_{X_1}\left(x_1, \theta\right) \times \cdots \times f_{X_n}\left(x_n, \theta\right), \quad \text { por independencia } \\ & =\prod_{i=1}^n f_X\left(x_i, \theta\right), \quad \text { por idéntica distribución } \end{aligned}

Se define el estimador de máxima verosimilitud (EMV) como el valor de θ\theta que maximiza la función de verosimilitud LL. Es decir, es la solución de

θL(x1,x2,,xn,θ)=0θ^=θ\frac{\partial}{\partial \theta} L\left(x_1, x_2, \ldots, x_n, \theta\right)=0 \Rightarrow \hat{\theta}=\theta

Maximizar LL es equivalente a maximizar lnL\ln L, es decir,

θlnL(x1,x2,,xn,θ)=0\frac{\partial}{\partial \theta} \ln L\left(x_1, x_2, \ldots, x_n, \theta\right)=0

Si la función de distribución (discreta o continua) depende de más de un parámetro, digamos θ1,,θm\theta_1, \ldots, \theta_m, los EMV respectivos son las soluciones de las mm ecuaciones:

θjlnL(x1,x2,,xn,θ1,,θm)=0j=1,2,,m\frac{\partial}{\partial \theta_j} \ln L\left(x_1, x_2, \ldots, x_n, \theta_1, \ldots, \theta_m\right)=0 \quad j=1,2, \ldots, m
Nota

Los EMV son estimadores que poseen las propiedades deseables descritas anteriormente. En particular, para nn grande, son "los mejores" estimadores (en el sentido de varianza mínima).

Propiedades

  • Asintóticamente Insesgados: E(θ^n)θE(\hat{\theta}_n) \rightarrow \theta, cuando nn \rightarrow \infty.
  • Varianza alcanza la cota de Cramer-Rao:
Var(θ^n)=1In(θ),\operatorname{Var}(\hat{\theta}_n)=\frac{1}{I_n(\theta)},

con In(θ)=E[2θ2ln(L(θ))]I_n(\theta)=-E\left[\dfrac{\partial^2}{\partial \theta^2} \ln(L(\theta))\right].

  • Distribución Asintótica: Normal.
  • Invarianza: Si θ^n\hat{\theta}_n es el estimador máximo verosímil de θ\theta, entonces g(θ^n)g(\hat{\theta}_n) es el estimador máximo verosímil de g(θ)g(\theta) cuya distribución asintótica es
g(θ^)˙Normal(g(θ),[g(θ)]2In(θ))g(\hat{\theta})\, \dot{\sim} \,\text {Normal}\left(g(\theta), \sqrt{\frac{\left[g^{\prime}(\theta)\right]^2}{I_n(\theta)}}\right)

Prueba de Hipótesis

Una prueba de hipótesis es un método estadístico inferencial para la toma de decisiones sobre una población en base a la información proporcionada por los datos de una muestra. La inferencia puede hacerse con respecto a uno o más parámetros de la población o también para un modelo de distribución.

Una hipótesis es una afirmación con respecto a uno o más parámetros de una población.

Usualmente son dos las hipótesis que se contrastan son:

  • Hipótesis nula, H0\mathrm{H}_0. Este tipo de hipótesis es la que se somete a prueba.
  • Hipótesis alternativa, Ha\mathrm{H}_a. Este tipo de hipótesis es la que se acepta si se rechaza la hipótesis nula.

Cuando interesa inferir sobre el valor de un parámetro μ\mu de la población las hipótesis a contrastar son generalmente:

H0:μ=μ0 vs Ha:μμ0\mathrm{H}_0: \mu=\mu_0 \quad \text { vs } \quad \mathrm{H}_a: \mu \neq \mu_0

Procedimiento

Los pasos necesarios en las pruebas de hipótesis son:

  1. Defina la hipótesis nula y alternativa.
H0:μ=μ0 vs Ha:μμ0H0:μ=μ0 vs Ha:μ>μ0H0:μ=μ0 vs Ha:μ<μ0\begin{array}{lll} \mathrm{H}_0: \mu=\mu_0 & \text { vs } & \mathrm{H}_a: \mu \neq \mu_0 \\ \mathrm{H}_0: \mu=\mu_0 & \text { vs } \quad & \mathrm{H}_a: \mu>\mu_0 \\ \mathrm{H}_0: \mu=\mu_0 & \text { vs } & \mathrm{H}_a: \mu<\mu_0 \end{array}
  1. Identificar la prueba estadística adecuada y su distribución.
  2. Basado en una muestra de datos observados estime el estadístico de prueba.
  3. Especifique el nivel de significancia.

Dado que el estadístico de prueba es una variable aleatoria, la probabilidad de una decisión errónea puede ser controlada. Los errores que se pueden cometer son:

  • Error Tipo I: Se rechaza H0\mathrm{H}_0 dado que era correcta. La probabilidad de Error Tipo I se denota como α\alpha, la cual corresponde al nivel de significancia de la prueba de hipótesis.
  • Error Tipo II: No se rechaza H0\mathrm{H}_0 dado que no era correcta. La probabilidad real de cometer Error Tipo I se conoce como valor-pp.
Regiones

Intervalos de confianza

Intervalos de confianza para la media

Sea X1,,XnX_1, \ldots, X_n una muestra aleatoria de una población cuya distribución es Normal(μ,σ)\operatorname{Normal}(\mu, \sigma).

Un estimador insesgado y consistente para μ\mu esta dado por

Xˉn=1ni=1nXiNormal(μ,σn)\bar{X}_n=\frac{1}{n} \sum_{i=1}^n X_i \sim \operatorname{Normal}\left(\mu, \frac{\sigma}{\sqrt{n}}\right)

Intervalo de Confianza para μ\mu con σ\sigma conocido

Tenemos que

Zn=Xˉnμσ/nNormal(0,1)Z_n=\frac{\bar{X}_n-\mu}{\sigma / \sqrt{n}} \sim \operatorname{Normal}(0,1)

Luego, se puede mostrar que

<μ>1αXˉn±k1α/2σn<\mu>_{1-\alpha} \in \bar{X}_n \pm k_{1-\alpha / 2} \cdot \frac{\sigma}{\sqrt{n}}

Intervalo de Confianza para μ\mu con σ\sigma desconocido

Tenemos que

Tn=XˉnμS/nt-student (n1)T_n=\frac{\bar{X}_n-\mu}{S / \sqrt{n}} \sim \mathrm{t} \text {-student }(n-1)

Luego, se puede mostrar que

<μ>1αXˉn±t1α/2(n1)Sn<\mu>_{1-\alpha} \in \bar{X}_n \pm t_{1-\alpha / 2}(n-1) \cdot \frac{S}{\sqrt{n}}

Tamaño de la muestra

Como se aprecia en la construcción de los Intervalos de Confianza, el tamaño de muestra es fundamental.

Al observar el Intervalo de Confianza para μ\mu, se aprecia que el semiancho esta dado por:

k1α/2σn=wk_{1-\alpha / 2} \frac{\sigma}{\sqrt{n}}=w

Lo anterior se conoce como Error de Estimación.

Por lo tanto, para una precisión ww dada, es posible determinar el tamaño de muestra necesaria, con σ\sigma y α\alpha fijos, dado por

n=(k1α/2σw)2n=\left(\frac{k_{1-\alpha / 2} \sigma}{w}\right)^2
Nota

Alternativamente también se puede determinar un tamaño muestral a partir controlando por los errores tipo I y II de una prueba de hipótesis.

Intervalos de confianza para la varianza

Consideremos nuevamente una muestra aleatoria X1,,XnX_1, \ldots, X_n proveniente de una población cuya distribución es Normal(μ,σ)\operatorname{Normal}(\mu, \sigma).

Un estimador insesgado y consistente para σ2\sigma^2 esta dado por:

S2=1n1i=1n(XiXˉn)2(n1)S2σ2χ(n1)2S^2=\frac{1}{n-1} \sum_{i=1}^n\left(X_i-\bar{X}_n\right)^2 \Rightarrow \frac{(n-1) S^2}{\sigma^2} \sim \chi_{(n-1)}^2

Tenemos que

Cn=(n1)S2σ2χ(n1)2C_n=\frac{(n-1) S^2}{\sigma^2} \sim \chi_{(n-1)}^2

Luego, se puede mostrar que

<σ2>1α[(n1)S2c1α/2(n1);(n1)S2cα/2(n1)]<\sigma^2>_{1-\alpha} \in\left[\frac{(n-1) S^2}{c_{1-\alpha / 2}(n-1)} ; \frac{(n-1) S^2}{c_{\alpha / 2}(n-1)}\right]

Intervalos de confianza asintóticos

Sea θ^\hat{\theta} el estimador de máxima verosimilitud de un parámetro θ\theta. A partir del siguiente pivote

Zn=θ^θVar(θ^)^ aprox Normal(0,1)Z_n=\frac{\hat{\theta}-\theta}{\sqrt{\widehat{\operatorname{Var}(\hat{\theta})}}} \stackrel{\text { aprox }}{\sim} \operatorname{Normal}(0,1)

se tiene que

<θ>1αθ^±k1α/2Var(θ^)^<\theta>_{1-\alpha} \in \hat{\theta} \pm k_{1-\alpha / 2} \cdot \sqrt{\widehat{\operatorname{Var}(\hat{\theta})}}

con Var(θ^)\operatorname{Var}(\hat{\theta}) la varianza asintótica de θ^\hat{\theta}.

Intervalos de confianza asintóticos: proporción

Por ejemplo, consideremos una muestra aleatoria X1,,XnX_1, \ldots, X_n proveniente de una población cuya distribución es Bernoulli(p)\operatorname{Bernoulli}(p).

Un estimador insesgado y consistente para pp esta dado por:

Xˉn=1ni=1nXi aprox.  Normal (p,p(1p)n)\bar{X}_n=\frac{1}{n} \sum_{i=1}^n X_i \stackrel{\text { aprox. }}{\sim} \text { Normal }\left(p, \sqrt{\frac{p(1-p)}{n}}\right)

Tenemos que

Zn=XˉnpXˉn(1Xˉn)n aprox. Normal(0,1),Z_n=\frac{\bar{X}_n-p}{\sqrt{\frac{\bar{X}_n\left(1-\bar{X}_n\right)}{n}}} \stackrel{\text { aprox. }}{\sim} \operatorname{Normal}(0,1),

Luego,

<p>1αXˉn±k1α/2Xˉn(1Xˉn)n<p>_{1-\alpha} \in \bar{X}_n \pm k_{1-\alpha / 2} \cdot \sqrt{\frac{\bar{X}_n\left(1-\bar{X}_n\right)}{n}}

Tests de bondad de ajuste

Test de Kolmogorov-Smirnov

Supongamos que queremos evaluar la calidad de ajuste del modelo f0(y)f_0(y).

H0:fY(y)=f0(y) vs H0:fY(y)f0(y)d=max{Fn(y)F0(y)}\begin{aligned} H_0: f_Y(y) & =f_0(y) \quad \text { vs } \quad H_0: f_Y(y) \neq f_0(y) \\ d & =\max \left\{\left|F_n(y)-F_0(y)\right|\right\} \end{aligned}

con FnF_n función de distribución acumulada empírica y F0F_0 función de distribución acumulada teórica del modelo que se quiere ajustar.

En R la función ks.test() realiza la comparación y calcula el valor pp.

Test de Chi-Cuadrado

Considere una muestra de nn valores observados de una variable aleatoria y suponga una distribución de probabilidad subyacente. El test χ2\chi^2 de bondad de ajuste compara las frecuencias observadas O1,O2,,OkO_1, O_2, \ldots, O_k de kk valores (o kk intervalos) de la variable con sus correspondientes frecuencias teóricas E1,E2,,EkE_1, E_2, \ldots, E_k que calculados suponiendo la distribución teórica.

Para evaluar la calidad del ajuste se usa el siguiente estadístico de prueba:

X2=i=1k(OiEi)2EiX^2=\sum_{i=1}^k \frac{\left(O_i-E_i\right)^2}{E_i}

cuya distribución se aproxima por una χ2(k1)\chi^2(k-1).

Si los parámetros de la distribución son desconocidos, estos deben ser estimados a partir de los datos y debe ser descontado de los grados de libertad de la distribución (por cada parámetro estimado). Si el estadístico de prueba X2>c1α(f)X^2>c_{1-\alpha}(f), la hipótesis nula que los datos provienen de la distribución escogida es rechazada.

El parámetro f=(k1)νf=(k-1)-\nu, con ν\nu el número de estadísticos necesarios para estimar los parámetros. Se recomienda aplicar este test cuando k5k \geq 5 y Ei5E_i \geq 5. En R la función chisq.test() realiza la comparación y calcula el valor-pp para el caso χ2(k1)\chi^2(k-1).

Regresión lineal

Introducción

La Inferencia vista anteriormente, puede ser abordada desde el punto de vista de Modelos Estadísticos. Así por ejemplo, si Y1,,YnY_1, \ldots, Y_n es una muestra aleatoria de una distribución Normal con media μ\mu y varianza σ2\sigma^2 ambos parámetros desconocidos.

Este experimento se puede escribir en términos del siguiente modelo:

Yi=μ+εii=1,,nY_i=\mu+\varepsilon_i \quad i=1, \ldots, n

donde εi\varepsilon_i tienen distribución normal con media cero y varianza σ2\sigma^2.

Al permitir que la media de YY varíe de manera funcional con respecto a una covariable XiX_i de la siguiente manera:

Yi=μ(Xi)+εii=1,,nY_i=\mu\left(X_i\right)+\varepsilon_i \quad i=1, \ldots, n

Obtenemos el modelo de regresión simple. Se llama a

yi=E(Yixi)=μ(xi)y_i=\mathrm{E}\left(Y_i \mid x_i\right)=\mu\left(x_i\right)

a la curva de regresión de YY sobre xx. Si la relación funcional es lineal en los parámetros, es decir,

μ(Xi)=β0+β1Xi,\mu\left(X_i\right)=\beta_0+\beta_1 X_i,

entonces el modelo se llama regresión lineal simple, y la curva de regresión esta dada por yi=β0+β1xiy_i=\beta_0+\beta_1 x_i.

En cambio si

μ(Xi)=β0Xiβ1,\mu\left(X_i\right)=\beta_0 X_i^{\beta_1},

el modelo sería de regresión no lineal simple, y la curva de regresión esta dada por yi=β0xiβ1y_i=\beta_0 x_i^{\beta_1}.

Regresión lineal simple

Consideremos el modelo de regresión lineal simple,

Yi=β0+β1Xi+εii=1,,nY_i=\beta_0+\beta_1 X_i+\varepsilon_i \quad i=1, \ldots, n

Algunos supuestos son:

  1. Linealidad: La media condicional de YY sobre xx es lineal
y=E(Yx)=β0+β1xy=\mathrm{E}(Y \mid x)=\beta_0+\beta_1 x
  1. Homocedasticidad: La varianza asociada a fYx(y)f_{Y \mid x}(y) es la misma para todo xx e iguala σ2\sigma^2.
  2. Independencia: Las distribuciones condicionales son variables aleatorias independientes para todo xx.
  3. Normalidad: fYx(y)f_{Y \mid x}(y) tiene distribución normal para todo xx.
Regiones
Regresión lineal simple bajo los supuestos dados

La interpretación de los parámetros del modelo son las siguientes:

  • β0\beta_0 : intercepto, β0=E(YX=0)\beta_0=\mathrm{E}(Y \mid X=0).
  • β1\beta_1 : pendiente, corresponde a la variación de E(YX=x)\mathrm{E}(Y \mid X=x) cuando xx aumenta en una unidad.

Coeficiente de determinación

Coeficiente de determinación R2R^2:

R2=SCRSCT=i=1n(yiyˉ)2i=1n(yiyˉ)2=1SCESCTR^2=\frac{S C R}{S C T}=\frac{\sum_{i=1}^n\left(y_i^{\prime}-\bar{y}\right)^2}{\sum_{i=1}^n\left(y_i-\bar{y}\right)^2}=1-\frac{S C E}{S C T}

Coeficiente de determinación R2R^2 ajustado:

r2=1sYx2sY2=1(n1)(n2)SCESCT=Rˉ2r^2=1-\frac{s_{Y \mid x}^2}{s_Y^2}=1-\frac{(n-1)}{(n-2)} \frac{S C E}{S C T}=\bar{R}^2

Ambos se interpretan como la proporción de variación total que es explicada por el modelo de regresión lineal.

Test T y Test F

Los test T y test F son pruebas estadísticas utilizadas en el análisis de regresión lineal para evaluar la significancia de los parámetros estimados y el modelo en su conjunto, respectivamente.

El test T se usa para probar la hipótesis nula de que el coeficiente de una variable independiente en una regresión lineal es igual a cero (lo que implica que la variable no tiene efecto sobre la variable dependiente). La fórmula para el estadístico T es:

t=β^j0SE(β^j)t = \frac{\hat{\beta}_j - 0}{SE(\hat{\beta}_j)}

Donde:

  • β^j\hat{\beta}_j es el estimador del coeficiente de la variable independiente jj.
  • SE(β^j)SE(\hat{\beta}_j) es el error estándar del estimador β^j\hat{\beta}_j.

La hipótesis nula (H0H_0) y la hipótesis alternativa (HaH_a) son:

  • H0:βj=0H_0: \beta_j = 0
  • Ha:βj0H_a: \beta_j \neq 0

Si el valor p asociado al estadístico T es menor que el nivel de significancia elegido (comúnmente 0.05), rechazamos la hipótesis nula, lo que sugiere que la variable independiente tiene un efecto significativo sobre la variable dependiente.

El test F se utiliza para probar la hipótesis nula de que un modelo de regresión lineal no tiene capacidad explicativa, es decir, que todos los coeficientes de las variables independientes son iguales a cero simultáneamente. Esto se hace comparando el modelo propuesto con un modelo más simple, usualmente el modelo que solo incluye el término de intercepción. La fórmula para el estadístico F es:

F=RSS0RSS1pRSS1np1F = \frac{\frac{RSS_0 - RSS_1}{p}}{\frac{RSS_1}{n - p - 1}}

Donde:

  • RSS0RSS_0 es la suma de cuadrados residuales del modelo restringido (solo con intercepción).
  • RSS1RSS_1 es la suma de cuadrados residuales del modelo completo.
  • pp es el número de parámetros estimados en el modelo completo excluyendo el término de intercepción.
  • nn es el número total de observaciones.

La hipótesis nula (H0H_0) y la hipótesis alternativa (HaH_a) para el test F son:

  • H0:β1=β2==βp=0H_0: \beta_1 = \beta_2 = \dots = \beta_p = 0
  • Ha:Al menos un βj0H_a: \text{Al menos un } \beta_j \neq 0

Si el valor p asociado al estadístico F es menor que el nivel de significancia elegido, rechazamos la hipótesis nula, lo que indica que el modelo en conjunto proporciona una mejor explicación de la variabilidad de la variable dependiente que el modelo sin ninguna de las variables independientes.

Ambos tests son fundamentales para entender la significancia de los coeficientes individuales y del modelo de regresión en su conjunto.