Saltar al contenido principal

Modelos analíticos de fenómenos aleatorios

Variables y distribuciones

Variables aleatorias

Una variable aleatoria es el vehículo matemático para representar un evento en términos analíticos. El valor de una variable aleatoria puede estar definida para un conjunto de posibles valores.

Si XX es una variable aleatoria, entonces

X=x,X<x,X>xX=x, \quad X<x, \quad X>x

representa un evento, donde (a<X<b)(a<X<b) es el rango de valores posibles de XX. La asignación numérica puede ser natural o artificial.

Formalmente, una variable aleatoria puede ser considerada como una función o regla sobre los eventos del espacio muestral a un sistema numérico (o línea real).

Variable aleatoria

Así, los eventos E1E_1 y E2E_2 pueden corresponder a

E1=(a<Xb)E2=(c<Xd)E1E2=(Xa)(X>d)E1E2=(c<Xb)\begin{aligned} E_1 & =(a<X \leq b) \\ E_2 & =(c<X \leq d) \\ \overline{E_1 \cup E_2} & =(X \leq a) \cup(X>d) \\ E_1 \cap E_2 & =(c<X \leq b) \end{aligned}

Una variable aleatoria puede ser discreta o continua.

Distribuciones de probabilidad

Para los valores o rango de valores que puede tomar una variable aleatoria tienen asociados una probabilidad especifica o medidas de probabilidad. La regla que asigna las medidas de probabilidad se denomina distribución o ley de probabilidad.

Si XX es variable aleatoria, la distribución de probabilidad puede ser descrita por su función de distribución de probabilidad acumulada denotada por:

FX(x)=P(Xx) para todo xRF_X(x)=P(X \leq x) \text { para todo } x \in \mathbb{R}

Si XX es una variable aleatoria discreta, entonces esta función puede ser expresada a través de la función de probabilidad "puntual" denotada por

pX(x)=P(X=x)p_X(x)=P(X=x)

Así,

FX(x)=xixP(X=xi)=xixpX(xi)F_X(x)=\sum_{x_i \leq x} P\left(X=x_i\right)=\sum_{x_i \leq x} p_X\left(x_i\right)

con xiΘXx_i \in \Theta_X (soporte de X)\left.X\right).

Ahora, si XX es una variable aleatoria continua, las probabilidades están asociadas a intervalos de xx. En este caso se define la función de densidad fX(x)f_X(x) tal que

P(a<Xb)=abfX(x)dxP(a<X \leq b)=\int_a^b f_X(x) d x

y

FX(x)=P(Xx)=xfX(t)dtF_X(x)=P(X \leq x)=\int_{-\infty}^x f_X(t) d t

con

fX(x)=ddxFX(x)f_X(x)=\frac{d}{d x} F_X(x)

Notar que

P(x<Xx+dx)=fX(x)dxP(x<X \leq x+d x)=f_X(x) d x
Caso discreto y continuo
Caso discreto y continuo
Caso mixto
Caso mixto

Propiedades

  1. FX()=0F_X(-\infty)=0 y FX()=1F_X(\infty)=1.
  2. FX(x)0F_X(x) \geq 0 para todo valor de xx y es no decreciente.
  3. FX(x)F_X(x) es continua por la derecha

Para el caso continuo, la ecuación la podemos escribir como

P(a<Xb)=bfX(x)dxafX(x)dxP(a<X \leq b)=\int_{-\infty}^b f_X(x) d x-\int_{-\infty}^a f_X(x) d x

mientras que en el caso discreto

P(a<Xb)=xibpX(xi)xiapX(xi)P(a<X \leq b)=\sum_{x_i \leq b} p_X\left(x_i\right)-\sum_{x_i \leq a} p_X\left(x_i\right)

es decir, para ambos casos

P(a<Xb)=FX(b)FX(a)P(a<X \leq b)=F_X(b)-F_X(a)

Medidas descriptivas de una variable aleatoria

Una variable aleatoria puede ser descrita totalmente por su función de distribución de probabilidad o de densidad, o bien por su función de distribución de probabilidad acumulada. Sin embargo, en la práctica la forma exacta puede no ser totalmente conocida.

En tales casos se requieren ciertas "medidas" para tener una idea de la forma de la distribución.

Medidas centrales

En el rango de posibles valores de una variable aleatoria, existe un interés natural con respecto a los valores centrales, por ejemplo, el promedio.

Consideremos una variable aleatoria XX con soporte ΘX\Theta_X. Como cada valor de ΘX\Theta_X tiene una medida de probabilidad, el promedio ponderado es de especial interés.

Valor esperado

Al promedio ponderado se le llama también valor medio o valor esperado de la variable aleatoria XX. Para una variable aleatoria XX se define el valor esperado, μX\mu_X, como:

μX=E(X)={xΘXxpX(x), Caso Discreto xfX(x)dx, Caso Continuo \mu_X=\mathrm{E}(X)= \begin{cases}\displaystyle\sum_{x \in \Theta_X} x \cdot p_X(x), & \text { Caso Discreto } \\[20pt] \displaystyle\int_{-\infty}^{\infty} x \cdot f_X(x) d x, & \text { Caso Continuo }\end{cases}

Este valor existe siempre y cuando

xΘXxpX(x)<xfX(x)dx<\sum_{x \in \Theta_X}|x| \cdot p_X(x)<\infty \quad \circ \quad \int_{-\infty}^{\infty}|x| \cdot f_X(x) d x<\infty

Moda

Es el valor más frecuente o con mayor probabilidad de ocurrencia. Para los casos discretos y continuos, tenemos que

 Caso Discreto:  Moda =maxxΘXpX(x) Caso Continuo:  Moda =maxxΘXfX(x)\begin{aligned} \text { Caso Discreto: } & \quad \text { Moda }=\max _{x \in \Theta_X} p_X(x) \\ \text { Caso Continuo: } & \quad \text { Moda }=\max _{x \in \Theta_X} f_X(x) \end{aligned}

Mediana

Sea xmed x_{\text {med }} el valor que toma la mediana, entonces

FX(xmed )=1/2F_X\left(x_{\text {med }}\right)=1 / 2

En resumen, el valor esperado de una variable aleatoria es un valor promedio que puede ser visto como un indicador del valor central de la distribución de probabilidad, por esta razón se considera como un parámetro de localización.

Por otra parte, la mediana y la moda de una distribución también son parámetros de localización que no necesariamente son iguales a la media.

Nota

Cuando la distribución es simétrica, estas tres medidas son parecidas.

Medidas de posición

Percentiles

Si xpx_p es el valor que toma el percentil p×100%p \times 100 \%, entonces FX(xp)=F_X\left(x_p\right)= pp.

Algunos casos particulares de percentil son: quintiles, cuartiles, deciles, mediana.

Nota

Los valores para cada tipo de percentil son:

  • Quintiles: p=0.2p=0.2
  • Cuartiles: p=0.25p=0.25
  • Deciles: p=0.1p=0.1
  • Mediana: p=0.5p=0.5

Esperanza matemática

La noción del valor esperado como un promedio ponderado puede ser generalizado para funciones de la variable aleatoria XX. Dada una función g(X)g(X), entonces el valor esperado de esta puede ser obtenido como:

E[g(X)]={xΘXg(x)pX(x), Caso Discreto g(x)fX(x)dx, Caso Continuo E[g(X)]= \begin{cases}\displaystyle\sum_{x \in \Theta_X} g(x) \cdot p_X(x), & \text { Caso Discreto } \\[20pt] \displaystyle\int_{-\infty}^{\infty} g(x) \cdot f_X(x) d x, & \text { Caso Continuo }\end{cases}

Función generadora de momentos

La función generadora de momentos de una variable aleatoria XX se define como

MX(t)=E[exp(tX)]M_X(t)=\mathrm{E}[\exp (t X)]

Esta función puede no estar definida para algunos valores de tt, pero si existe en un intervalo abierto que contenga al cero, entonces esta función tiene la propiedad de determinar la distribución de probabilidad de XX.

Cuando esto último ocurra, esta función permite obtener el rr-ésimo momento de XX de la siguiente forma

M(r)(0)=E(Xr)M^{(r)}(0)=\mathrm{E}\left(X^r\right)

Medidas de dispersión

Es de interés cuantificar el nivel de dispersión que tienen una variable aleatoria con respecto a un valor de referencia. Por ejemplo, nos podría interesar la distancia esperada de los valores de una variable aleatoria XX con respeto al valor esperado μX\mu_X, es decir, E[(XμX)]\mathrm{E}\left[\left(X-\mu_X\right)\right].

Esta idea de dispersión tiene el problema que siempre da como resultado cero.

Varianza

Una alternativa es utilizar la definición de varianza, es decir

σX2=Var(X)=E[(XμX)2]={xΘX(xμX)2pX(x), Caso Discreto (xμX)2fX(x)dx, Caso Continuo =E(X2)μX2\begin{aligned} \sigma_X^2 & =\operatorname{Var}(X)=\mathrm{E}\left[\left(X-\mu_X\right)^2\right] \\ & = \begin{cases} \displaystyle\sum_{x \in \Theta_X}\left(x-\mu_X\right)^2 \cdot p_X(x), & \text { Caso Discreto } \\[20pt] \displaystyle\int_{-\infty}^{\infty}\left(x-\mu_X\right)^2 \cdot f_X(x) d x, & \text { Caso Continuo }\end{cases} \\[30pt] & =\mathrm{E}\left(X^2\right)-\mu_X^2 \end{aligned}

Desviación estándar

En términos de dimensionalidad, es conveniente utilizar la desviación estandar, es decir,

σX=Var(X)\sigma_X=\sqrt{\operatorname{Var}(X)}

Coeficiente de variación

Ahora, si μX>0\mu_X>0, una medida adimensional de la variabilidad es el coeficiente de variación (c.o.v)

δX=σXμX\delta_X=\frac{\sigma_X}{\mu_X}

Rango y IQR

Las definiciones para el rango y el rango intercuartílico (IQR) son

 Rango =maxminIQR=x0.75x0.25\begin{aligned} \text { Rango } & =\max -\min \\ \mathrm{IQR} & =x_{0.75}-x_{0.25} \end{aligned}

Medidas de asimetría

Skewness

Se define una medida de asimetría (skewness) corresponde al tercer momento central:

E[(XμX)3]={xiΘX(xiμX)3pX(xi), Caso Discreto (xμX)3fX(x)dx, Caso Continuo \mathrm{E}\left[\left(X-\mu_X\right)^3\right]= \begin{cases} \displaystyle\sum_{x_i \in \Theta_X}\left(x_i-\mu_X\right)^3 \cdot p_X\left(x_i\right), & \text { Caso Discreto } \\[20pt] \displaystyle\int_{-\infty}^{\infty}\left(x-\mu_X\right)^3 \cdot f_X(x) d x, & \text { Caso Continuo }\end{cases}

Coeficiente de asimetría

Una medida conveniente es el coeficiente de asimetría que se define como:

θX=E[(XμX)3]σX3\theta_X=\frac{E\left[\left(X-\mu_X\right)^3\right]}{\sigma_X^3}
Skewness
Skewness

Medidas de curtosis

Curtosis

Finalmente, el cuarto momento central se conoce como la curtosis

E[(XμX)4]={xiΘX(xiμX)4pX(xi), Caso Discreto (xμX)4fX(x)dx, Caso Continuo \mathrm{E}\left[\left(X-\mu_X\right)^4\right]= \begin{cases} \displaystyle\sum_{x_i \in \Theta_X}\left(x_i-\mu_X\right)^4 \cdot p_X\left(x_i\right), & \text { Caso Discreto } \\[20pt] \displaystyle\int_{\infty}^{\infty}\left(x-\mu_X\right)^4 \cdot f_X(x) d x, & \text { Caso Continuo }\end{cases}

que es una medida del "apuntamiento" o "achatamiento" de la distribución de probabilidad o de densidad.

Coeficiente de curtosis

Usualmente se prefiere el coeficiente de curtosis

KX=E[(XμX)4]σX43K_X=\frac{E\left[\left(X-\mu_X\right)^4\right]}{\sigma_X^4}-3

Distribuciones de probabilidad

Normal

La función densidad de una variable aleatoria XX con distribución Normal(μ,σ)\operatorname{Normal}(\mu, \sigma) es de la forma:

fX(x)=12πσ2exp{12(xμσ)2},<x<f_X(x)=\frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left\{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2\right\}, \quad-\infty<x<\infty

con μ\mu parámetro de localización y σ\sigma un parámetro de escala o forma tales que:

<μ<,0<σ<-\infty<\mu<\infty, \quad 0<\sigma<\infty
Distribución normal
Distribución normal

Sea XX una variable aleatoria Normal(μ,σ)\operatorname{Normal}(\mu, \sigma) con función de distribución acumulada FXF_X. Para dos valores dados aa y bb (con a<ba<b) se tiene que:

P(a<Xb)=FX(b)FX(a)P(a<X \leq b)=F_X(b)-F_X(a)
Distribución normal acumulada
Distribución normal acumulada

Algunas propiedades:

  • E(X)=μE(X)=\mu.
  • Var(X)=σ2\operatorname{Var}(X)=\sigma^2.
  • FX(x)=Φ(xμσ)F_X(x)=\Phi\left(\frac{x-\mu}{\sigma}\right).

Normal estándar

Un caso especial es cuando μ=0\mu=0 y σ=1\sigma=1. Este caso es conocido como la distribución normal estándar.

fX(x)=12πex2/2f_X(x)=\frac{1}{\sqrt{2 \pi}} e^{-x^2 / 2}

La ventaja es que función de distribución de probabilidad acumulada se encuentra tabulada, la cual se denota por Φ()\Phi(\cdot).

Sea SS una variable aleatoria con distribución normal estándar, cuya función de distribución de probabilidad acumulada esta dada por

Φ(s)=FS(s)=s12πex2/2dx\Phi(s)=F_S(s)=\int_{-\infty}^s \frac{1}{\sqrt{2 \pi}} e^{-x^2 / 2} d x

Algunas propiedades son:

  • Sp=Φ1(p)=Φ1(1p)S_p=\Phi^{-1}(p)=-\Phi^{-1}(1-p)
  • Φ(s)=1Φ(s)\Phi(-s)=1-\Phi(s).

La tabla normal estándar es el resultado de Φ(Sp)=p\Phi\left(S_p\right)=p para Sp0S_p \geq 0:

Distribución normal estándar
Distribución normal estándar

Log-Normal

Se dice que XX sigue una ley de probabilidad Log-Normal si su función de densidad esta dada por

fX(x)=12π1(ζx)exp[12(lnxλζ)2],x0f_X(x)=\frac{1}{\sqrt{2 \pi}} \frac{1}{(\zeta x)} \exp \left[-\frac{1}{2}\left(\frac{\ln x-\lambda}{\zeta}\right)^2\right], \quad x \geq 0

Donde,

λ=E(lnX) y ζ=Var(lnX)\lambda=E(\ln X) \quad \text { y } \quad \zeta=\sqrt{\operatorname{Var}(\ln X)}

Algunas propiedades:

  • lnXNormal(λ,ζ)\ln X \sim \operatorname{Normal}(\lambda, \zeta)
  • μX=exp(λ+ζ2/2)\mu_X=\exp \left(\lambda+\zeta^2 / 2\right)
  •  Mediana =exp(λ)\text { Mediana }=\exp (\lambda)
  • E(Xk)=exp(λk)MZ(ζk), con ZNormal(0,1)\mathrm{E}\left(X^k\right)=\exp (\lambda k) \cdot M_Z(\zeta k), \text { con } Z \sim \operatorname{Normal}(0,1)
  • σX2=μX2(eζ21)\sigma_X^2=\mu_X^2\left(e^{\zeta^2}-1\right)
  • ζ=ln(1+δX2)\zeta=\sqrt{\ln \left(1+\delta_X^2\right)}
Distribución log-normal
Distribución log-normal
Nota

En la distribución log-normal, la relación entre el coeficiente de variación (c.o.v.) δ\delta y el parámetro ζ\zeta es tal que si los dos son suficientemente pequeños, entonces δζ\delta \approx \zeta.

Relación entre c.o.v. y zeta
Relación entre c.o.v. y parámetro zeta

Binomial y Bernoulli

En las más diversas áreas de la Ingeniería, a menudo los problemas involucran la ocurrencia o recurrencia de un evento, el cual es impredecible, como una secuencia de "experimentos". Por ejemplo:

  1. Para un día de lluvia, ¿colapsa o no un sistema de drenaje?
  2. Al comprar un producto, ¿éste satisface o no los requerimientos de calidad?
  3. Un alumno ¿aprueba o reprueba el curso?

Notar que hay sólo dos resultados posibles para cada "experimento". Las variables descritas pueden ser modeladas por una secuencia Bernoulli, la cual se basa en los siguientes supuestos:

  1. Cada experimento, tiene una de dos opciones: ocurrencia o no ocurrencia del evento.
  2. La probabilidad de ocurrencia del evento ("éxito") en cada experimento es constante (digamos pp).
  3. Los experimentos son estadísticamente independientes.

Dada una secuencia Bernoulli, si XX es el número de ocurrencias del evento éxito entre los nn experimentos, con probabilidad de ocurrencia igual a pp, entonces la probabilidad que ocurran exactamente xx éxitos en los nn experimentos esta representada por la distribución Binomial, descrita por

pX(x)=(nx)px(1p)nx,x=0,1,,nFX(x)={0,x<0k=0[x](nk)pk(1p)nk,0x<n1,xn\begin{gathered} p_X(x)=\binom{n}{x} p^x(1-p)^{n-x}, \quad x=0,1, \ldots, n \\[20pt] F_X(x)= \begin{cases} 0, & x<0 \\[8pt] \displaystyle\sum_{k=0}^{[x]}\binom{n}{k} p^k(1-p)^{n-k}, & 0 \leq x<n \\[15pt] 1, & x \geq n\end{cases} \end{gathered}

El valor esperado y varianza están dados por

E(X)=np,Var(X)=np(1p)E(X)=n p, \quad \operatorname{Var}(X)=n p(1-p)

Por ejemplo, para Binomial(n=30,p=1/2)\operatorname{Binomial}(n=30, p=1 / 2), vemos que

Distribución binomial
Distribución binomial

Geométrica

Dada una secuencia Bernoulli, el número de experimentos hasta la ocurrencia del primer evento exitoso sigue una distribución geométrica.

Si el primer éxito ocurre en el nn-ésimo experimento, los primeros n1n-1 fueron "fracasos". Si NN es la variable aleatoria que representa el número de experimentos hasta el primer éxito, entonces:

P(N=n)=p(1p)n1,n=1,2,P(N=n)=p(1-p)^{n-1}, \quad n=1,2, \ldots

La función distribución esta dada por:

FN(n)=k=1[n]p(1p)k1=1(1p)[n]F_N(n)=\sum_{k=1}^{[n]} p(1-p)^{k-1}=1-(1-p)^{[n]}

para n1n \geq 1 y cero en otro caso. Mientras que su valor esperado y varianza son:

E(N)=1p,Var(N)=(1p)p2E(N)=\frac{1}{p}, \quad \operatorname{Var}(N)=\frac{(1-p)}{p^2}

Por ejemplo, para Geomeˊtrica(p=1/6)\operatorname{Geométrica}(p=1 / 6), vemos que

Distribución geométrica
Distribución geométrica

Binomial negativa

La distribución geométrica permite modelar el numero de experimentos hasta la primera ocurrencia.

El numero de experimentos hasta la kk-ésima ocurrencia de un éxito es modelada por la distribución binomial negativa.

P(Tk=x)=(x1k1)pk(1p)xk,x=k,k+1,k+2,E(Tk)=kp,Var(Tk)=k(1p)p2\begin{gathered} P\left(T_k=x\right)=\binom{x-1}{k-1} p^k(1-p)^{x-k}, \quad x=k, k+1, k+2, \ldots \\ E\left(T_k\right)=\frac{k}{p}, \quad \operatorname{Var}\left(T_k\right)=\frac{k(1-p)}{p^2} \end{gathered}

Por ejemplo, para BinNeg(k=3,p=1/6)\operatorname{Bin}-\operatorname{Neg}(k=3, p=1 / 6), vemos que

Distribución binomial negativa
Distribución binomial negativa

Poisson

Muchos problemas físicos de interés para ingenieros y científicos que implican las ocurrencias posibles de eventos en cualquier punto en el tiempo y/o en el espacio. Por ejemplo:

  • Los terremotos pueden ocurrir en cualquier momento y en cualquier lugar en una región con actividad sísmica en el mundo.
  • Las grietas por fatiga puede producirse en cualquier punto de una soldadura continua.
  • Los accidentes de tráfico pueden suceder en cualquier momento en una autopista.

Este problema puede ser modelado como secuencia Bernoulli, dividiendo el tiempo o el espacio en pequeños intervalos "apropiados" tal que solo un evento puede ocurrir o no dentro de cada intervalo (Ensayo Bernoulli).

Sin embargo, si el evento puede ocurrir al azar en cualquier instante de tiempo (o en cualquier punto del espacio), esto puede ocurrir más de una vez en cualquier momento o intervalo de espacio.

En tal caso, las ocurrencias del evento puede ser más apropiado el modelo con un proceso de Poisson o la secuencia Poisson.

Supuestos

  • Un evento puede ocurrir al azar y en cualquier instante de tiempo o en cualquier punto en el espacio.
  • La ocurrencia(s) de un evento en un intervalo de tiempo dado (o espacio) es estadísticamente independiente a lo que ocurra en otros intervalos (o espacios) que no se solapen.
  • La probabilidad de ocurrencia de un evento en un pequeño intervalo Δt\Delta t es proporcional a Δt\Delta t, y puede estar dada por νΔt\nu \Delta t, donde ν\nu es la tasa de incidencia media del evento (que se supone constante).
  • La probabilidad de dos o más eventos en Δt\Delta t es insignificante.

Bajo los supuestos anteriores, el número de eventos estadísticamente independientes en tt (tiempo o espacio) esta regido por la función de probabilidad del modelo Poisson, donde la variable aleatoria XtX_t : número de eventos en el intervalo de tiempo (0,t)(0, t).

P(Xt=x)=(νt)xeνtx!=λxeλx!,x=0,1,2,P\left(X_t=x\right)=\frac{(\nu t)^x e^{-\nu t}}{x !}=\frac{\lambda^x e^{-\lambda}}{x !}, \quad x=0,1,2, \ldots

donde ν\nu es la tasa de ocurrencia media por unidad de tiempo y λ\lambda su espe-ranza en (0,t)(0, t) :

E(Xt)=νt=λE\left(X_t\right)=\nu t=\lambda

Exponencial

En un Proceso de Poisson el tiempo transcurrido entre la ocurrencia de eventos puede ser descrito por una distribución exponencial.

Si T1T_1 representa al tiempo transcurrido hasta la ocurrencia del primer evento en un Proceso de Poisson, el evento (T1>t)\left(T_1>t\right) implica que en el intervalo (0,t)(0, t) no ocurren eventos, es decir,

P(T1>t)=P(Xt=0)=(νt)0eνt0!=eνt,P\left(T_1>t\right)=P\left(X_t=0\right)=\frac{(\nu t)^0 e^{-\nu t}}{0 !}=e^{-\nu t},

con

XtPoisson(νt)X_t \sim \operatorname{Poisson}(\nu t)

Por lo tanto la función de distribución de probabilidad acumulada de T1T_1 esta dada por:

FT1(t)=P(T1t)=1P(T1>t)=1eνtF_{T_1}(t)=P\left(T_1 \leq t\right)=1-P\left(T_1>t\right)=1-e^{-\nu t}

Su función densidad se obtiene como sigue:

fT1(t)=ddtFT1(t)=νeνtf_{T_1}(t)=\frac{d}{d t} F_{T_1}(t)=\nu e^{-\nu t}

que corresponde a la función densidad de una variable aleatoria con distribución exponencial.

Esta distribución al igual que la geométrica tiene la propiedad de la carencia de memoria, es decir, si TExponencial(ν)T \sim \operatorname{Exponencial}(\nu) entonces se tiene que

P(T>t+sT>s)=P(T>t)P(T>t+s \mid T>s)=P(T>t)

Este resultado, nos permite asumir que todos los tiempos entre eventos Poisson (νt)(\nu t) distribuyen Exponencial (ν)(\nu).

Carencia de memoria

La carencia de memoria es una propiedad que indica que la probabilidad de que un evento ocurra en el futuro no depende de cuánto tiempo ha pasado desde el último evento.

En resumen, una variable aleatoria XX con distribución Exponencial de parámetro ν>0\nu>0, tiene función densidad y de distribución:

fX(x)={νeνx,x00,x<0FX(x)={0,x<01eνx,x0f_X(x)=\left\{\begin{array}{ll} \nu e^{-\nu x}, & x \geq 0 \\ 0, & x<0 \end{array} \quad F_X(x)= \begin{cases}0, & x<0 \\ 1-e^{-\nu x}, & x \geq 0\end{cases}\right.

Mientras que su valor esperado y varianza son:

μX=1ν,σX2=1ν2\mu_X=\frac{1}{\nu}, \quad \sigma_X^2=\frac{1}{\nu^2}

Exponencial trasladada

Una variable aleatoria XX con distribución Exponencial de parámetro ν>0\nu>0, se llama trasladada en a si su función densidad y de distribución acumulada son

fX(x)={νeν(xa),xa0,x<aFX(x)={0,x<a1eν(xa),xaf_X(x)=\left\{\begin{array}{ll} \nu e^{-\nu(x-a)}, & x \geq a \\ 0, & x<a \end{array} \quad F_X(x)= \begin{cases}0, & x<a \\ 1-e^{-\nu(x-a)}, & x \geq a\end{cases}\right.

Su valor esperado y varianza están dados por

μX=1ν+a,σX2=1ν2\mu_X=\frac{1}{\nu}+a, \quad \sigma_X^2=\frac{1}{\nu^2}
Distribución exponencial
Distribución exponencial trasladada

Gamma

Una variable aleatoria XX con distribución Gamma tiene función densidad

fX(x)=νkΓ(k)xk1eνx,x0f_X(x)=\frac{\nu^k}{\Gamma(k)} x^{k-1} e^{-\nu x}, \quad x \geq 0

donde k,νk, \nu son parámetros positivos. La función Γ(α)=0uα1eudu\Gamma(\alpha)=\displaystyle\int_0^{\infty} u^{\alpha-1} e^{-u} d u, la cual tiene las siguientes propiedades:

Γ(α+1)=αΓ(α)Γ(n+1)=n! si nN0Γ(1/2)=π\begin{aligned} & \Gamma(\alpha+1)=\alpha \Gamma(\alpha) \\ & \Gamma(n+1)=n ! \text { si } n \in \mathbb{N}_0 \\ & \Gamma(1 / 2)=\sqrt{\pi} \end{aligned}

Relación con distribución Poisson

En un Proceso de Poisson el tiempo transcurrido hasta la ocurrencia del kk-ésimo evento puede ser descrito por una distribución Gamma.

Si TkT_k representa al tiempo transcurrido hasta la ocurrencia del kk ésimo evento en un Proceso de Poisson, el evento (Tk>t)\left(T_k>t\right) implica que en el intervalo (0,t)(0, t) ocurren a lo más k1k-1 eventos, es decir,

P(Tk>t)=P(Xtk1)=x=0k1(νt)xeνtx!P\left(T_k>t\right)=P\left(X_t \leq k-1\right)=\sum_{x=0}^{k-1} \frac{(\nu t)^x e^{-\nu t}}{x !}

Luego, su función de distribución acumulada esta dada por:

FTk(t)=1x=0k1(νt)xeνtx!F_{T_k}(t)=1-\sum_{x=0}^{k-1} \frac{(\nu t)^x e^{-\nu t}}{x !}

Se puede demostrar que

fTk(t)=ddtFTk(t)=νkΓ(k)tk1eνt,t0f_{T_k}(t)=\frac{d}{d t} F_{T_k}(t)=\frac{\nu^k}{\Gamma(k)} t^{k-1} e^{-\nu t}, \quad t \geq 0

donde su valor esperado y varianza son

μTk=kν,σTk2=kν2\mu_{T_k}=\frac{k}{\nu}, \quad \sigma_{T_k}^2=\frac{k}{\nu^2}
Distribución gamma

Gamma trasladada

Una variable aleatoria XX tiene distribución Gamma trasladada si su función de densidad esta dada por

fX(x)=νkΓ(k)(xγ)k1eν(xγ),xγf_X(x)=\frac{\nu^k}{\Gamma(k)}(x-\gamma)^{k-1} e^{-\nu(x-\gamma)}, \quad x \geq \gamma

donde k,μk, \mu y γ\gamma son parámetros de la distribución. Su valor esperado y varianza son:

μX=kν+γ,σX2=kν2\mu_X=\frac{k}{\nu}+\gamma, \quad \sigma_X^2=\frac{k}{\nu^2}

Hipergeométrica

Considere una población finita dividida en dos grupos: mm defectuosos y NmN-m no defectuosos.

Si se toma una muestra aleatoria de tamaño nn al azar, la probabilidad que xx sean defectuosos esta dada por la función de probabilidad:

pX(x)=(mx)(Nmnx)(Nn),max{0,n+mN}xmin{n,m}p_X(x)=\dfrac{\displaystyle\binom{m}{x}\binom{N-m}{n-x}}{\displaystyle\binom{N}{n}}, \quad \max \{0, n+m-N\} \leq x \leq \min \{n, m\}

En este caso, se dice que:

XHipergeomeˊtrica(n,N,m)X \sim \text {Hipergeométrica}(n, N, m)

El cálculo de su valor esperado y varianza requiere un desarrollo bastante complejo cuyo resultado final es el siguiente

μX=nmN,σX2=(NnN1)nmN(1mN)\mu_X=n \cdot \frac{m}{N}, \quad \sigma_X^2=\left(\frac{N-n}{N-1}\right) \cdot n \cdot \frac{m}{N} \cdot\left(1-\frac{m}{N}\right)

Beta

Una variable aleatoria XX con distribución Beta tiene función densidad

fX(x)=1B(r,q)(xa)q1(bx)r1(ba)q+r1,axbf_X(x)=\frac{1}{B(r, q)} \cdot \frac{(x-a)^{q-1}(b-x)^{r-1}}{(b-a)^{q+r-1}}, \quad a \leq x \leq b

donde qq y rr son los parámetros de la distribución, y B(q,r)B(q, r) es la función beta dada por

B(q,r)=01xq1(1x)r1dx=Γ(q)Γ(r)Γ(q+r)B(q, r)=\int_0^1 x^{q-1}(1-x)^{r-1} d x=\frac{\Gamma(q) \Gamma(r)}{\Gamma(q+r)}

El valor esperado y la varianza son:

μX=a+q(q+r)(ba)σX2=qr(ba)2(q+r)2(q+r+1)\mu_X=a+\frac{q}{(q+r)}(b-a) \quad \sigma_X^2=\frac{q r(b-a)^2}{(q+r)^2(q+r+1)}
Distribución beta

Weibull

Si TWeibull(η,β)T \sim \operatorname{Weibull}(\eta, \beta), se tiene que

FT(t)=1exp[(tη)β]fT(t)=βη(tη)β1exp[(tη)β],t>0\begin{aligned} F_T(t) & =1-\exp \left[-\left(\frac{t}{\eta}\right)^\beta\right] \\ f_T(t) & =\frac{\beta}{\eta}\left(\frac{t}{\eta}\right)^{\beta-1} \exp \left[-\left(\frac{t}{\eta}\right)^\beta\right], \quad t>0 \end{aligned}

Con β>0\beta>0, es un parámetro de forma y η>0\eta>0, es un parámetro de escala.

Si tpt_p es el percentil p×100%p \times 100 \%, entonces

ln(tp)=ln(η)+1βΦWeibull 1(p),ΦWeibull 1(p)=ln[ln(1p)]\ln \left(t_p\right)=\ln (\eta)+\frac{1}{\beta} \cdot \Phi_{\text {Weibull }}^{-1}(p), \quad \Phi_{\text {Weibull }}^{-1}(p)=\ln [-\ln (1-p)]

Mientras que su mm-ésimo momento está dado por

E(Tm)=ηmΓ(1+m/β)E\left(T^m\right)=\eta^m \Gamma(1+m / \beta)

Luego

μT=ηΓ(1+1β),σT2=η2[Γ(1+2β)Γ2(1+1β)]\mu_T=\eta \Gamma\left(1+\frac{1}{\beta}\right), \quad \sigma_T^2=\eta^2\left[\Gamma\left(1+\frac{2}{\beta}\right)-\Gamma^2\left(1+\frac{1}{\beta}\right)\right]

Logística

Si YLogıˊstica(μ,σ)Y \sim \operatorname{Logística}(\mu, \sigma), se tiene que

FY(y)=ΦLogıˊstica (yμσ);fY(y)=1σϕLogıˊstica (yμσ),<y<F_Y(y)=\Phi_{\text {Logística }}\left(\frac{y-\mu}{\sigma}\right) ; \quad f_Y(y)=\frac{1}{\sigma} \phi_{\text {Logística }}\left(\frac{y-\mu}{\sigma}\right), \quad-\infty<y<\infty

donde

ΦLogıˊstica (z)=exp(z)[1+exp(z)] y ϕLogıˊstica (z)=exp(z)[1+exp(z)]2\Phi_{\text {Logística }}(z)=\frac{\exp (z)}{[1+\exp (z)]} \quad \text { y } \quad \phi_{\text {Logística }}(z)=\frac{\exp (z)}{[1+\exp (z)]^2}

son la función de probabilidad y de densidad de una Logística Estándar. μR\mu \in \mathbb{R}, es un parámetro de localización y σ>0\sigma>0, es un parámetro de escala.

Si ypy_p es el percentil p×100%p \times 100 \%, entonces

yp=μ+σΦLogıˊstica 1(p) con ΦLogıˊstica 1(p)=log(p1p)y_p=\mu+\sigma \Phi_{\text {Logística }}^{-1}(p) \text { con } \Phi_{\text {Logística }}^{-1}(p)=\log \left(\frac{p}{1-p}\right)

Su esperanza y varianza están dadas por:

μY=μσY2=σ2π23\mu_Y=\mu \quad \qquad \sigma_Y^2=\frac{\sigma^2 \pi^2}{3}

Log-Logística

Si TLog-LogisticaT \sim \operatorname{Log-Logistica}(\mu, \sigma)$, se tiene que

FT(t)=ΦLogistica (ln(t)μσ);fT(t)=1σtϕLogistica (ln(t)μσ)t>0F_T(t)=\Phi_{\text {Logistica }}\left(\frac{\ln (t)-\mu}{\sigma}\right) ; \quad f_T(t)=\frac{1}{\sigma t} \phi_{\text {Logistica }}\left(\frac{\ln (t)-\mu}{\sigma}\right) \quad t>0

exp(μ)\exp (\mu), es un parámetro de escala y σ>0\sigma>0, es un parámetro de forma.

Si tpt_p es el percentil p×100%p \times 100 \%, entonces

ln(tp)=μ+σΦLogistica 1(p)\ln \left(t_p\right)=\mu+\sigma \Phi_{\text {Logistica }}^{-1}(p)

Momentos

Para un entero m>0m>0 se tiene que

E(Tm)=exp(mμ)Γ(1+mσ)Γ(1mσ)E\left(T^m\right)=\exp (m \mu) \Gamma(1+m \sigma) \Gamma(1-m \sigma)

El mm-ésimo momento no es finito si mσ1m \sigma \geq 1. Para σ<1\sigma<1

μT=exp(μ)Γ(1+σ)Γ(1σ)\mu_T=\exp (\mu) \Gamma(1+\sigma) \Gamma(1-\sigma)

y para σ<1/2\sigma<1 / 2

σT2=exp(2μ)[Γ(1+2σ)Γ(12σ)Γ2(1+σ)Γ2(1σ)]\sigma_T^2=\exp (2 \mu)\left[\Gamma(1+2 \sigma) \Gamma(1-2 \sigma)-\Gamma^2(1+\sigma) \Gamma^2(1-\sigma)\right]

t-Student

Un variable aleatoria TT tiene distribución tt-student si su función de densidad está dada por:

fT(t)=Γ[(ν+1)/2]πνΓ(ν/2)(1+t2ν)(ν+1)/2,<t<f_T(t)=\frac{\Gamma[(\nu+1) / 2]}{\sqrt{\pi \nu} \, \Gamma(\nu / 2)}\left(1+\frac{t^2}{\nu}\right)^{-(\nu+1) / 2}, \quad-\infty<t<\infty

El valor esperado y varianza están dados por:

  • μT=0\mu_T=0, para ν>1\nu>1.
  • σT2=νν2\sigma_T^2=\dfrac{\nu}{\nu-2}, para μ>2\mu>2.

Fisher

Si TFisher(η,ν)T \sim \operatorname{Fisher}(\eta, \nu), se tiene que

fT(t)=Γ(η+ν2)Γ(η/2)Γ(ν/2)(ην)η2tη21(ηνt+1)η+ν2,t>0f_T(t)=\dfrac{\Gamma\left(\dfrac{\eta+\nu}{2}\right)}{\Gamma(\eta / 2) \Gamma(\nu / 2)}\left(\dfrac{\eta}{\nu}\right)^{\tfrac{\eta}{2}} \dfrac{t^{\frac{\eta}{2}-1}}{\left(\dfrac{\eta}{\nu} t+1\right)^{\frac{\eta+\nu}{2}}}, \quad t>0

El valor esperado y varianza están dados por:

  • μT=νν2\mu_T=\dfrac{\nu}{\nu-2}, para ν>2\nu>2.
  • σT2=2ν2(η+ν2)η(ν2)2(ν4)\sigma_T^2=\dfrac{2 \nu^2(\eta+\nu-2)}{\eta(\nu-2)^2(\nu-4)}, para ν>4\nu>4.

Identificar distribuciones

En general, se pueden seguir los siguientes pasos para identificar la distribución de una variable aleatoria:

  • Cumple vs. No cumple \rightarrow Bernoulli.
  • Número de "eventos" en periodos \rightarrow Poisson.
  • Tiempos de duración o espera \rightarrow Exponencial.
  • Suma de eventos individuales \rightarrow Normal.
  • Condiciones extremas de un proceso \rightarrow Valor Extremo.

Múltiples variables aleatorias

Para el par de variables aleatorias XX e YY se define la función de distribución de probabilidad acumulada como

FX,Y(x,y)=P(Xx,Yy)F_{X, Y}(x, y)=P(X \leq x, Y \leq y)

La cual satisface la axiomática fundamental de probabilidades:

FX,Y(,)=0.FX,Y(,y)=0.FX,Y(x,)=0.FX,Y(x,+)=FX(x).FX,Y(+,y)=FY(y).FX,Y(+,+)=1.\begin{aligned} & F_{X, Y}(-\infty,-\infty)=0 . \\ & F_{X, Y}(-\infty, y)=0 . \\ & F_{X, Y}(x,-\infty)=0 . \\ & F_{X, Y}(x,+\infty)=F_X(x) . \\ & F_{X, Y}(+\infty, y)=F_Y(y) . \\ & F_{X, Y}(+\infty,+\infty)=1 . \end{aligned}

Distribución de probabilidad conjunta

Si las variables aleatorias XX e YY son discretas, la función de distribución de probabilidad conjunta es

pX,Y(x,y)=P(X=x,Y=y)p_{X, Y}(x, y)=P(X=x, Y=y)

siendo su función de distribución de probabilidad acumulada igual a

FX,Y(x,y)=P(Xx,Yy)=xixyjyP(X=xi,Y=yj)\begin{aligned} & \quad F_{X, Y}(x, y)=P(X \leq x, Y \leq y)=\sum_{x_i \leq x} \sum_{y_j \leq y} P\left(X=x_i, Y=y_j\right) \end{aligned}

con (xi,yj)ΘX,Y\left(x_i, y_j\right) \in \Theta_{X, Y}.

Ahora, si las variables aleatorias XX e YY son continuas, la función de de densidad de probabilidad conjunta se define como:

fX,Y(x,y)dxdy=P(x<Xx+dx,y<Yy+dy)f_{X, Y}(x, y) d x d y=P(x<X \leq x+d x, y<Y \leq y+d y)

Entonces,

FX,Y(x,y)=xyfX,Y(u,v)dvduF_{X, Y}(x, y)=\int_{-\infty}^x \int_{-\infty}^y f_{X, Y}(u, v) d v d u

Si las derivadas parciales existen, entonces

fX,Y(x,y)=2xyFX,Y(x,y)f_{X, Y}(x, y)=\frac{\partial^2}{\partial x \partial y} F_{X, Y}(x, y)

También, se puede observar que la siguiente probabilidad puede ser obtenida como

P(a<Xb,c<yd)=abcdfX,Y(u,v)dudvP(a<X \leq b, c<y \leq d)=\int_a^b \int_c^d f_{X, Y}(u, v) d u d v

que representa el volumen bajo la superficie fX,Y(x,y)f_{X, Y}(x, y) como se muestra en la figura.

Volumen bajo la superficie
Volumen bajo la superficie

Distribuciones marginales y condicionales

Variables discretas

Para variables aleatorias discretas XX e YY, la probabilidad de (X=x)(X=x) puede depender de los valores que puede tomar YY (viceversa).

Con base a lo visto en probabilidades, se define la función de distribución de probabilidad condicional como:

pXY=y(x)=P(X=xY=y)=pX,Y(x,y)pY(y),pY(y)>0p_{X \mid Y=y}(x)=P(X=x \mid Y=y)=\frac{p_{X, Y}(x, y)}{p_Y(y)}, \quad p_Y(y)>0

De manera similar, se tiene que

pYX=x(y)=P(Y=yX=x)=pX,Y(x,y)pX(x),pX(x)>0p_{Y \mid X=x}(y)=P(Y=y \mid X=x)=\frac{p_{X, Y}(x, y)}{p_X(x)}, \quad p_X(x)>0

La distribución marginal de una variable aleatoria se puede obtener aplicando el teorema de probabilidades totales.

Para determinar la distribución marginal de X,pX(x)X, p_X(x), tenemos que

pX(x)=yΘYpXY=y(x)pY(y)=yΘYpX,Y(x,y)\begin{aligned} p_X(x) & =\sum_{y \in \Theta_Y} p_{X \mid Y=y}(x) \cdot p_Y(y) \\ & =\sum_{y \in \Theta_Y} p_{X, Y}(x, y) \end{aligned}

De la misma forma se tiene que

pY(y)=xΘXpX,Y(x,y)p_Y(y)=\sum_{x \in \Theta_X} p_{X, Y}(x, y)

Variables continuas

En el caso que ambas sean variables aleatorias continuas se define la función de densidad condicional de XX dado que Y=yY=y como

fXY=y(x)=fX,Y(x,y)fY(y)fY(y)>0f_{X \mid Y=y}(x)=\frac{f_{X, Y}(x, y)}{f_Y(y)} \quad f_Y(y)>0

De manera similar se tiene que

fYX=x(y)=fX,Y(x,y)fX(x)fX(x)>0f_{Y \mid X=x}(y)=\frac{f_{X, Y}(x, y)}{f_X(x)} \quad f_X(x)>0

Las respectivas marginales se obtienen como sigue:

fX(x)=fX,Y(x,y)dyfY(y)=fX,Y(x,y)dx\begin{aligned} & f_X(x)=\int_{-\infty}^{\infty} f_{X, Y}(x, y) d y \\ & f_Y(y)=\int_{-\infty}^{\infty} f_{X, Y}(x, y) d x \end{aligned}

Caso mixto

En el caso mixto, supongamos XX discreta e YY continua, el calculo de las respectivas marginales es

pX(x)=pXY=y(x)fY(y)dyfY(y)=xΘXfYX=x(y)pX(x)\begin{aligned} & p_X(x)=\int_{-\infty}^{\infty} p_{X \mid Y=y}(x) \cdot f_Y(y) d y \\ & f_Y(y)=\sum_{x \in \Theta_X} f_{Y \mid X=x}(y) \cdot p_X(x) \end{aligned}

Si ambas variables aleatorias son independientes, entonces se tiene que

pX,Y(x,y)=pX(x)pY(y)fX,Y(x,y)=fX(x)fY(y)\begin{aligned} p_{X, Y}(x, y) & =p_X(x) \cdot p_Y(y) \\ f_{X, Y}(x, y) & =f_X(x) \cdot f_Y(y) \end{aligned}
Ejemplo: Determinar distribución de una variable

Tenemos que

XPoisson(ν) y YX=xBinomial(x,p)X \sim \operatorname{Poisson}(\nu) \text { y } Y \mid X=x \sim \operatorname{Binomial}(x, p)

Luego

pX,Y(x,y)=pYX=x(y)pX(x)=(xy)py(1p)xyνxeνx!\begin{aligned} p_{X, Y}(x, y) & =p_{Y \mid X=x}(y) \cdot p_X(x) \\ & =\left(\begin{array}{c} x \\ y \end{array}\right) p^y(1-p)^{x-y} \cdot \frac{\nu^x e^{-\nu}}{x !} \end{aligned}ΘX,Y={(x,y)xN0,yN0,yx}\Theta_{X, Y}=\left\{(x, y) \mid x \in \mathbb{N}_0, y \in \mathbb{N}_0, y \leq x\right\} \text {. }

Por probabilidades totales se tiene que

YPoisson(νp)Y \sim \operatorname{Poisson}(\nu p)

Covarianza y correlación

Cuando hay dos variables aleatorias XX e YY, puede haber una relación entre ellas.

En particular, la presencia o ausencia de relación estadística lineal se determina observando el primer momento conjunto de XX e YY definido como

E(XY)=xyfX,Y(x,y)dxdyE(X Y)=\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} x y \cdot f_{X, Y}(x, y) d x d y

Si XX e YY son estadísticamente independientes, entonces

E(XY)=xyfX(x)fY(y)dxdy=E(X)E(Y)E(X Y)=\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} x y \cdot f_X(x) \cdot f_Y(y) d x d y=E(X) \cdot E(Y)

La covarianza corresponde al segundo momento central y se define como:

Cov(X,Y)=E[(XμX)(YμY)]=E(XY)μXμY\operatorname{Cov}(X, Y)=E\left[\left(X-\mu_X\right)\left(Y-\mu_Y\right)\right]=E(X \cdot Y)-\mu_X \cdot \mu_Y

Si XX e YY son estadísticamente independientes, entonces

Cov(X,Y)=0\operatorname{Cov}(X, Y)=0
Nota

El significado físico de la covarianza se puede inferir de la ecuación:

  • Si Cov(X,Y)\operatorname{Cov}(X, Y) es grande y positiva, los valores de XX e YY tienden a ser grandes (o pequeños) en relación a sus respectivos medias.
  • Si Cov(X,Y)\operatorname{Cov}(X, Y) es grande y negativo, los valores de XX tienden a ser grandes con respecto a su media, mientras que los de YY tienden a ser pequeños y viceversa.
  • Si Cov(X,Y)\operatorname{Cov}(X, Y) es pequeña o cero, la relación (lineal) entre los valores de XX e YY es poca o nula, o bien la relación es no lineal.

La covarianza mide el grado de asociación lineal entre dos variables, pero es preferible su normalización llamada correlación para poder cuantificar la magnitud de la relación.

La correlación esta definida como:

Cor(X,Y)=Cov(X,Y)σXσY\operatorname{Cor}(X, Y)=\frac{\operatorname{Cov}(X, Y)}{\sigma_X \cdot \sigma_Y}

Este coeficiente toma valores en el intervalo (1,1)(-1,1).

Esperanza condicional

El valor esperado de una variable aleatoria YY condicionado a la realización xx de una variable aleatoria XX esta dado por

E(YX=x)={yΘYX=xyP(Y=yX=x), caso discreto yΘYX=xyfYX=x(y)dy, caso continuo \mathrm{E}(Y \mid X=x)= \begin{cases} \displaystyle\sum_{y \in \Theta_{Y \mid X=x}} y \cdot P(Y=y \mid X=x), & \text { caso discreto } \\[25pt] \displaystyle\int_{y \in \Theta_{Y \mid X=x}} y \cdot f_{Y \mid X=x}(y) d y, & \text { caso continuo } \end{cases}

Por otra parte, para una función de YY, llamemos h(Y)h(Y), el valor esperado condicional esta dado por

E[h(Y)X=x]={yΘYX=xh(y)P(Y=yX=x), caso discreto yΘYX=xh(y)fYX=x(y)dy, caso continuo \mathrm{E}[h(Y) \mid X=x]= \begin{cases} \displaystyle\sum_{y \in \Theta_{Y \mid X=x}} h(y) \cdot P(Y=y \mid X=x), & \text { caso discreto } \\[25pt] \displaystyle\int_{y \in \Theta_{Y \mid X=x}} h(y) \cdot f_{Y \mid X=x}(y) d y, & \text { caso continuo }\end{cases}

Teorema de probabilidades totales para el valor esperado

Preparate (mentalmente) para el teorema de probabilidades totales para el valor esperado condicional:

E(X)={yΘY[xΘXY=yxpXY=y(x)]pY(y), Caso Discreto-Discreto yΘY[xΘXY=yxfXY=y(x)dx]fY(y)dy, Caso Continuo-Continuo yΘY[xΘXY=yxpXY=y(x)]fY(y)dy, Caso Discreto-Continuo yΘY[xΘXY=yxfXY=y(x)dx]pY(y), Caso Continuo-Discreto E(X)= \begin{cases} \displaystyle\sum_{y \in \Theta_Y}\left[\sum_{x \in \Theta_{X \mid Y=y}} x \cdot p_{X \mid Y=y}(x)\right] p_Y(y), & \text { Caso Discreto-Discreto } \\[30pt] \displaystyle\int_{y \in \Theta_Y}\left[\int_{x \in \Theta_{X \mid Y=y}} x \cdot f_{X \mid Y=y}(x) d x\right] f_Y(y) d y, & \text { Caso Continuo-Continuo } \\[30pt] \displaystyle\int_{y \in \Theta_Y}\left[\sum_{x \in \Theta_{X \mid Y=y}} x \cdot p_{X \mid Y=y}(x)\right] f_Y(y) d y, & \text { Caso Discreto-Continuo } \\[30pt] \displaystyle\sum_{y \in \Theta_Y}\left[\int_{x \in \Theta_{X \mid Y=y}} x \cdot f_{X \mid Y=y}(x) d x\right] p_Y(y), & \text { Caso Continuo-Discreto } \end{cases}

Teorema de las esperanzas iteradas

El teorema de las esperanzas iteradas es una generalización del teorema de probabilidades totales para el valor esperado condicional.

E(Y)=E[E(YX)]Var(Y)=Var[E(YX)]+E[Var(YX)]\begin{aligned} \mathrm{E}(Y)&=\mathrm{E}[\mathrm{E}(Y \mid X)]\\ \operatorname{Var}(Y)&=\operatorname{Var}[\mathrm{E}(Y \mid X)]+\mathrm{E}[\operatorname{Var}(Y \mid X)] \end{aligned}

Mejor predictor

Predecir el valor de una variable aleatoria a partir de otra es un problema común en estadística. Consideremos primero la siguiente situación: "Predecir la realización de una variable aleatoria YY". El "mejor" valor cc para predecir la realización de YY se puede obtener minimizando el error cuadrático medio definido como

ECM=E[(Yc)2]\mathrm{ECM}=\mathrm{E}\left[(Y-c)^2\right]
Nota

La constante cc que minimiza el ECM\mathrm{ECM} es E(Y)\mathrm{E}(Y).

Si ahora queremos predecir YY basado en una función de una variable aleatoria XX, llamemos h(X)h(X), que minimice el error cuadrático medio definido como

ECM=E{[Yh(X)]2}=E(E{[Yh(X)]2X})\begin{aligned} \mathrm{ECM} & =\mathrm{E}\left\{[Y-h(X)]^2\right\} \\ & =\mathrm{E}\left(\mathrm{E}\left\{[Y-h(X)]^2 \mid X\right\}\right) \end{aligned}

Entonces, la función h(X)h(X) que minimiza ECM necesariamente debe corresponder a E(YX)\mathrm{E}(Y \mid X).

Por ejemplo, si XX e YY distribuyen conjuntamente según una Normal bivariada, entonces el mejor predictor YY basado en XX es una función lineal dada por

E(YX)=(μYμXρσYσX)+XρσYσX\mathrm{E}(Y \mid X)=\left(\mu_Y-\mu_X \frac{\rho \sigma_Y}{\sigma_X}\right)+X \frac{\rho \sigma_Y}{\sigma_X}