viernes, 17 de enero de 2014

Estimación del intervalo de confianza de la media de una población normal con varianza conocida o bien para una distribución no necesariamente normal pero siendo grande el tamaño de la muestra

Sea $X$ la variable aleatoria asociada a una característica de los individuos de una población. Nos proponemos estimar la media $\mu$ de la población mediante el muestreo y, para ello, partiremos de la suposición que $X$ siga una distribución normal o bien que, aún no siendo así, al realizar el muestreo, el tamaño muestral sea grande ( Teorema Central del Límite ), y que, en cualquiera de los dos casos, sea conocida la varianza ( y, por tanto, también la desviación típica $\sigma$ ).

Para estimar ( a partir del muestreo ) el parámetro $\mu$ mediante un intervalo de confianza $I$ con un coeficiente de confianza $1-\alpha$ -- por ejemplo, del $90\,\%$ o del $95\,\%$ --, debemos recordar que la variable aleatoria del estimador $\overline{x}$ de la media $\mu$ tiene la siguiente distribución en el muestreo: $N(\mu, \sigma / \sqrt{n})$, donde $n$ es el tamaño muestral y
$\sigma /\sqrt{n}$ es la desviación típica del estimador $\overline{x}$ de la media $\mu$ de la población.

Tendremos que calcular pues los extremos de dicho intervalo $I$. Para ello, partimos de la interpretación del coeficiente de confianza como una probabilidad, que es la siguiente:
    $P\{\overline{x}-a \prec \mu \prec \overline{x}+b\}=1-\alpha$
si suponemos, sin pérdida de generalidad, que $a=b:=c$ podemos escribir
    $P\{\overline{x}-c \prec \mu \prec \overline{x}+c\}=1-\alpha$
que es lo mismo que
    $P\{\overline{x}-c-\overline{x} \prec \mu - \overline{x} \prec \overline{x}+c - \overline{x}\}=1-\alpha$
simplificando
    $P\{-c \prec \mu - \overline{x} \prec c\}=1-\alpha$
que es igual a
    $P\{c \succ \overline{x}-\mu \succ -c\}=1-\alpha$
y por tanto
    $P\{-c \prec \overline{x}-\mu \prec c\}=1-\alpha$
con lo cual
    $P\{\dfrac{-c}{\sigma /\sqrt{n}} \prec \dfrac{\overline{x}-\mu}{\sigma / \sqrt{n}} \prec \dfrac{c}{\sigma /\sqrt{n}} \}=1-\alpha$
es decir
    $P\{\dfrac{-c}{\sigma /\sqrt{n}} \prec Z \prec \dfrac{c}{\sigma /\sqrt{n}} \}=1-\alpha$
y, habiendo tipificado la variable, calcularemos el valor de la abscisa $z_{\alpha /2 }$, es decir, el valor de
    $\dfrac{c}{\sigma /\sqrt{n}}$
de la siguiente manera:

Por ser simétrica la función de densidad de probabilidad de una distribución normal tipificada podemos escribir
    $P\{Z \prec -z_{\alpha /2 } \} = P\{Z \succ z_{\alpha /2 } \}=\alpha / 2$
luego
    $P\{Z \prec z_{\alpha /2 } \} = 1-P\{Z \succ z_{\alpha /2 } \}=1- \dfrac{\alpha}{2}$
cantidad que corresponde al valor de la función de distribución de probabilidad en dicha abscisa, $F(z_{\alpha /2})$, y que leeremos en las tablas de $Z \sim N(0,1)$

Una vez obtenido dicho valor, recordemos que
    $z_{\alpha /2} = \dfrac{c}{\sigma / \sqrt{n}}$
y de aquí obtenemos el valor de $c$:
    $c=z_{\alpha /2}\, \dfrac{\sigma}{\sqrt{n}}$

Entonces podemos afirmar que, con un coeficiente de confianza del $(1-\alpha)\cdot 100 \,\%$, la media $\mu$ de la población pertenece al intervalo de confianza dado por
    $I=(\overline{x}- z_{\alpha /2}\, \dfrac{\sigma}{\sqrt{n}}\,,\,\overline{x}+ z_{\alpha /2}\, \dfrac{\sigma}{\sqrt{n}})$
donde, ahora, $\overline{x}$ representa el valor de la media de la muestra seleccionada, esto es, la media de los valores observados/medidos $x_1,x_2,\ldots\,x_n$.

Comentario:     Entendiendo $I$ como un intervalo de incertidumbre en la estimación del parámetro ( la media $\mu$ de la población, en el caso que nos ocupa ), podemos escribir también que
    $\mu = \overline{x}\,\pm\, z_{\alpha /2}\, \dfrac{\sigma}{\sqrt{n}}$
donde la cantidad
    $z_{\alpha /2}\, \dfrac{\sigma}{\sqrt{n}}$
se puede ver como el ínfimo ( la menor de las cotas superiores)
y, respectivamente,
    $-z_{\alpha /2}\, \dfrac{\sigma}{\sqrt{n}}$
como el supremo ( la mayor de las cotas inferiores)
del error absoluto de la media de la población $\mu$ obtenida por estimación, a un nivel de confianza de $(1-\alpha)\cdot 100 \,\%$; esto es, como un margen de error absoluto en el resultado de dicha valoración.

Observación:
Notemos que si el nivel de confianza $1-\alpha$ aumenta, entonces el nivel de riesgo $\alpha$ decrece, luego la abscisa $z_{\alpha /2}$ aumenta, luego la amplitud del intervalo de confianza aumenta y, por tanto, el margen de error en la estimación crece. Así, por ejemplo, con un coeficiente de confianza del $90\,\%$ encontraremos un intervalo de confianza de menor amplitud, y por tanto de menor margen de error, $z_{\alpha / 2} \cdot \sigma(\overline{x})$, que con un coeficiente de confianza mayor, digamos del $95\,\%$.

Por tanto, es evidente que podemos reducir el margen de error en la estimación rebajando el nivel de confianza. Esto, sin embargo, no es recomendable pues es evidente que un buen nivel de confianza es muy razonable en cualquier estimación. Hay otra forma de reducir el margen de error ( y, por tanto, la amplitud del intervalo de estimación ) en la estimación, sin renunciar a un cierto nivel de confianza fijado: aumentar el tamaño de la muestra. En efecto, si se aumenta el tamaño de la muestra $n$ aumenta, claro, el valor del denominador, $\sqrt{n}$, en la expresión del margen de error, luego éste disminuye; eso no obstante, no siembre es viable pues a veces es complicado o costoso trabajar con muestras grandes.

Interpretación del intervalo de confianza desde el punto de vista estadístico:
Si procediéramos a efectuar un número suficientemente grande de realizaciones del muestreo, para situarnos dentro del dominio de validez de la Ley de los Grandes Números ( probabilidad $\overset{n \gg 1}{ \rightarrow }$ frecuencia del recuento ), es decir, eligiendo repetidamente, un gran número de muestras de la población, entonces al medir/observar las medias muestrales respectivas, se puede decir que el $(1-\alpha)\cdot 100 \,\%$ de la veces encontraríamos dicho valor de la media dentro del intervalo de confianza de la media de la población que hemos calculado.

-oOo-

Ejemplo:
El tiempo de vida de las bombillas que fabrica una determinada marca sigue una distribución normal de media desconocida y desviación típica igual a $100$ horas. Al objeto de estimar la media de la población, seleccionamos una muestra aleatoria simple de $n=400$ bombillas y encontramos un valor de la media muestral de $3000$ horas. Encontrar el intervalo de confianza de la media de la población, suponiendo un coeficiente de confianza $(1-\alpha)\cdot 1000=95\,\%$

Resolución:
Sea $X$ la variable aleatoria correspondiente a la característica de la población estudiada ( tiempo de vida de las bombillas fabricadas ) y que, según el enunciado, es $X \sim N(\mu\,,\,100)$. Entonces, el estimador de la media $\overline{x}$ sigue la siguiente distribución en el muestreo
    $\overline{x} \sim N(\mu\,,\,100 / \sqrt{400})$
esto es
    $\overline{x} \sim N(\mu\,,\,5)$
con lo cual
    $\mu \in (\overline{x}- c\,,\,\overline{x}+c)$
donde
    $c=z_{\alpha /2}\, \dfrac{\sigma}{\sqrt{n}}$

Teniendo en cuenta que el coeficiente de confianza $1-\alpha$ es $0'95$ ( expresado en tanto por unidad), vemos que $\alpha$ es $0'05$, valor que emplearemos para consultar las tablas de la función de distribución de probabilidad, $F(z)$, de $Z \sim N(0,1)$ al objeto de encontrar el valor de la abscisa $z_{\alpha / 2}$ ( es decir, el valor de $z_{0'025}$ ). Para ello procedemos de la siguiente forma:

  Como $z_{0'025}$ ha de ser tal que
    $P\{Z \ge z_{0'025}\} = 0'025$
entonces
    $F(z_{0'025})=1-P\{Z \le z_{0'025}\} = 1- 0'025$
es decir
    $F(z_{0'025})=0'975$
y a partir de este valor de probabilidad que encontramos en las tablas vemos que éste corresponde a la siguiente abscisa
    $z_{0'025}=1'96$
por tanto,
    $c=1'96 \cdot 5$
        $=9'8 \approx 10$
con lo cual podemos concluir que, a un nivel de confianza del $95\,\%$, la media $\mu$ del tiempo de vida de las bombillas que se fabrican pertenece al intervalo ( de confianza )
    $(3000-10\,,\,3000+10)$
esto es:
$\mu$ ( expresada en horas ) es tal que
    $2990 \prec \mu \prec 3010$

Observación:     También podemos expresar el resultado al que hemos llegado diciendo que la media $\mu$ del tiempo de vida de las bombillas que fabrica dicha empresa es $3000 \,\pm \, 10 \, \text{horas}$.

Interpretemos este resultado:
  Si procediéramos a efectuar un número grande de realizaciones del muestreo ( para situarnos dentro del dominio de validez de la Ley de los Grandes Números ), pongamos que $1000$, observaríamos que, calculando cada vez el valor de la media de la muestra, alrededor de $950$ de las realizaciones el valor de ésta estaría dentro del intervalo de confianza que hemos calculado.

$\square$


[nota del autor]

No hay comentarios:

Publicar un comentario

Gracias por tus comentarios