domingo, 19 de enero de 2014

Estimación de una proporción para muestras grandes

Sea $X$ la variable aleatoria asociada a una característica dicotómica de un individuo en una población; esto es, $X \sim B(1,p)$ ( distribución de Bernoulli ), donde $p$ es la probabilidad de que se dé uno de los dos atributos de dicha característica ( por ejemplo, la probabilidad de elegir una bola blanca que forma parte de la población (conjunto) de bolas blancas y negras contenidas en una urna. Es claro que $p$ ( establecemos que sea la probabilidad que la bola sea blanca ) es un parámetro, en principio, desconocido de la distribución de la variable aleatoria que describe dicha característica de los individuos de la población ( ser bola blanca o ser bola negra ), y, por tanto, nos proponemos resolver el problema de estimar dicho parámetro, $p$, considerando un muestreo aleatorio simple, encontrando un intervalo de estimación de dicho parámetro a un nivel de confianza de $(1-\alpha)\cdot 100\,\%$.

Para estimar dicho parámetro $p$ procederíamos de la siguiente manera: extraeríamos una muestra de tamaño $n$ de la urna; es decir elegimos al azar, $n$ bolas de la urna, de forma sucesiva y reemplazando las bolas que vayamos sacando al objeto de garantizar la independencia de las sucesivas realizaciones; obtendremos así $x_1,x_2,\ldots,x_n$, correspondientes a cada una de las variables aleatorias $X_1,\ldots,X_n$ que configuran el muestreo aleatorio simple, todas ellas del mismo tipo que la variable aleatoria, $X$, que describe la característica de la población. Dichos valores son unos o ceros, de acuerdo con algún convenio establecido; así, por ejemplo, al extraer una de las bolas, anotamos un uno si es ésta es blanca o un cero si es negra; a continuación, habiendo anotado la ristra de unos y ceros, observaríamos - esto es: calcularíamos - el valor de la media muestral, que es igual a la suma del conjunto de unos y ceros dividida ésta por el tamaño muestral, cantidad que, naturalmente, es la proporción $\hat{p}$ de bolas blancas de la muestra. Hecho ésto procederemos a realizar la estimación utilizando el cálculo de la probabilidades, que es lo que sigue a continuación.

Recordemos que, al estudiar la distribución en el muestro de algunos estimadores (en el Tema anterior), vimos que la variable aleatoria, $\hat{P}$, que corresponde al estimador de una proporción $p$ ( que, en realidad, es lo que se trata de obtener aquí), sigue una distribución normal de parámetros $\mu=p$ (media) $\sigma(\hat{p})=\sqrt{p(1-p) / n}$ para un tamaño muestral lo suficientemente grande, pongamos que $n \ge 100$; es decir, en estas condiciones y tipificando la variable podemos decir que
    $Z=\dfrac{\hat{P}-p}{\sqrt{p(1-p) / n}} \sim N(0,1)$
Tengamos en cuanta que al desconocer el parámetro $p$ debemos, a su vez, estimar la desviación típica sustituyendo dicho parámetro por el valor medido en la muestra, $\hat{p}$, es decir, tomaremos para la desviación típica del estimador $\hat{P}$ de la proporción
    $\sigma(\hat{p})=\sqrt{\dfrac{\hat{p}(1-\hat{p}}{n}}$
y, por tanto, utilizaremos la variable tipificada
    $Z \sim \dfrac{\hat{P}-p}{\sqrt{\hat{p}(1-\hat{p}) / n}} \sim N(0,1)$
a la hora de hacer los cálculos con la distribución de probabilidad del estimador de la proporción.

Llegados a este punto, es evidente que podemos proceder de la misma manera que en en el caso de la estimación de la media de una población. Es decir, para estimar ( a partir del muestreo ) el parámetro $\mu$ mediante un intervalo de confianza, tal que $p \in I=(\hat{p}-c,\hat{p}+c)$ con un coeficiente de confianza $1-\alpha$, tendremos que calcular pues los extremos de dicho intervalo $I$. Para ello, partimos de la interpretación del coeficiente de confianza como una probabilidad, que es la siguiente:
    $P\{\hat{p}-c \prec p \prec \hat{p}+c\}=1-\alpha$
que es lo mismo que
    $P\{\hat{p}-c-\hat{p} \prec p - \hat{p} \prec \hat{p}+c - \hat{p}\}=1-\alpha$
simplificando
    $P\{-c \prec p - \prec c\}=1-\alpha$
que es igual a
    $P\{c \succ \hat{p}-p \succ -c\}=1-\alpha$
y por tanto
    $P\{-c \prec \hat{p} - p \prec c\}=1-\alpha$
con lo cual
    $P\{\dfrac{-c}{\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}} \prec \dfrac{p-\hat{p}}{\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}} \prec \dfrac{c}{\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}} \}=1-\alpha$
es decir
    $P\{\dfrac{-c}{\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}} \prec Z \prec \dfrac{c}{\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}} \}=1-\alpha$
y, habiendo tipificado la variable, calcularemos el valor de la abscisa $z_{\alpha /2 }$, es decir, el valor de
    $\dfrac{c}{\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}}$
de la siguiente manera:

Por ser simétrica la función de densidad de probabilidad de una distribución normal tipificada podemos escribir
    $P\{Z \prec -z_{\alpha /2 } \} = P\{Z \succ z_{\alpha /2 } \}=\alpha / 2$
luego
    $P\{Z \prec z_{\alpha /2 } \} = 1-P\{Z \succ z_{\alpha /2 } \}=1- \dfrac{\alpha}{2}$
cantidad que corresponde al valor de la función de distribución de probabilidad en dicha abscisa, $F(z_{\alpha /2})$, y que leeremos en las tablas de $Z \sim N(0,1)$

Una vez obtenido dicho valor, recordemos que
    $z_{\alpha /2} = \dfrac{c}{\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}}$
y de aquí obtenemos el valor de $c$:
    $c=z_{\alpha /2}\,\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}$

Entonces podemos afirmar que, con un coeficiente de confianza del $(1-\alpha)\cdot 100 \,\%$, la proporción , $p$, de la población pertenece al intervalo de confianza dado por
    $I=\Big(\;\hat{p}- z_{\alpha /2}\, \sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}\,,\,\hat{p}+ z_{\alpha /2}\, \sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}\;\Big)$

Comentario:     Entendiendo $I$ como un intervalo de incertidumbre en la estimación del parámetro ( la proporción $p$ de la población, en el caso que nos ocupa ), podemos escribir también que
    $p = \hat{p}\,\pm\, z_{\alpha /2}\,\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}$
donde la cantidad
    $z_{\alpha /2}\, \sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}$
se puede ver como el ínfimo ( la menor de las cotas superiores)
y, respectivamente,
    $-z_{\alpha /2}\, \sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}$
como el supremo ( la mayor de las cotas inferiores)
del error absoluto del valor estimado de la proporción de la población $p$, a un nivel de confianza de $(1-\alpha)\cdot 100 \,\%$
esto es, como un margen de error absoluto en el resultado de dicha estimación.

Interpretación del intervalo de confianza desde el punto de vista estadístico:
Si procediéramos a efectuar un número suficientemente grande de realizaciones del muestreo, para situarnos dentro del dominio de validez de la Ley de los Grandes Números ( probabilidad $\overset{n \gg 1}{ \rightarrow }$ frecuencia del recuento ), es decir, eligiendo repetidamente, un gran número de muestras de la población, entonces al medir/observar las proporciones muestrales respectivas, se puede decir que el $(1-\alpha)\cdot 100 \,\%$ de la veces encontraríamos dicho valor de la media dentro del intervalo de confianza de la media de la población que hemos calculado.

-oOo-

Ejemplo:
Una urna contiene un gran número de bolas negras y blancas ( iguales en tamaño, masa y textura ). Se desea estimar la proporción de bolas blancas a partir de un muestreo aleatorio simple obteniendo un intervalo de confianza, a un nivel de confianza del $95\,\%$. Para ello se extrae una muestra de $200$ bolas, de las cuales se ha observado que $50$ son blancas.

Resolución:
Sea $p$ dicha proporción a estimar. Teniendo en cuenta que el tamaño muestral es $n=200$ y que la proporción observada en la muestra es $\hat{p}=50/200=0'25$ ( es decir, un $25\,\%$ ), entonces
&nsbsp &nbs $p \in I=(0'25 - c\,,\, 0'25+c)$
donde
    $e=z_{\alpha /2}\, \sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}$
es decir
    $e=1'96\, \sqrt{\dfrac{0'25 \cdot (1-0'25)}{200}} \approx 0'0600$
luego, con un nivel de confianza del $95\,\%$, podemos afirmar que
&nsbsp   $p \in I=(0'19\,,\, 0'31)$

Conclusión:
    Habiendo tomado una muestra aleatoria simple de $200$ bolas concluimos que, a nivel de confianza del $95\,\%$, la proporción estimada de la población de bolas blancas es de un $25\,\%$ con un margen de error del $6\,\%$.

$\square$


No hay comentarios:

Publicar un comentario

Gracias por tus comentarios