Sea X la variable aleatoria asociada a una característica dicotómica de un individuo en una población; esto es, X \sim B(1,p) ( distribución de Bernoulli ), donde p es la probabilidad de que se dé uno de los dos atributos de dicha característica ( por ejemplo, la probabilidad de elegir una bola blanca que forma parte de la población (conjunto) de bolas blancas y negras contenidas en una urna. Es claro que p ( establecemos que sea la probabilidad que la bola sea blanca ) es un parámetro, en principio, desconocido de la distribución de la variable aleatoria que describe dicha característica de los individuos de la población ( ser bola blanca o ser bola negra ), y, por tanto, nos proponemos resolver el problema de estimar dicho parámetro, p, considerando un muestreo aleatorio simple, encontrando un intervalo de estimación de dicho parámetro a un nivel de confianza de (1-\alpha)\cdot 100\,\%.
Para estimar dicho parámetro p procederíamos de la siguiente manera: extraeríamos una muestra de tamaño n de la urna; es decir elegimos al azar, n bolas de la urna, de forma sucesiva y reemplazando las bolas que vayamos sacando al objeto de garantizar la independencia de las sucesivas realizaciones; obtendremos así x_1,x_2,\ldots,x_n, correspondientes a cada una de las variables aleatorias X_1,\ldots,X_n que configuran el muestreo aleatorio simple, todas ellas del mismo tipo que la variable aleatoria, X, que describe la característica de la población. Dichos valores son unos o ceros, de acuerdo con algún convenio establecido; así, por ejemplo, al extraer una de las bolas, anotamos un uno si es ésta es blanca o un cero si es negra; a continuación, habiendo anotado la ristra de unos y ceros, observaríamos - esto es: calcularíamos - el valor de la media muestral, que es igual a la suma del conjunto de unos y ceros dividida ésta por el tamaño muestral, cantidad que, naturalmente, es la proporción \hat{p} de bolas blancas de la muestra. Hecho ésto procederemos a realizar la estimación utilizando el cálculo de la probabilidades, que es lo que sigue a continuación.
Recordemos que, al estudiar la distribución en el muestro de algunos estimadores (en el Tema anterior), vimos que la variable aleatoria, \hat{P}, que corresponde al estimador de una proporción p ( que, en realidad, es lo que se trata de obtener aquí), sigue una distribución normal de parámetros \mu=p (media) \sigma(\hat{p})=\sqrt{p(1-p) / n} para un tamaño muestral lo suficientemente grande, pongamos que n \ge 100; es decir, en estas condiciones y tipificando la variable podemos decir que
Z=\dfrac{\hat{P}-p}{\sqrt{p(1-p) / n}} \sim N(0,1)
Tengamos en cuanta que al desconocer el parámetro p debemos, a su vez, estimar la desviación típica sustituyendo dicho parámetro por el valor medido en la muestra, \hat{p}, es decir, tomaremos para la desviación típica del estimador \hat{P} de la proporción
\sigma(\hat{p})=\sqrt{\dfrac{\hat{p}(1-\hat{p}}{n}}
y, por tanto, utilizaremos la variable tipificada
Z \sim \dfrac{\hat{P}-p}{\sqrt{\hat{p}(1-\hat{p}) / n}} \sim N(0,1)
a la hora de hacer los cálculos con la distribución de probabilidad del estimador de la proporción.
Llegados a este punto, es evidente que podemos proceder de la misma manera que en en el caso de la estimación de la media de una población. Es decir, para estimar ( a partir del muestreo ) el parámetro \mu mediante un intervalo de confianza, tal que p \in I=(\hat{p}-c,\hat{p}+c) con un coeficiente de confianza 1-\alpha, tendremos que calcular pues los extremos de dicho intervalo I. Para ello, partimos de la interpretación del coeficiente de confianza como una probabilidad, que es la siguiente:
P\{\hat{p}-c \prec p \prec \hat{p}+c\}=1-\alpha
que es lo mismo que
P\{\hat{p}-c-\hat{p} \prec p - \hat{p} \prec \hat{p}+c - \hat{p}\}=1-\alpha
simplificando
P\{-c \prec p - \prec c\}=1-\alpha
que es igual a
P\{c \succ \hat{p}-p \succ -c\}=1-\alpha
y por tanto
P\{-c \prec \hat{p} - p \prec c\}=1-\alpha
con lo cual
P\{\dfrac{-c}{\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}} \prec \dfrac{p-\hat{p}}{\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}} \prec \dfrac{c}{\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}} \}=1-\alpha
es decir
P\{\dfrac{-c}{\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}} \prec Z \prec \dfrac{c}{\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}} \}=1-\alpha
y, habiendo tipificado la variable, calcularemos el valor de la abscisa z_{\alpha /2 }, es decir, el valor de
\dfrac{c}{\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}}
de la siguiente manera:
Por ser simétrica la función de densidad de probabilidad de una distribución normal tipificada podemos escribir
P\{Z \prec -z_{\alpha /2 } \} = P\{Z \succ z_{\alpha /2 } \}=\alpha / 2
luego
P\{Z \prec z_{\alpha /2 } \} = 1-P\{Z \succ z_{\alpha /2 } \}=1- \dfrac{\alpha}{2}
cantidad que corresponde al valor de la función de distribución de probabilidad en dicha abscisa, F(z_{\alpha /2}), y que leeremos en las tablas de Z \sim N(0,1)
Una vez obtenido dicho valor, recordemos que
z_{\alpha /2} = \dfrac{c}{\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}}
y de aquí obtenemos el valor de c:
c=z_{\alpha /2}\,\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}
Entonces podemos afirmar que, con un coeficiente de confianza del (1-\alpha)\cdot 100 \,\%, la proporción , p, de la población pertenece al intervalo de confianza dado por
I=\Big(\;\hat{p}- z_{\alpha /2}\, \sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}\,,\,\hat{p}+ z_{\alpha /2}\, \sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}\;\Big)
Comentario: Entendiendo I como un intervalo de incertidumbre en la estimación del parámetro ( la proporción p de la población, en el caso que nos ocupa ), podemos escribir también que
p = \hat{p}\,\pm\, z_{\alpha /2}\,\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}
donde la cantidad
z_{\alpha /2}\, \sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}
se puede ver como el ínfimo ( la menor de las cotas superiores)
y, respectivamente,
-z_{\alpha /2}\, \sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}
como el supremo ( la mayor de las cotas inferiores)
del error absoluto del valor estimado de la proporción de la población p, a un nivel de confianza de (1-\alpha)\cdot 100 \,\%
esto es, como un margen de error absoluto en el resultado de dicha estimación.
Interpretación del intervalo de confianza desde el punto de vista estadístico:
Si procediéramos a efectuar un número suficientemente grande de realizaciones del muestreo, para situarnos dentro del dominio de validez de la Ley de los Grandes Números ( probabilidad \overset{n \gg 1}{ \rightarrow } frecuencia del recuento ), es decir, eligiendo repetidamente, un gran número de muestras de la población, entonces al medir/observar las proporciones muestrales respectivas, se puede decir que el (1-\alpha)\cdot 100 \,\% de la veces encontraríamos dicho valor de la media dentro del intervalo de confianza de la media de la población que hemos calculado.
Ejemplo:
Una urna contiene un gran número de bolas negras y blancas ( iguales en tamaño, masa y textura ). Se desea estimar la proporción de bolas blancas a partir de un muestreo aleatorio simple obteniendo un intervalo de confianza, a un nivel de confianza del 95\,\%. Para ello se extrae una muestra de 200 bolas, de las cuales se ha observado que 50 son blancas.
Resolución:
Sea p dicha proporción a estimar. Teniendo en cuenta que el tamaño muestral es n=200 y que la proporción observada en la muestra es \hat{p}=50/200=0'25 ( es decir, un 25\,\% ), entonces
&nsbsp &nbs p \in I=(0'25 - c\,,\, 0'25+c)
donde
e=z_{\alpha /2}\, \sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}
es decir
e=1'96\, \sqrt{\dfrac{0'25 \cdot (1-0'25)}{200}} \approx 0'0600
luego, con un nivel de confianza del 95\,\%, podemos afirmar que
&nsbsp p \in I=(0'19\,,\, 0'31)
Conclusión:
Habiendo tomado una muestra aleatoria simple de 200 bolas concluimos que, a nivel de confianza del 95\,\%, la proporción estimada de la población de bolas blancas es de un 25\,\% con un margen de error del 6\,\%.
\square
No hay comentarios:
Publicar un comentario
Gracias por tus comentarios