(a) Realizar un contraste de hipótesis bilateral, a un nivel de significación \alpha=0{,}05 (nivel de confianza del 95\,\%), para decidir si la población de universitarios que declaran leer como mínimo 1 libro al mes sigue siendo del 60\,\% (hipótesis fundamental)
(b) ¿Qué tamaño muestral tendría que tener la muestra para poder rechazar la hipótesis fundamental?
SOLUCIÓN
(a)
1. Realización del test calculando la ubicación del valor observado en la muestra en el intervalo/zona de aceptación o bien en en la zona de rechazo de la misma:
Llamamos p a la proporción en la población que corresponde a leer como mínimo 1 libro al mes.
Denominamos \hat{p} al estimador de la proporción en la población a partir de la información de la muestra, por lo que \hat{p} es una variable aleatoria, que es función de las variables del muestreo, ya que \hat{p}:=\dfrac{Y}{n}, siendo Y el número de veces que se verifica en la población una determinada clase S caracterizada por la propiedad; es decir, Y es el número de elementos de la muestra (e_1,e_2,\ldots,e_n) que son de la clase S. Así, considerando las variables aleatorias de Bernouilli independientes del mismo parámetro p:=P(S) X_i=\left\{ \begin{matrix} 1 & \text{si el elemento} \, e_i \in S \\ 0 & \text{si el elemento}\, e_i \in S \end{matrix} \right. \,\text{para}\, i=1,\ldots\,n la variable Y es la suma de las mismas \displaystyle Y=\dfrac{\displaystyle\sum_{i=1}^{n}\,X_i}{n} por lo que tendremos que Y es una variable aleatoria binomial B(n,p), ya que se supone que la realización del muestro se realiza con reemplazamiento —démonos cuenta de que se puede pues considerar que la variable \hat{p}:=\dfrac{Y}{n} es un caso particular del estimador de la media, \bar{X}.
Realizaremos el contraste de hipótesis (la estimación) manejando dicho estimador (estadístico).
Sabemos que el valor observado de la proporción medida en la muestra es \hat{p}_{\text{observado}}=\dfrac{117}{180}=0{,}65.
También tenemos que tener en cuenta, claro está, el tamaño de la muestra, que es n=180.
Si bien la variable aleatoria Y, y por tanto también \hat{p}, obedecen a una distribución binomial, podremos facilitar el cálculo aproximando \hat{p} a una distribución normal. En efecto, por el Teorema del Límite Central, sabemos que la variable aleatoria del estadístico (estimador) \hat{p} sigue una distribución aproximada normal de media p y desviación estándar \sqrt{\dfrac{p\cdot(1-p)}{n}}, esto es, \hat{p} es N\left(p\,,\,\sqrt{\dfrac{p\cdot(1-p)}{n}}\right).
Para la población actual no conocemos el valor del parámetro p, por lo que tendremos que arreglárnos sustituyendo éste por algún valor aproximado del mismo, p_0, y que, según el enunciado, tomaremos el valor de éste es del 60\,\%, que corresponde al que se conocía hace unos años en la población y al que llamaremos pongamos que p_0; así que establecemos p\approx p_{0}=0,60. Con todo esto ya podemos decir que el estadístico \hat{p} (variable aleatoria asociada al estimador de la proporción de la población) sigue la siguiente distribución de probabilidad en el muestreo: \hat{p} \approx N \left( p_0 \,,\, \sqrt{ \dfrac{p_0 \cdot(1-p_0) }{n}} \right)
(a) Plateemos el test de hipótesis:
Queremos contrastar la hipótesis fundamental (o hipótesis nula) H_0 —nos parece bastante plausible, y por tanto confiamos en que sea cierta— en contraposición a la hipótesis alternativa H_1; y ello, con un nivel de significación del test prefijado \alpha=5\,\%=0,05 (y pot tanto con un nivel de confianza 1-\alpha=95\,\%=0,95). Establecemos pues la hipótesis fundamental: H_0:\, p\approx p_0=0,60 frente a la hipótesis alternativa: H_1:\, p\approx p_0 \neq 0{,}60
Tratándose de un test (contraste) bilateral —habrá que manejar las dos colas (izquierda y derecha) de la función de densidad de probabilidad de la variable aleatoria del estadístico de contraste—, aceptaremos H_0 si P\{p_0 -E \le \hat{p} \le p_0+E\} = 1-\alpha, luego el intervalo de aceptación de H_0 viene dado por \text{IA}=(p_0-E\,,\,p_0+E), siendo la amplitud de error E=z_{\alpha/2}\cdot \sqrt{\dfrac{p_0 \cdot (1-p_0)}{n}}
Al tipificar la variable \hat{p}, se pasa a la variable Z=\dfrac{\hat{p}-p_0}{\sqrt{p_0 \cdot (1-p_0)/n}} que es una normal N(0,1). Obtendremos, ahora, la abscisa crítica z_{\alpha/2} —se determina de la misma forma que en los problemas de intervalos de confianza—, teniendo en cuenta que P\{Z \le z_{\alpha/2}\} = 1-\alpha/2; y, como \alpha/2=0{,}05/2=0{,}025, consultando las tablas de la función de distribución de probabilidad N(0,1), para P\{Z \le z_{\alpha/2}\} = 0{,}975, encontramos z_{\alpha/2}=1{,96}
Así, la amplitud de error a la que llegamos es E=1{,}96 \cdot \sqrt{0{,}6\cdot (1-0{,}6)/180}=0{,}0716, luego el intervalo de aceptación de H_0, \text{IA}, debe cumplir que \left|\hat{p}-p_0\right|=E, luego \text{IA}=(0{,}6-0{,}0716\,,\,0{,}6+0{,}0716) esto es \text{IA}=(0{,}5284\,,\,0{,}6716)
Y como la proporción medida en la muestra \hat{p}=0{,}65 \in \text{IA}, concluimos que debemos confiar en la aceptación de la hipótesis fundamental H_0, esto es, aceptamos que la proporción de la población de estudiantes que como mínimo leen un libro al mes se mantiene en un 60\,\%, según un nivel de significación \alpha=0,05 (es decir, a un nivel de confianza del 95\,\%).
2. Realización del test calculando el \text{p-valor}:
Otra manera de llegar a la misma conclusión consiste en calcular el p-valor (o valor-p) utilizando la distribución de probabilidad en el muestreo del estadístico de prueba asumiendo que la hipótesis fundamental es cierta. Subrayemos pues que entendemos el p-valor como el error de tipo I observado (no el establecido de antemano en el test y al que denominamos nivel de significación \alpha, que en nuestro caso es del 0.05); dicho de otra manera, el p-valor es el mínimo nivel de significación necesario para poder rechazar la hipótesis fundamental H_0 que se ha aceptado como cierta en un principio (para realizar el cálculo del p-valor). Por tanto, una vez conocido el p-valor procederemos de la manera siguiente para realizar el contraste:
Si \text{p-valor}\le \alpha entonces deberemos rechazar la hipótesis fundamental H_0 (que habíamos supuesta cierta en un principio) y por tanto aceptaremos la hipótesis alternativa H_1
En caso contrario, si \text{p-valor}\gt \alpha, no podremos rechazar la hipótesis fundamental H_0
Al cálcular el p-valor nos podemos encontrar que, según el caso, el contraste se tenga que realizar por la cola superior, por la cola inferior, o bien de manera bilateral. Este último caso es el que procede para este problema que nos ocupa ahora. Hagamos el cálculo:
Como al estadístico del contraste corresponde una variable Z=\dfrac{\hat{p}-p_0}{\sqrt{p_0 \cdot (1-p_0)/n)}}\sim N(0,1) (lo cual ya se ha justificado arriba) tenemos que, el valor observado del estadístico para la variable tipificada Z del contraste (o valor de prueba del estadístico) es igual a z_{\text{prueba}}:=\dfrac{\hat{p}_{\text{prueba}}-p_0}{\sqrt{p_0 \cdot (1-p_0)/n)}}=\dfrac{0,65-0,60}{\sqrt{0,60\cdot (1-0,60)/180)}}=1,3693 , y al tener en cuenta la bilateralidad con la función de densidad de probabilidad de Z\sim N(0,1) simétrica y centrada en el valor z=0, encontramos que \text{p-valor}:=P\{Z \le - z_{\text{prueba} }\}+P\{Z \ge z_{\text{prueba} }\}=2\,P\{Z \ge z_{\text{prueba}}\}=2\cdot (1-P\{Z \le z_{\text{prueba}}\})=
=2\cdot (1-P\{Z \le 1,3693\})=2\cdot (1-F(1,3693))\overset{\text{tablas de}\,F(z)}{=}2\cdot(1-0,9145)\approx 0,171 \gt \alpha=0,05 de lo cual concluimos que no podemos rechazar la hipótesis fundamental H_0. Como cabía esperar, es la misma conclusión a la que hemos llegado razonando mediante los intervalos de aceptación y rechazo de la hipótesis fundamental.
Observación:
Por el significado del \text{p-valor}, démonos cuenta de que si hubiésemos tomado un nivel de significación \alpha mayor que 0,05 pero, eso sí, menor que 0,171, la conclusión del test sería la misma: no rechazar la hipótesis fundamental H_0. Por el contrario, para valores de \alpha mayores que 0,171, esto es, para un contraste más «exigente» que eso, sí tendríamos que rechazar la hipótesis fundamental.
(b)
Si el tamaño muestral n aumenta, entonces el intervalo de aceptación se estrecha (se reduce el error E, que es la amplitud de dicho intervalo), por tanto, a partir de un cierto valor de n, la proporción medida en la muestra caerá fuera del intervalo de aceptación (se situará en la zona de rechazo de la hipótesis fundamental), con lo cual, no podremos seguir dando apoyo a la hipótesis fundamental, debiendo aceptar la h. alternativa, y por consiguiente hay que concluir, en ese caso, que la proporción en la población no es del 60\,\%. Veamos cuánto debe ser el valor mínimo de n para que eso ocurra:
Por lo dicho anteriormente, para poder rechazar H_0, deberá cumplirse (condición crítica) que \left|\hat{p}-p_0\right| = E; por lo que imponiendo esta condición, 0{,}65-0{,}60=1{,}96 \cdot \sqrt{0{,}6\cdot (1-0{,}6)/n} es decir
0{,}05=1{,}96 \cdot \sqrt{0{,}6\cdot (1-0{,}6)/n} elevando al cuadrado y despejando n llegamos a n=\dfrac{0{,}6\cdot 0{,}4}{(0{,}05/1{,}96)^2} \approx 368
Con lo cual, para tamaños muestrales n \ge 368, tendremos que rechazar la hipótesis fundamental (a nivel de significación \alpha=0{,}05 ). \square
Referencias:
[1] Compta, A., et. al., Matemàtiques II, Barcanova, Barcelona, 1993
[2] Guàrdia, J.; Viader, M., Estadística, Castellnou, Barcelona, 1999
[3] García Pérez, A., Estadística Básica con R, UNED, Madrid, 2010
[4] Allepús, J., et. al., Exercicis d'inferència estadística, Cossetània, Valls, 2002
[5] Gonick, L.; Smith, W, La Estadística en Cómic, Zendrera Zariquiey, Barcelona, 1999
No hay comentarios:
Publicar un comentario
Gracias por tus comentarios