miércoles, 24 de marzo de 2021

Estimación de una proporción

ENUNCIADO. Se ha realizado una encuesta sobre los hábitos de lectura de la población universitaria, tomando una muestra aleatoria simple de $180$ personas, y obteniéndose como resultado que $117$ de dichas personas manifiestan leer, como mínimo, $1$ libro al mes. Hace $5$ años, la proporción de universitarios que declaraban leer, como mínimo $1$ libro al mes, era del $60\,\%$. Se pide:
(a) Realizar un contraste de hipótesis bilateral, a un nivel de significación $\alpha=0{,}05$ (nivel de confianza del $95\,\%$), para decidir si la población de universitarios que declaran leer como mínimo $1$ libro al mes sigue siendo del $60\,\%$ (hipótesis fundamental)
(b) ¿Qué tamaño muestral tendría que tener la muestra para poder rechazar la hipótesis fundamental?

SOLUCIÓN

(a)
1. Realización del test calculando la ubicación del valor observado en la muestra en el intervalo/zona de aceptación o bien en en la zona de rechazo de la misma:

Llamamos $p$ a la proporción en la población que corresponde a leer como mínimo $1$ libro al mes.

Denominamos $\hat{p}$ al estimador de la proporción en la población a partir de la información de la muestra, por lo que $\hat{p}$ es una variable aleatoria, que es función de las variables del muestreo, ya que $\hat{p}:=\dfrac{Y}{n}$, siendo $Y$ el número de veces que se verifica en la población una determinada clase $S$ caracterizada por la propiedad; es decir, $Y$ es el número de elementos de la muestra $(e_1,e_2,\ldots,e_n)$ que son de la clase $S$. Así, considerando las variables aleatorias de Bernouilli independientes del mismo parámetro $p:=P(S)$ $$X_i=\left\{ \begin{matrix} 1 & \text{si el elemento} \, e_i \in S \\ 0 & \text{si el elemento}\, e_i \in S \end{matrix} \right. \,\text{para}\, i=1,\ldots\,n$$ la variable $Y$ es la suma de las mismas $$\displaystyle Y=\dfrac{\displaystyle\sum_{i=1}^{n}\,X_i}{n}$$ por lo que tendremos que $Y$ es una variable aleatoria binomial $B(n,p)$, ya que se supone que la realización del muestro se realiza con reemplazamiento —démonos cuenta de que se puede pues considerar que la variable $\hat{p}:=\dfrac{Y}{n}$ es un caso particular del estimador de la media, $\bar{X}$.

Realizaremos el contraste de hipótesis (la estimación) manejando dicho estimador (estadístico).

Sabemos que el valor observado de la proporción medida en la muestra es $\hat{p}_{\text{observado}}=\dfrac{117}{180}=0{,}65$.
También tenemos que tener en cuenta, claro está, el tamaño de la muestra, que es $n=180$.

Si bien la variable aleatoria $Y$, y por tanto también $\hat{p}$, obedecen a una distribución binomial, podremos facilitar el cálculo aproximando $\hat{p}$ a una distribución normal. En efecto, por el Teorema del Límite Central, sabemos que la variable aleatoria del estadístico (estimador) $\hat{p}$ sigue una distribución aproximada normal de media $p$ y desviación estándar $\sqrt{\dfrac{p\cdot(1-p)}{n}}$, esto es, $\hat{p}$ es $N\left(p\,,\,\sqrt{\dfrac{p\cdot(1-p)}{n}}\right)$.

Para la población actual no conocemos el valor del parámetro $p$, por lo que tendremos que arreglárnos sustituyendo éste por algún valor aproximado del mismo, $p_0$, y que, según el enunciado, tomaremos el valor de éste es del $60\,\%$, que corresponde al que se conocía hace unos años en la población y al que llamaremos pongamos que $p_0$; así que establecemos $p\approx p_{0}=0,60$. Con todo esto ya podemos decir que el estadístico $\hat{p}$ (variable aleatoria asociada al estimador de la proporción de la población) sigue la siguiente distribución de probabilidad en el muestreo: $$\hat{p} \approx N \left( p_0 \,,\, \sqrt{ \dfrac{p_0 \cdot(1-p_0) }{n}} \right)$$
(a) Plateemos el test de hipótesis:
Queremos contrastar la hipótesis fundamental (o hipótesis nula) $H_0$ —nos parece bastante plausible, y por tanto confiamos en que sea cierta— en contraposición a la hipótesis alternativa $H_1$; y ello, con un nivel de significación del test prefijado $\alpha=5\,\%=0,05$ (y pot tanto con un nivel de confianza $1-\alpha=95\,\%=0,95$). Establecemos pues la hipótesis fundamental: $$H_0:\, p\approx p_0=0,60$$ frente a la hipótesis alternativa: $$H_1:\, p\approx p_0 \neq 0{,}60$$

Tratándose de un test (contraste) bilateral —habrá que manejar las dos colas (izquierda y derecha) de la función de densidad de probabilidad de la variable aleatoria del estadístico de contraste—, aceptaremos $H_0$ si $P\{p_0 -E \le \hat{p} \le p_0+E\} = 1-\alpha$, luego el intervalo de aceptación de $H_0$ viene dado por $$\text{IA}=(p_0-E\,,\,p_0+E)$$, siendo la amplitud de error $E=z_{\alpha/2}\cdot \sqrt{\dfrac{p_0 \cdot (1-p_0)}{n}}$

Al tipificar la variable $\hat{p}$, se pasa a la variable $$Z=\dfrac{\hat{p}-p_0}{\sqrt{p_0 \cdot (1-p_0)/n}}$$ que es una normal $N(0,1)$. Obtendremos, ahora, la abscisa crítica $z_{\alpha/2}$ —se determina de la misma forma que en los problemas de intervalos de confianza—, teniendo en cuenta que $P\{Z \le z_{\alpha/2}\} = 1-\alpha/2$; y, como $\alpha/2=0{,}05/2=0{,}025$, consultando las tablas de la función de distribución de probabilidad $N(0,1)$, para $P\{Z \le z_{\alpha/2}\} = 0{,}975$, encontramos $z_{\alpha/2}=1{,96}$

Así, la amplitud de error a la que llegamos es $E=1{,}96 \cdot \sqrt{0{,}6\cdot (1-0{,}6)/180}=0{,}0716$, luego el intervalo de aceptación de $H_0$, $\text{IA}$, debe cumplir que $\left|\hat{p}-p_0\right|=E$, luego $$\text{IA}=(0{,}6-0{,}0716\,,\,0{,}6+0{,}0716)$$ esto es $$\text{IA}=(0{,}5284\,,\,0{,}6716)$$
Y como la proporción medida en la muestra $\hat{p}=0{,}65 \in \text{IA}$, concluimos que debemos confiar en la aceptación de la hipótesis fundamental $H_0$, esto es, aceptamos que la proporción de la población de estudiantes que como mínimo leen un libro al mes se mantiene en un $60\,\%$, según un nivel de significación $\alpha=0,05$ (es decir, a un nivel de confianza del $95\,\%$).


-oOo-

2. Realización del test calculando el $\text{p-valor}$:


Otra manera de llegar a la misma conclusión consiste en calcular el p-valor (o valor-p) utilizando la distribución de probabilidad en el muestreo del estadístico de prueba asumiendo que la hipótesis fundamental es cierta. Subrayemos pues que entendemos el p-valor como el error de tipo I observado (no el establecido de antemano en el test y al que denominamos nivel de significación $\alpha$, que en nuestro caso es del $0.05$); dicho de otra manera, el p-valor es el mínimo nivel de significación necesario para poder rechazar la hipótesis fundamental $H_0$ que se ha aceptado como cierta en un principio (para realizar el cálculo del p-valor). Por tanto, una vez conocido el p-valor procederemos de la manera siguiente para realizar el contraste:
  Si $\text{p-valor}\le \alpha$ entonces deberemos rechazar la hipótesis fundamental $H_0$ (que habíamos supuesta cierta en un principio) y por tanto aceptaremos la hipótesis alternativa $H_1$
  En caso contrario, si $\text{p-valor}\gt \alpha$, no podremos rechazar la hipótesis fundamental $H_0$

Al cálcular el p-valor nos podemos encontrar que, según el caso, el contraste se tenga que realizar por la cola superior, por la cola inferior, o bien de manera bilateral. Este último caso es el que procede para este problema que nos ocupa ahora. Hagamos el cálculo:
  Como al estadístico del contraste corresponde una variable $Z=\dfrac{\hat{p}-p_0}{\sqrt{p_0 \cdot (1-p_0)/n)}}\sim N(0,1)$ (lo cual ya se ha justificado arriba) tenemos que, el valor observado del estadístico para la variable tipificada $Z$ del contraste (o valor de prueba del estadístico) es igual a $z_{\text{prueba}}:=\dfrac{\hat{p}_{\text{prueba}}-p_0}{\sqrt{p_0 \cdot (1-p_0)/n)}}=\dfrac{0,65-0,60}{\sqrt{0,60\cdot (1-0,60)/180)}}=1,3693$ , y al tener en cuenta la bilateralidad con la función de densidad de probabilidad de $Z\sim N(0,1)$ simétrica y centrada en el valor $z=0$, encontramos que $\text{p-valor}:=P\{Z \le - z_{\text{prueba} }\}+P\{Z \ge z_{\text{prueba} }\}=2\,P\{Z \ge z_{\text{prueba}}\}=2\cdot (1-P\{Z \le z_{\text{prueba}}\})=$
  $=2\cdot (1-P\{Z \le 1,3693\})=2\cdot (1-F(1,3693))\overset{\text{tablas de}\,F(z)}{=}2\cdot(1-0,9145)\approx 0,171 \gt \alpha=0,05$ de lo cual concluimos que no podemos rechazar la hipótesis fundamental $H_0$. Como cabía esperar, es la misma conclusión a la que hemos llegado razonando mediante los intervalos de aceptación y rechazo de la hipótesis fundamental.

Observación:
Por el significado del $\text{p-valor}$, démonos cuenta de que si hubiésemos tomado un nivel de significación $\alpha$ mayor que $0,05$ pero, eso sí, menor que $0,171$, la conclusión del test sería la misma: no rechazar la hipótesis fundamental $H_0$. Por el contrario, para valores de $\alpha$ mayores que $0,171$, esto es, para un contraste más «exigente» que eso, sí tendríamos que rechazar la hipótesis fundamental.


* * *


(b)
Si el tamaño muestral $n$ aumenta, entonces el intervalo de aceptación se estrecha (se reduce el error $E$, que es la amplitud de dicho intervalo), por tanto, a partir de un cierto valor de $n$, la proporción medida en la muestra caerá fuera del intervalo de aceptación (se situará en la zona de rechazo de la hipótesis fundamental), con lo cual, no podremos seguir dando apoyo a la hipótesis fundamental, debiendo aceptar la h. alternativa, y por consiguiente hay que concluir, en ese caso, que la proporción en la población no es del $60\,\%$. Veamos cuánto debe ser el valor mínimo de $n$ para que eso ocurra:

Por lo dicho anteriormente, para poder rechazar $H_0$, deberá cumplirse (condición crítica) que $\left|\hat{p}-p_0\right| = E$; por lo que imponiendo esta condición, $$0{,}65-0{,}60=1{,}96 \cdot \sqrt{0{,}6\cdot (1-0{,}6)/n}$$ es decir
$$0{,}05=1{,}96 \cdot \sqrt{0{,}6\cdot (1-0{,}6)/n}$$ elevando al cuadrado y despejando $n$ llegamos a $$n=\dfrac{0{,}6\cdot 0{,}4}{(0{,}05/1{,}96)^2} \approx 368$$

Con lo cual, para tamaños muestrales $n \ge 368$, tendremos que rechazar la hipótesis fundamental (a nivel de significación $\alpha=0{,}05 $). $\square$
- - -

Referencias:
  [1] Compta, A., et. al., Matemàtiques II, Barcanova, Barcelona, 1993
  [2] Guàrdia, J.; Viader, M., Estadística, Castellnou, Barcelona, 1999
  [3] García Pérez, A., Estadística Básica con R, UNED, Madrid, 2010
  [4] Allepús, J., et. al., Exercicis d'inferència estadística, Cossetània, Valls, 2002
  [5] Gonick, L.; Smith, W, La Estadística en Cómic, Zendrera Zariquiey, Barcelona, 1999

Cálculo de límites de sucesiones

Enunciado:
Calcúlese el siguiente límite:
    $\displaystyle \lim_{n \rightarrow \infty}\,\dfrac{2^{n+1}+3^{n+1}}{2^{n}+3^{n}}$


Resolución:
Podemos simplificar algo la expresión de la forma
    $\displaystyle \lim_{n \rightarrow \infty}\,\dfrac{2^{n+1}+3^{n+1}}{2^{n}+3^{n}}=\displaystyle \lim_{n \rightarrow \infty}\,\dfrac{2\cdot 2^{n}+3\cdot 3^{n}}{2^{n}+3^{n}}$

Observemos que al pasar al límite nos encontramos con una indeterminación del tipo $\infty / \infty$
Para resolverla dividiremos el numerador y el denominador por $3^{n}$. Con ello tendremos
    $\displaystyle \lim_{n \rightarrow \infty}\,\dfrac{2^{n+1}+3^{n+1}}{2^{n}+3^{n}}=\lim_{n \rightarrow \infty}\,\dfrac{2\,\big(\frac{2}{3}\big)^n+3}{\big(\frac{2}{3}\big)^n+1}$
Y, puesto que la base de las potencias es menor que $1$, volviendo a pasar al límite obtenemos el resultado:
$$\dfrac{2\cdot (2/3)^\infty+3}{(2/3)^{\infty}+1}\overset{2/3 \lt 1}{=}\dfrac{2\cdot 0+3}{0+1}=3$$
$\square$