miércoles, 24 de marzo de 2021

Estimación de una proporción

ENUNCIADO. Se ha realizado una encuesta sobre los hábitos de lectura de la población universitaria, tomando una muestra aleatoria simple de $180$ personas, y obteniéndose como resultado que $117$ de dichas personas manifiestan leer, como mínimo, $1$ libro al mes. Hace $5$ años, la proporción de universitarios que declaraban leer, como mínimo $1$ libro al mes, era del $60\,\%$. Se pide:
(a) Realizar un contraste de hipótesis bilateral, a un nivel de significación $\alpha=0{,}05$ (nivel de confianza del $95\,\%$), para decidir si la población de universitarios que declaran leer como mínimo $1$ libro al mes sigue siendo del $60\,\%$ (hipótesis fundamental)
(b) ¿Qué tamaño muestral tendría que tener la muestra para poder rechazar la hipótesis fundamental?

SOLUCIÓN

(a)
1. Realización del test calculando la ubicación del valor observado en la muestra en el intervalo/zona de aceptación o bien en en la zona de rechazo de la misma:

Llamamos $p$ a la proporción en la población que corresponde a leer como mínimo $1$ libro al mes.

Denominamos $\hat{p}$ al estimador de la proporción en la población a partir de la información de la muestra, por lo que $\hat{p}$ es una variable aleatoria, que es función de las variables del muestreo, ya que $\hat{p}:=\dfrac{Y}{n}$, siendo $Y$ el número de veces que se verifica en la población una determinada clase $S$ caracterizada por la propiedad; es decir, $Y$ es el número de elementos de la muestra $(e_1,e_2,\ldots,e_n)$ que son de la clase $S$. Así, considerando las variables aleatorias de Bernouilli independientes del mismo parámetro $p:=P(S)$ $$X_i=\left\{ \begin{matrix} 1 & \text{si el elemento} \, e_i \in S \\ 0 & \text{si el elemento}\, e_i \in S \end{matrix} \right. \,\text{para}\, i=1,\ldots\,n$$ la variable $Y$ es la suma de las mismas $$\displaystyle Y=\dfrac{\displaystyle\sum_{i=1}^{n}\,X_i}{n}$$ por lo que tendremos que $Y$ es una variable aleatoria binomial $B(n,p)$, ya que se supone que la realización del muestro se realiza con reemplazamiento —démonos cuenta de que se puede pues considerar que la variable $\hat{p}:=\dfrac{Y}{n}$ es un caso particular del estimador de la media, $\bar{X}$.

Realizaremos el contraste de hipótesis (la estimación) manejando dicho estimador (estadístico).

Sabemos que el valor observado de la proporción medida en la muestra es $\hat{p}_{\text{observado}}=\dfrac{117}{180}=0{,}65$.
También tenemos que tener en cuenta, claro está, el tamaño de la muestra, que es $n=180$.

Si bien la variable aleatoria $Y$, y por tanto también $\hat{p}$, obedecen a una distribución binomial, podremos facilitar el cálculo aproximando $\hat{p}$ a una distribución normal. En efecto, por el Teorema del Límite Central, sabemos que la variable aleatoria del estadístico (estimador) $\hat{p}$ sigue una distribución aproximada normal de media $p$ y desviación estándar $\sqrt{\dfrac{p\cdot(1-p)}{n}}$, esto es, $\hat{p}$ es $N\left(p\,,\,\sqrt{\dfrac{p\cdot(1-p)}{n}}\right)$.

Para la población actual no conocemos el valor del parámetro $p$, por lo que tendremos que arreglárnos sustituyendo éste por algún valor aproximado del mismo, $p_0$, y que, según el enunciado, tomaremos el valor de éste es del $60\,\%$, que corresponde al que se conocía hace unos años en la población y al que llamaremos pongamos que $p_0$; así que establecemos $p\approx p_{0}=0,60$. Con todo esto ya podemos decir que el estadístico $\hat{p}$ (variable aleatoria asociada al estimador de la proporción de la población) sigue la siguiente distribución de probabilidad en el muestreo: $$\hat{p} \approx N \left( p_0 \,,\, \sqrt{ \dfrac{p_0 \cdot(1-p_0) }{n}} \right)$$
(a) Plateemos el test de hipótesis:
Queremos contrastar la hipótesis fundamental (o hipótesis nula) $H_0$ —nos parece bastante plausible, y por tanto confiamos en que sea cierta— en contraposición a la hipótesis alternativa $H_1$; y ello, con un nivel de significación del test prefijado $\alpha=5\,\%=0,05$ (y pot tanto con un nivel de confianza $1-\alpha=95\,\%=0,95$). Establecemos pues la hipótesis fundamental: $$H_0:\, p\approx p_0=0,60$$ frente a la hipótesis alternativa: $$H_1:\, p\approx p_0 \neq 0{,}60$$

Tratándose de un test (contraste) bilateral —habrá que manejar las dos colas (izquierda y derecha) de la función de densidad de probabilidad de la variable aleatoria del estadístico de contraste—, aceptaremos $H_0$ si $P\{p_0 -E \le \hat{p} \le p_0+E\} = 1-\alpha$, luego el intervalo de aceptación de $H_0$ viene dado por $$\text{IA}=(p_0-E\,,\,p_0+E)$$, siendo la amplitud de error $E=z_{\alpha/2}\cdot \sqrt{\dfrac{p_0 \cdot (1-p_0)}{n}}$

Al tipificar la variable $\hat{p}$, se pasa a la variable $$Z=\dfrac{\hat{p}-p_0}{\sqrt{p_0 \cdot (1-p_0)/n}}$$ que es una normal $N(0,1)$. Obtendremos, ahora, la abscisa crítica $z_{\alpha/2}$ —se determina de la misma forma que en los problemas de intervalos de confianza—, teniendo en cuenta que $P\{Z \le z_{\alpha/2}\} = 1-\alpha/2$; y, como $\alpha/2=0{,}05/2=0{,}025$, consultando las tablas de la función de distribución de probabilidad $N(0,1)$, para $P\{Z \le z_{\alpha/2}\} = 0{,}975$, encontramos $z_{\alpha/2}=1{,96}$

Así, la amplitud de error a la que llegamos es $E=1{,}96 \cdot \sqrt{0{,}6\cdot (1-0{,}6)/180}=0{,}0716$, luego el intervalo de aceptación de $H_0$, $\text{IA}$, debe cumplir que $\left|\hat{p}-p_0\right|=E$, luego $$\text{IA}=(0{,}6-0{,}0716\,,\,0{,}6+0{,}0716)$$ esto es $$\text{IA}=(0{,}5284\,,\,0{,}6716)$$
Y como la proporción medida en la muestra $\hat{p}=0{,}65 \in \text{IA}$, concluimos que debemos confiar en la aceptación de la hipótesis fundamental $H_0$, esto es, aceptamos que la proporción de la población de estudiantes que como mínimo leen un libro al mes se mantiene en un $60\,\%$, según un nivel de significación $\alpha=0,05$ (es decir, a un nivel de confianza del $95\,\%$).


-oOo-

2. Realización del test calculando el $\text{p-valor}$:


Otra manera de llegar a la misma conclusión consiste en calcular el p-valor (o valor-p) utilizando la distribución de probabilidad en el muestreo del estadístico de prueba asumiendo que la hipótesis fundamental es cierta. Subrayemos pues que entendemos el p-valor como el error de tipo I observado (no el establecido de antemano en el test y al que denominamos nivel de significación $\alpha$, que en nuestro caso es del $0.05$); dicho de otra manera, el p-valor es el mínimo nivel de significación necesario para poder rechazar la hipótesis fundamental $H_0$ que se ha aceptado como cierta en un principio (para realizar el cálculo del p-valor). Por tanto, una vez conocido el p-valor procederemos de la manera siguiente para realizar el contraste:
  Si $\text{p-valor}\le \alpha$ entonces deberemos rechazar la hipótesis fundamental $H_0$ (que habíamos supuesta cierta en un principio) y por tanto aceptaremos la hipótesis alternativa $H_1$
  En caso contrario, si $\text{p-valor}\gt \alpha$, no podremos rechazar la hipótesis fundamental $H_0$

Al cálcular el p-valor nos podemos encontrar que, según el caso, el contraste se tenga que realizar por la cola superior, por la cola inferior, o bien de manera bilateral. Este último caso es el que procede para este problema que nos ocupa ahora. Hagamos el cálculo:
  Como al estadístico del contraste corresponde una variable $Z=\dfrac{\hat{p}-p_0}{\sqrt{p_0 \cdot (1-p_0)/n)}}\sim N(0,1)$ (lo cual ya se ha justificado arriba) tenemos que, el valor observado del estadístico para la variable tipificada $Z$ del contraste (o valor de prueba del estadístico) es igual a $z_{\text{prueba}}:=\dfrac{\hat{p}_{\text{prueba}}-p_0}{\sqrt{p_0 \cdot (1-p_0)/n)}}=\dfrac{0,65-0,60}{\sqrt{0,60\cdot (1-0,60)/180)}}=1,3693$ , y al tener en cuenta la bilateralidad con la función de densidad de probabilidad de $Z\sim N(0,1)$ simétrica y centrada en el valor $z=0$, encontramos que $\text{p-valor}:=P\{Z \le - z_{\text{prueba} }\}+P\{Z \ge z_{\text{prueba} }\}=2\,P\{Z \ge z_{\text{prueba}}\}=2\cdot (1-P\{Z \le z_{\text{prueba}}\})=$
  $=2\cdot (1-P\{Z \le 1,3693\})=2\cdot (1-F(1,3693))\overset{\text{tablas de}\,F(z)}{=}2\cdot(1-0,9145)\approx 0,171 \gt \alpha=0,05$ de lo cual concluimos que no podemos rechazar la hipótesis fundamental $H_0$. Como cabía esperar, es la misma conclusión a la que hemos llegado razonando mediante los intervalos de aceptación y rechazo de la hipótesis fundamental.

Observación:
Por el significado del $\text{p-valor}$, démonos cuenta de que si hubiésemos tomado un nivel de significación $\alpha$ mayor que $0,05$ pero, eso sí, menor que $0,171$, la conclusión del test sería la misma: no rechazar la hipótesis fundamental $H_0$. Por el contrario, para valores de $\alpha$ mayores que $0,171$, esto es, para un contraste más «exigente» que eso, sí tendríamos que rechazar la hipótesis fundamental.


* * *


(b)
Si el tamaño muestral $n$ aumenta, entonces el intervalo de aceptación se estrecha (se reduce el error $E$, que es la amplitud de dicho intervalo), por tanto, a partir de un cierto valor de $n$, la proporción medida en la muestra caerá fuera del intervalo de aceptación (se situará en la zona de rechazo de la hipótesis fundamental), con lo cual, no podremos seguir dando apoyo a la hipótesis fundamental, debiendo aceptar la h. alternativa, y por consiguiente hay que concluir, en ese caso, que la proporción en la población no es del $60\,\%$. Veamos cuánto debe ser el valor mínimo de $n$ para que eso ocurra:

Por lo dicho anteriormente, para poder rechazar $H_0$, deberá cumplirse (condición crítica) que $\left|\hat{p}-p_0\right| = E$; por lo que imponiendo esta condición, $$0{,}65-0{,}60=1{,}96 \cdot \sqrt{0{,}6\cdot (1-0{,}6)/n}$$ es decir
$$0{,}05=1{,}96 \cdot \sqrt{0{,}6\cdot (1-0{,}6)/n}$$ elevando al cuadrado y despejando $n$ llegamos a $$n=\dfrac{0{,}6\cdot 0{,}4}{(0{,}05/1{,}96)^2} \approx 368$$

Con lo cual, para tamaños muestrales $n \ge 368$, tendremos que rechazar la hipótesis fundamental (a nivel de significación $\alpha=0{,}05 $). $\square$
- - -

Referencias:
  [1] Compta, A., et. al., Matemàtiques II, Barcanova, Barcelona, 1993
  [2] Guàrdia, J.; Viader, M., Estadística, Castellnou, Barcelona, 1999
  [3] García Pérez, A., Estadística Básica con R, UNED, Madrid, 2010
  [4] Allepús, J., et. al., Exercicis d'inferència estadística, Cossetània, Valls, 2002
  [5] Gonick, L.; Smith, W, La Estadística en Cómic, Zendrera Zariquiey, Barcelona, 1999

Cálculo de límites de sucesiones

Enunciado:
Calcúlese el siguiente límite:
    $\displaystyle \lim_{n \rightarrow \infty}\,\dfrac{2^{n+1}+3^{n+1}}{2^{n}+3^{n}}$


Resolución:
Podemos simplificar algo la expresión de la forma
    $\displaystyle \lim_{n \rightarrow \infty}\,\dfrac{2^{n+1}+3^{n+1}}{2^{n}+3^{n}}=\displaystyle \lim_{n \rightarrow \infty}\,\dfrac{2\cdot 2^{n}+3\cdot 3^{n}}{2^{n}+3^{n}}$

Observemos que al pasar al límite nos encontramos con una indeterminación del tipo $\infty / \infty$
Para resolverla dividiremos el numerador y el denominador por $3^{n}$. Con ello tendremos
    $\displaystyle \lim_{n \rightarrow \infty}\,\dfrac{2^{n+1}+3^{n+1}}{2^{n}+3^{n}}=\lim_{n \rightarrow \infty}\,\dfrac{2\,\big(\frac{2}{3}\big)^n+3}{\big(\frac{2}{3}\big)^n+1}$
Y, puesto que la base de las potencias es menor que $1$, volviendo a pasar al límite obtenemos el resultado:
$$\dfrac{2\cdot (2/3)^\infty+3}{(2/3)^{\infty}+1}\overset{2/3 \lt 1}{=}\dfrac{2\cdot 0+3}{0+1}=3$$
$\square$

lunes, 15 de febrero de 2021

Primer Teorema Fundamental del Cálculo

Primer teorema fundamental del cálculo

Dada una función $f(x)$ continua -- siendo continua es integrable -- en el intervalo $\left[a,b\right]$, la función integral ( o función primitiva de $f(x)$ )

$\displaystyle F(x)=\int_{a}^{x} \, f(t)\,dt$

cumple que

$F^{'}(x)=f(x)$

Observación:
  . No todas las funciones tienen primitiva
  . Toda función continua tiene primitiva

Demostración:
Según la definición analítica de derivada de una función, podemos escribir
$$\displaystyle F'(x)=\lim_{\Delta x \rightarrow 0}\Big( \dfrac{F(x+\Delta x) - F(x)}{\Delta x}\Big)$$

Estudiemos el cociente incremental que representa el argumento del límite que define la derivada de $F'(x)$, teniendo en cuenta la hipótesis del teorema:
$$\displaystyle \dfrac{ \int_{a}^{x + \Delta x} \, f(x)dx - \int_{a}^{x}\, f(x)dx }{\Delta x} = \dfrac{\int_{a}^{\Delta x}\,f(x)dx }{\Delta x}$$
Ahora bien, el numerador de esta expresión está acotado entre
$$f(x) \, \Delta x \quad \text{y} \quad f(x + \Delta x) \, \Delta x$$
y estas cotas respresentan las áreas de los rectángulos, que son respectivament, menor y mayor que él área por debajo del trozo de curva que da significado significado geométrico de la integral, es claro que, al pasar al límite cuando $ \Delta x \rightarrow 0$, se obtiene $F'(x) = f(x)$

$\square$

Segundo Teorema Fundamental del Cálculo

Segundo teorema fundamental del cálculo ( conocido como regla de Newton-Leibniz y, también, como regla de Barrow )

Sea una función primitiva, $F(x)$, de $f(x)$, y siendo $f(x) \ge 0 \quad \forall x \in \left[a,b \right]$, el valor de la integral definida, entre las abscisas $x=a$ i $x=b$ ( a los que llamamos límites de integración), es igual a $F(b)-F(a)$, es decir $$\displaystyle \int_{a}^{b} \, f(x)\,dx = F(b)-F(a)$$

Demostración:
Supongamos que $F(x)$ és una funció integral ( primitiva ) de $f(x)$ (Primer Teorema Fundamental del Cálculo ). Supongamos ahora que $G(x)$ es otra primitiva de $f(x)$, entonces tendrá que cumplirse que $$F(x)=G(x)+C \quad (1)$$ donde $C$ es una constante.

En consecuencia $$F(a)=G(a)+C \quad (2)$$

Por otra parte, y de acuerdo con la definición de función primitiva de $f$,

$$F(x)=\int_{a}^{x} \, f(t) \, dt$$

es obvio que $F(a)=0$, con lo cual, de (2), deducimos que $C=-G(a)$

Sustituyendo el valor de $C$ en la expresión (1), encontramos $F(x)=G(x)-G(a)$ y, según el significado de función primitiva, vemos que el valor de la integral definida entre los límites de integración $a$ (límite inferior) i $b$ (límite superior) es igual a

$$\displaystyle \int_{a}^{b} \, f(x) \, dx = G(b)-G(a)=F(b)-C - ( F(a) - C ) = F(b) - F(a)$$

valor que, en la literatura, suele expresarse de la forma

$$\displaystyle \int_{a}^{b} \, f(x) \, dx =\left[ F(x) \right]_{a}^{b}$$
$\square$

sábado, 6 de febrero de 2021

Un ejercicio de mínimos acerca del diseño de las latas de los refrescos

ENUNCIADO
Se quiere fabricar un bote cilíndrico con chapa de aluminio que tenga una capacidad de 1/3 de litro. Calcúlese el valor del radio de la base y el de la longitud de la generatriz para que la cantidad de chapa requerida sea mínima.

SOLUCIÓN
Denotempos por $x$ el radio del cilindro. Entonces $1/3=\pi\,x^2\,h$, donde $h$ es la altura. Así, $h=\dfrac{1}{3\,\pi\,x^2} \quad \quad (1)$. Designemos por $f(x)$ la función que proporciona el área total del cilindro ( dos veces el área de la base - hay dos tapas - más el área lateral, que es la de un rectángulo - ), por lo que podemos escribir $f(x)=2\pi\,x \cdot \dfrac{1}{3\,\pi\,x^2}+2\,\pi\,x^2$, esto es, $f(x)=\dfrac{2}{3x}+2\,\pi\,x^2$. Imponiendo la condición necesaria de existencia de extremos relativos, $f'(x)=0$, nos encontramos con la ecuación $-\dfrac{2}{3x^2}+4\,\pi\,x=0$, es decir, $\dfrac{12\,\pi\,x^3-2}{3x^2}=0 \Leftrightarrow 12\,\pi\,x^3-2=0 \Rightarrow x^{*}=\dfrac{1}{\sqrt[3]{6\,\pi}}\,\text{dm}=\dfrac{100}{{\sqrt[3]{6\,\pi}}}\,\text{mm}\approx 37,6\,\text{mm}$. Se comprueba que este extremo relativo corresponde a un mínimo relativo, pues la primera derivada en un punto próximo a su izquierda es negativa, y a su derecha es positiva. El valor de $h^{*}$ lo calculamos sustituyendo la abcsisa del extremo relativo en (1), y, al simplificar el resultado, encontramos $h^{*}=\sqrt[3]{\dfrac{4}{3\,\pi}}=\sqrt[3]{\dfrac{8}{6\,\pi}}= \dfrac{2}{\sqrt[3]{6\,\pi}}=2\,r^{*} \approx 75,2\,\text{mm}$, dimensiones que se alejan notablemente de las de una lata de refresco ( de las habituales ); acaso, es por razones de márqueting a la hora de venderlas. ¿ No sería mejor ahorrar en chapa de aluminio ?. Yo creo que sí. Incluso sería mucho mejor utilizar envases de vidrio reutilizables ( botellas ). ¿ No os parece ?. $\square$