viernes, 31 de enero de 2014

Contraste de hipótesis basados en diseños experimentales a doble ciego.

Enunciado:
En un estudio mencionado en ( Gonick, 1999 ) sobre la eficacia que tenía el consumo regular de aspirina durante varios años en la prevención del infarto, se pidió la colaboración de voluntarios ( que no presentasen factores de riesgo conocidos ) para realizar un experimento a doble ciego y se ofrecieron $22071$ individuos, todos ellos médicos. Con tal propósito, se formó un grupo de control, seleccionando de forma aleatoria e independiente a $11034$ individuos, a los cuales se les suministró placebo durante todo el experimento ( sin saber sus integrantes si se les trataba con placebo o bien con aspirina ), y un grupo de prueba, con los restantes voluntarios a los cuales se les suministró aspirina ( desconociendo todos ellos si se trataba de aspirina o bien de placebo ). Habiendo concluido el experimento, se observó que en el grupo de control se dieron $239$ infartos y que en el grupo de prueba hubo $139$ infartos. ¿ Se puede afirmar, a nivel de significación del $5\,\%$, que el consumo de aspirina ayuda a prevenir el infarto ?.

Resolución:
Calculando las proporciones de incidencia de infartos en ambas muestras ( se entiende que cada grupo es una muestra de la población respectiva ) encontramos las siguientes proporciones muestrales. Para el grupo de control: $\hat{p_{1}}=\dfrac{239}{11034}=0'0217$ ( tamaño muestral $n_1=11034$ ), y para el grupo de prueba: $\hat{p_{2}}=\dfrac{139}{11037}=0'0126$ ( tamaño muestral del grupo de prueba: $n_2=11037$ )

Es razonable pensar que de no haber diferencias significativas en los resultados de ambos grupos, la diferencia de proporciones ( poblacionales ), $p_1-p_2$, debería ser cero ( hipótesis estándar ), por lo que planteamos un contraste bilateral de la hipótesis nula ( estándar ) $H_0:\,p_1-p_2 = (p_1-p_2)_0$ con $(p_1-p_2)=0$, frente a la hipótesis alternativa $H_1:\,p_1-p_2 \neq 0$, siendo el estadístico del contraste
$$\dfrac{(\hat{p_{1}}-\hat{p_{2}})-(\mu_1-\mu_2)}{\sigma(\hat{p_1}-\hat{p_2})} \approx N(0,1)$$ por tratarse de muestras grandes
donde la desviación del estimador $\sigma(\hat{p_1}-\hat{p_2})$ es igual a $\sqrt{\sigma^{2}(\hat{p_1})+\sigma^{2}(\hat{p_2})}$ y, por tanto, igual a $\sqrt{\dfrac{\hat{p_1}\,(1-\hat{p_1})}{n_1}+\dfrac{\hat{p_2}\,(1-\hat{p_2})}{n_2}}$

En este tipo de test ( bilateral ), recordemos que aceptamos $H_0$ si $\dfrac{|(\hat{p_1}-\hat{p_2})-(p_1-p_2)_0|}{\sigma(\hat{p_1}-\hat{p_2})} \le z_{\alpha / 2}$, es decir, en nuestro caso, si $\dfrac{|(\hat{p_1}-\hat{p_2)}-0|}{\sigma(\hat{p_1}-\hat{p_2})} \le z_{\alpha /2}$, donde $z_{\alpha / 2}$ ( valor que da los dos puntos críticos, esto es, los extremos del intervalo de aceptación de $H_0$ ) se obtienen de la tabla $ Z \sim N(0,1)$, pues $z_{\alpha / 2}$ es la abscisa de la función de densidad, $f(z)$, que deja a su derecha, bajo la curva un área ( probabilidad ) de $\alpha / 2$. En el caso que nos ocupa, $z_{\alpha / 2}=z_{ 0'05 / 2}= z_{0'025}=1'96$.

Calculemos pues el valor observado del estadístico:
$\dfrac{|0'0217-0'0126|}{\sqrt{\dfrac{0'0217\,(1-0'0217)}{11034}+\dfrac{0'0126\,(1-0'0126)}{11037}}}\approx 5'21 \nleqslant z_{0'025}=1'96$
luego decidimos rechazar $H_0$. Observemos, además, que el intervalo de aceptación de $H_0$ es $C^{*}=[\; (p_1-p_2)_0-z_{\alpha / 2} \cdot \sigma(\hat{p_1}-\hat{p_2}) \,,\,(p_1-p_2)_0+z_{\alpha / 2} \cdot \sigma(\hat{p_1}-\hat{p_2})\;]$
y, por tanto, en nuestro caso, $C^{*}=[\;-z_{\alpha / 2} \cdot \sigma(\hat{p_1}-\hat{p_2}) \,,\,z_{\alpha / 2} \cdot \sigma(\hat{p_1}-\hat{p_2})\;]$, que con los datos del problema es, en concreto, $C^{*}=[\; 0'0057 \,,\, 0'0125\;] $ con lo cual vemos que $0 \notin C^{*}$ ( que confirma la conclusión ); por otra parte, al ser $\hat{p_{1}}_{\text{observado}} \succ \hat{p_{2}}_{\text{observado}}$ ( pues es mayor la proporción de infartos en el grupo tratado con placebo que la proporción de infartos tratado con aspirina ), podemos concluir que, a nivel de significación del $5\,%$, el consumo de aspirina ayuda a prevenir el infarto.

Observación:     Con más precisión que operando con un valor prefijado del nivel de significación, podemos proceder a calcular el menor nivel de significación $\alpha$ con que se rechazaría la hipótesis nula, esto es, el p-valor, que representa la probabilidad observada ( dado el valor observado del estadístico de contraste ) de rechazar $H_0$ siendo ésta cierta, es decir, el error de tipo I observado, esto es, $\text{p-valor}:=P\{|Z| \ge z_{\text{observado}}\;|\;H_0 \, \text{cierta}\}$. Calculando pues el p-valor encontramos
$P\{|Z|\ge 5'21 \;|\;H_0\} = 10^{-7}$, probabilidad muy pequeña y, por tanto, una prueba definitiva en contra de $H_0$.

Referencias:    

- - -

Referencias:
  [1] Compta, A., et. al., Matemàtiques II, Barcanova, Barcelona, 1993
  [2] Guàrdia, J.; Viader, M., Estadística, Castellnou, Barcelona, 1999
  [3] García Pérez, A., Estadística Básica con R, UNED, Madrid, 2010
  [4] Allepús, J., et. al., Exercicis d'inferència estadística, Cossetània, Valls, 2002
  [5] Gonick, L.; Smith, W, La Estadística en Cómic, Zendrera Zariquiey, Barcelona, 1999


jueves, 30 de enero de 2014

Contraste de hipótesis bilateral sobre la diferencia de medias de dos poblaciones con distribución normal

Enunciado:
Dos laboratorios farmacéuticos fabrican sendos somníferos, $A$ y $B$. Se puede tratar a los pacientes aquejados de insomnio con uno u otro medicamento. Al objeto de comparar la efectividad de estos medicamentos, se toman una muestra de $80$ pacientes de la población tratada con $A$ y otra muestra de $100$ pacientes de la población tratada con $B$. Sabemos ( por otros estudios ) que el número de horas de sueño en los pacientes de insomnio se distribuye de forma aproximadamente normal, y se observa, al final de los dos tratamientos ( con la misma dosificación y la misma duración ), que el número medio de horas de sueño en la muestra de pacientes tratados con $A$ es de $7'84$ horas con una desviación típica de $0'90$ horas, y que el número medio de horas de sueño en la muestra de pacientes tratados con $B$ es de $6'90$ horas con desviación típica de $1'30$ horas. ¿ Se pude decir, a nivel de significación del $5\,\%$, que hay diferencias significativas en la eficacia de los medicamentos $A$ y $B$ ?.

Resolución:
Si no hay diferencias significativas en los resultados de los dos tratamientos, no las habrá entre las medias poblacionales respectivas y, por tanto, parece razonable plantear el siguiente contraste de hipótesis bilateral: $H_0:\,\mu_1-\mu_2 = (\mu_1-\mu_2)_0$, siendo $(\mu_1-\mu_2)_0=0$ ( hipótesis nula o estándar/fundamental ) frente a $H_1:\,\mu_1-\mu_2 \neq 0$ ( hipótesis alternativa ), donde $\mu_1$ y $\mu_2$ son las medias de las respectivas poblaciones ( población de todos los pacientes tratados con el medicamento $A$ y con el medicamento $B$, respectivamente ), siendo el estadístico del muestreo: $\dfrac{(\overline{x_1}-\overline{x_2})-(\mu_1-\mu_2)}{\sqrt{\dfrac{\sigma_{1}^{2}}{n_1}+\dfrac{\sigma_{2}^{2}}{n_2}}} \approx N(0,1)$

Como datos, disponemos de: las medias muestrales, las desviaciones típicas de ambas muestras, y los tamaños muestrales: $\overline{x_1}=7'84$, $\overline{x_2}=6'90$, $\sigma_1=0'90$, $\sigma_2=1'30$, $n_1=80$, $n_2=100$.

De acuerdo con lo explicado en un artículo anterior, decidiremos aceptar $H_0$ a nivel de significación $\alpha$ si el valor observado del estadístico $\dfrac{|(\overline{x_1}-\overline{x_2})-0|}{\sqrt{\dfrac{\sigma_{1}^{2}}{n_1}+\dfrac{\sigma_{2}^{2}}{n_2}}} \le z_{\alpha / 2}$ por ser el intervalo de aceptación de la hipótesis de la hipótesis nula: $$C^{*}=[ \; (\mu_1-\mu_2)_0-z_{\alpha / 2} \cdot {\sqrt{\dfrac{\sigma_{1}^{2}}{n_1}+\dfrac{\sigma_{2}^{2}}{n_2}}} \;,\; (\mu_1-\mu_2)_0+z_{\alpha / 2}\cdot {\sqrt{\dfrac{\sigma_{1}^{2}}{n_1}+\dfrac{\sigma_{2}^{2}}{n_2}}} \; ]$$
es decir
$$C^{*}=[ \; 0-z_{\alpha / 2} \cdot {\sqrt{\dfrac{\sigma_{1}^{2}}{n_1}+\dfrac{\sigma_{2}^{2}}{n_2}}} \;,\; 0+z_{\alpha / 2}\cdot {\sqrt{\dfrac{\sigma_{1}^{2}}{n_1}+\dfrac{\sigma_{2}^{2}}{n_2}}} \; ]$$
y caer entonces dicho valor observado en $C^{*}$; en caso contrario, decidiremos rechazar $H_0$, aceptando por tanto $H_1$.

De las tablas $Z \sim N(0,1)$ encontramos el valor crítico $z_{\alpha /2}=z_{0'05 / 2}=z_{0'025}=1'96$ ( abscisa que deja a su derecha el $\alpha \cdot 100 \, \%$ de la la distribución de probabilidad ). Veamos pues si se cumple la condición de aceptación de $H_0$: $\dfrac{|(7'84-6'90)-0|}{\sqrt{\dfrac{0'90^{2}}{80}+\dfrac{1'30^{2}}{100}}}\approx 5'72 \nleqslant z_{0'025}=1'96$, luego rechazamos $H_0$ a nivel de significación $\alpha=0'05$; esto es: concluimos que hay diferencias significativas en la eficacia de los dos medicamentos, a nivel de significación $\alpha=0'05$.

$\square$



[nota del autor]

martes, 28 de enero de 2014

Contraste de hipótesis bilateral y contrastes unilaterales con estadísticos que tienen una distribución normal o aproximadamente normal

En lo que sigue, supondremos que el estadístico $\hat{\theta}$ - que es una variable aleatoria con la cual planteamos los contrastes de hipótesis y con el que podemos estimar el valor del parámetro $\theta$ de la varibale $X$ en estudio de la población a partir de un muestreo aleatorio simple - tiene una distribución en el muestreo $N(\theta\,,\,\sigma(\hat{\theta}))$, es decir es una distribución normal o aproximadamente normal, y, por tanto, su variable tipificada es $(\hat{\theta} - \theta) / \sigma(\hat{\theta}) \approx N(0,1)$.

En todo contraste, nos proponemos caracterizar los intervalos de aceptación y rechazo de una hipótesis estándar ( que denominamos hipótesis nula ), $H_0$, frente a una hipótesis alternativa, $H_1$, donde supondremos que una y otra se formulan a partir de un valor supuesto $\theta_0$ del parámetro $\theta$ de la variable aleatoria de la población. Ésto se hará suponiendo un coeficiente de confianza de $1-\alpha$ y, por tant, con un coeficiente de singificación $\alpha$.

Una vez hayamos establecido los valores críticos del estadístico que determinan dichos intervalos, decidiremos aceptar la hipótesis nula si el valor observado del estadístico en la muestra seleccionada cae dentro del intervalo de aceptación de dicha hipótesis, y la rechazaremos si cae fuera del mismo.

Según la disposición ( en la recta numérica en la que representamos los valores del estadístico ) de las zonas/intervalos de aceptación y rechazo de la hipótesis nula, describiremos a continuación los tres casos posibles que pueden aparecer, que denominaremos: test bilateral; test unilateral derecho; o bien, test unilateral izquierdo. Para ello, deberemos encontrar los puntos críticos ( puntos de separación de dichas zonas/intervalos ), por tanto describiremos también la condición que se debe cumplir para tomar la decisión de aceptar ( respectivamente, rechazar ) la hipótesis nula de acuerdo con la ubicación del valor observado del estadístico ( medido en la muestra seleccionada ) dentro ( o fuera ) de la zona de aceptación de la hipótesis nula.

Test bilateral a nivel de significación $\alpha$
    Dado un valor supuesto, $\theta_0$, del parámetro $\theta$ de la población ( que es desconocido ), consideremos el siguiente contraste de la hipótesis nula ( fundamental o estándar ) $H_{0}:\,\theta=\theta_0$ frente a la hipótesis alternativa $H_{1}:\,\theta \neq \theta_0$.

El intervalo de aceptación de la hipótesis nula será tal que $\theta_0 - c \le \hat{\theta} \le \theta_0 + c$ con un nivel de confianza $1-\alpha$, donde $c$ es un número real que dependerá del margen de error de la estimación. Como queremos determinar dicho intervalo el objetivo es, precisamente, obtener el valor de $c$ a nivel de significación $\alpha$ ( o en otras palabras, con un nivel de confianza $1-\alpha$ ). Entonces, si se cumple la hipótesis nula a nivel de confianza $1-\alpha$ podremos expresarlo de la siguiente forma:
    $P\{\theta_0 - c \le \hat{\theta} \le \theta_0 + c\}=1-\alpha$
que es lo mismo que
    $P\{\theta_0 - c - \theta_0 \le \hat{\theta} - \theta_0 \le \theta_0 + c - \theta_0\}=1-\alpha$
es decir
    $P\{- c \le \hat{\theta} - \theta_0 \le c \}=1-\alpha$
y, dividiendo por la desviación típica del estadístico en cada miembro de la doble desigualdad del argumento de la probabilidad, podemos también escribir
    $P\{\dfrac{- c}{\sigma({\hat{\theta}})} \le \dfrac{\hat{\theta} - \theta_0}{\sigma({\hat{\theta}})} \le \dfrac{c}{\sigma({\hat{\theta}})}\}=1-\alpha$
y por la tipificación de la variable aleatoria del estadístico $\hat{\theta}$:
    $Z:=\dfrac{\hat{\theta} - \theta_0}{\sigma({\hat{\theta}})} \approx N(0,1)$
podemos expresar la última línea de la forma
    $P\{\dfrac{- c}{\sigma({\hat{\theta}})} \le Z \le \dfrac{c}{\sigma({\hat{\theta}})}\}=1-\alpha$
y operando con la d. normal se obtiene
    $P\{Z \ge \dfrac{c}{\sigma({\hat{\theta}})}\}=\alpha / 2$
denotando por $z_{\alpha /2}$ a la abscisa de la función de densidad de probabilidad $f(z)$ que deja a su derecha el $(\alpha / 2)\cdot 100 \, \% $ de probabilidad ( valor que encontramos en las tablas de $Z \sim N(0,1)$, podemos escribir
    $P\{ Z \ge z_{\alpha / 2} \}=\alpha / 2$
y por tanto, al ser
    $z_{\alpha / 2} = \dfrac{c}{\sigma({\hat{\theta}})}$
obtenemos el valor de $c$
    $c=z_{\alpha / 2} \cdot \sigma({\hat{\theta}})$
Con lo cual, los valores críticos ( extremos del intervalo de aceptación de $H_0$ ) son
    $\theta_0-z_{\alpha / 2} \cdot \sigma({\hat{\theta}})$
y
    $\theta_0+z_{\alpha / 2} \cdot \sigma({\hat{\theta}})$
respectivamente.

Es decir, el intervalo de aceptación de $H_0$, que denotamos por $C^{*}$, es
    $C^{*}=[\;\theta_0-z_{\alpha / 2} \cdot \sigma({\hat{\theta}})\,,\,\theta_0+z_{\alpha / 2} \cdot \sigma({\hat{\theta}})\;]$

Por tanto, si el valor observado del estimador de $\theta$, $\hat{\theta}$, en la muestra seleccionada pertenece a $C^{*}$, decidiremos aceptar $H_0$ a un nivel de significación $\alpha$. En otras palabras, aceptaremos $H_0$ si $\dfrac{|\hat{\theta}_{\text{observado}}-\theta_0|}{\sigma(\hat{\theta})} \le z_{\alpha / 2}$; en caso contrario, rechazaremos $H_0$, aceptando la hipótesis alternativa $H_1$.

Test unilateral a la izquierda a nivel de significación $\alpha$
Sea el siguiente contraste de hipótesis:
$H_0:\,\theta \le \theta_0$ ( hipótesis nula ) frente a $H_1:\,\theta \succ \theta_0$ ( hipótesis alternativa ).
Aceptamos $H_0$ a nivel de significación $\alpha$ - esto es, a nivel de confianza $1-\alpha$ - si $P\{\hat{\theta} \le \theta_0-c\}=1-\alpha$, es decir, si $P\{\dfrac{\theta-\theta_0}{\sigma(\hat{\theta})} \le -\dfrac{c}{\sigma(\hat{\theta})} \}=1-\alpha \Leftrightarrow P\{\dfrac{\theta-\theta_0}{\sigma(\hat{\theta})} \ge -\dfrac{c}{\sigma(\hat{\theta})} \}=\alpha$ siendo $-\dfrac{c}{\sigma(\hat{\theta})}$ el punto crítico $z_{\alpha}$ ( que es la abscisa de $f(z)$ que deja a su derecha el $\alpha \cdot 100 \, \%$ de la distribución ) y que obtenemos de las tablas $Z \sim N(0,1)$.

Por tanto, el intervalo de aceptación de $H_0$ es $C^{*}=(-\infty \,,\, \theta_0-(-z_{\alpha} \cdot \sigma(\hat{\theta})\,]$, es decir, $C^{*}=(-\infty \,,\, \theta_0+z_{\alpha} \cdot \sigma(\hat{\theta}\,]$. Luego, si $\hat{\theta}_{\text{observado}} \in C^{*}$, entonces aceptaremos $H_0$; o lo que es lo mismo, aceptamos $H_0$ si el valor del estadístico en su variable tipificada es tal que $\dfrac{\hat{\theta}_{\text{observado}}-\theta_0}{\sigma(\hat{\theta})} \le z_{\alpha}$; en caso contrario, rechazaremos $H_0$, aceptando la hipótesis alternativa $H_1$.


Test unilateral a la derecha a nivel de significación $\alpha$
Sea el siguiente contraste de hipótesis:
$H_0:\,\theta \ge \theta_0$ ( hipótesis nula ) frente a $H_1:\,\theta \prec \theta_0$ ( hipótesis alternativa ).
Aceptamos $H_0$ a nivel de significación $\alpha$ - esto es, a nivel de confianza $1-\alpha$ - si $P\{\hat{\theta} \ge \theta_0+c\}=1-\alpha$, es decir, si $P\{\dfrac{\theta-\theta_0}{\sigma(\hat{\theta})} \ge \dfrac{c}{\sigma(\hat{\theta})} \}=1-\alpha$, siendo $\dfrac{c}{\sigma(\hat{\theta})}$ el punto crítico $z_{1-\alpha}$ ( que es la abscisa de $f(z)$ que deja a su derecha el $\alpha \cdot 100 \, \%$ de la distribución ) y que obtenemos de las tablas $Z \sim N(0,1)$.

Por tanto, el intervalo de aceptación de $H_0$ es $C^{*}=[\,\theta_0+z_{\alpha} \cdot \sigma(\hat{\theta})\,,\,\infty\,)$. Luego, si $\hat{\theta}_{\text{observado}} \in C^{*}$, entonces aceptaremos $H_0$; en otras palabras, aceptamos $H_0$ si el valor del estadístico en su variable tipificada es tal que $\dfrac{\hat{\theta}_{\text{observado}}-\theta_0}{\sigma(\hat{\theta})} \ge z_{1-\alpha}$; en caso contrario, rechazaremos $H_0$, aceptando la hipótesis alternativa $H_1$.

$\square$


- - -

Referencias:
  [1] Compta, A., et. al., Matemàtiques II, Barcanova, Barcelona, 1993
  [2] Guàrdia, J.; Viader, M., Estadística, Castellnou, Barcelona, 1999
  [3] García Pérez, A., Estadística Básica con R, UNED, Madrid, 2010
  [4] Allepús, J., et. al., Exercicis d'inferència estadística, Cossetània, Valls, 2002
  [5] Gonick, L.; Smith, W, La Estadística en Cómic, Zendrera Zariquiey, Barcelona, 1999

lunes, 27 de enero de 2014

Contraste de hipótesis. Conceptos básicos.

Dado el contraste de hipótesis $H_0$ ( hipótesis nula, que se toma como hipótesis estándar ) frente a $H_1$ ( hipótesis alternativa ), y dado un estadístico ( que es una variable aleatoria dependiente de las variables aleatorias del muestreo aleatorio simple ) $X_1,\ldots,X_n$, y un valor observado de éste en la muestra, es importante recordar los conceptos básicos que aparecen en escena en cualquier problema de contraste de dichas hipótesis a partir de la inferencia de parámetros de la población (mediante la distribución de probabilidad del estadístico del contraste) y del valor del mismo observado en la muestra seleccionada. Son los siguientes:

  • Error de tipo I:

    Se define como la siguiente probabilidad
    $\text{Error de tipo I}:=P( \text{rechazar} \; H_0 \; | \; H_0 \; \text{cierta} )$
        Un valor fijado de antemano para dicha probabilidad, pongamos que del $0'01$ o del $0'05$ ( pues debe ser pequeña para no rechazar sin razón suficiente la hipótesis estándar o nula ), se denota por $\alpha$ y se denomina coeficiente de significación del test. El nivel de significación observado o la probabilidad observada en la muestra de rechazar la hipótesis nula siendo ésta cierta se conoce como p-valor, y representa el menor coeficiente de significación, $\alpha$, con el que poder rechazar la hipótesis nula.

  • Nivel de confianza del contraste:

    Se define como la siguiente probabilidad
    $P( \text{aceptar} \; H_0 \; | \; H_0 \; \text{cierta} )=1-P( \text{rechazar} \; H_0 \; | \; H_0 \; \text{cierta} )$
        Por lo tanto, fijado de antemano el coeficiente de significación, $\alpha$, del test, entonces el coeficiente de confianza es el complemento a $1$ del mismo, es decir, $1-\alpha$; así, si, por ejemplo, el coeficiente de significación del test es de $0'01$, el coeficiente de confianza es de $0'99$.

  • Error de tipo II:

    Se define como la siguiente probabilidad y se suele denotar por el símbolo $\beta$
    $\beta:=P( \text{aceptar} \; H_0 \; | \; H_0 \; \text{falsa} )$
       

  • Potencia del test (o del contraste):

    Se define como la probabilidad
    $\text{Potencia del contraste}:=P( \text{rechazar} \; H_0 \; | \; H_0 \; \text{falsa} )$
          $=1-P( \text{aceptar} \; H_0 \; | \; H_0 \; \text{falsa} )=1-\beta$
        Dada su definición, es evidente que es deseable que el test de contraste tenga un potencia alta, pongamos que mayor que $0'9$.



- - -

Referencias:
  [1] Compta, A., et. al., Matemàtiques II, Barcanova, Barcelona, 1993
  [2] Guàrdia, J.; Viader, M., Estadística, Castellnou, Barcelona, 1999
  [3] García Pérez, A., Estadística Básica con R, UNED, Madrid, 2010
  [4] Allepús, J., et. al., Exercicis d'inferència estadística, Cossetània, Valls, 2002
  [5] Gonick, L.; Smith, W, La Estadística en Cómic, Zendrera Zariquiey, Barcelona, 1999

Contraste de hipótesis unilateral para la proproción de una población con muestras grandes

Enunciado:
Una empresa afirma que que, como máximo, el $6\,\%$ de los aparatos que fabrica son defectuosos. Se eligieron $300$ aparatos al azar y se encontró que $21$ de éstos eran defectuosos. Con un nivel de significación del $1\,\%$, ¿ se puede aceptar la afirmación de la marca ?.

Resolución:
Sea $p$ la proporción de aparatos defectuosos en la población, que tiene una distribución de probabilidad $B(1,p)$. Se plantea el contraste de la hipótesis nula $H_0:\,p \le p_0$ frente a la hipótesis alternativa $H_1:\,p \succ p_0$, donde $p_0$ representa la proporción enunciada por la empresa, es decir, $p_0=0'06$, y $\hat{p}$ denota el valor del estimador de la proporción de la poblacion, $p$, observado en la muestra seleccionada.

Tratándose de una muestra grande ( Teorema Central del Límite ), el estadístico del contraste es $\hat{P}$ tiene una distribución en el muestreo del tipo
    $\hat{P} \approx N(p_0\,,\,\sqrt{\dfrac{p_0\,(1-p_0)}{n}}$
y su variable tipificada es, por tanto,
    $Z \sim \dfrac{\hat{P}-p_0}{\sqrt{\dfrac{p_0\,(1-p_0)}{n}}} \approx N(0,1)$

Por todo ello, validaremos ( aceptaremos ) la hipótesis nula $H_0$ si se cumple la siguiente condición
    $P\{\hat{P} \le p_0 - c \}=1-\alpha$
( donde $c$ es proporcional al margen de error )
o lo que es lo mismo, tipificando la variable, si
    $P\{ Z \le -\dfrac{c}{\sqrt{\dfrac{p_0 \, (1-p_0)}{n}}} \}=1-\alpha \Leftrightarrow P\{ Z \ge -\dfrac{c}{\sqrt{\dfrac{p_0 \, (1-p_0)}{n}}}\} = \alpha $
que podemos expresar de la forma
    $P\{Z \ge z_{\alpha}\} = \alpha$
donde $z_{\alpha}$, que es igual a
    $-\dfrac{c}{\sqrt{\dfrac{p_0 \, (1-p_0)}{n}}}$
, corresponde a la abscisa de la función de densidad $f(z)$ de $Z \sim N(0,1)$ que deja a su derecha el $\alpha \cdot 100 \,\%$ ( respectivamente a su izquierda, el $(1-\alpha) \cdot 100 \,\%$ ) de la distribución, que podemos consultar en las tablas. En nuestro caso particular, se deberá cumplir que
    $P\{Z \ge z_{0'01}\}=0'01$
de donde obtenemos el valor crítico de la variable tipifica ( abscisa que separa la zona de aceptación de la de rechazo de $H_0$ ):
    $P\{Z \le z_{0'01}\}:=F(z_{0'01})=0'99 \underset{tablas \; de \; F(z)}{\rightarrow} z_{0'01} \approx 2'33$
luego el intervalo de aceptación para la variable tipificada $Z$ es $C^{*}=(-\infty\,,\,2'33]$

Veamos ahora si el valor del estadístico observado en la muestra cae dentro ( se aceptará $H_0$ ) o fuera ( se rechazará $H_0$ ):
    $Z_{observado}=\dfrac{0'07-0'06}{\sqrt{\dfrac{0'06\cdot (1-0'06)}{300}}} \approx 0'73 \in C^{*}$

Observación:     El intervalo de aceptación correspondiente a la variable aleatoria $\hat{p}$ es
    $C^{*}=(-\infty\,,\,p_0-z_{\alpha} \cdot \sqrt{\dfrac{p_0\,(1-p_0)}{n}}]$
        $=(-\infty\,,\,0'06-\big(- (2'33 \cdot \sqrt{\dfrac{0'06 \cdot (1-0'06)}{300}})\big)]$
        $=(-\infty\,,\,0'0919]$
y como $\hat{p}_{observado}=0'07 \in (-\infty\,,\,0'0919]$
validamos $H_0$ al caer dicho valor dentro del intervalo de aceptación de esta hipótesis

$\square$


[nota del autor]

domingo, 26 de enero de 2014

Contraste de hipótesis ( inferencias ) sobre la media de poblaciones no necesariamente normales y tamaños muestrales grandes.

Enunciado:
En el proceso de calibración de una balanza se ha pesado cien veces una pesa de prueba y se ha obtenido una media ( muestral ) de $1001\,\text{g}$ y una cuasidesviación típica de $4\,\text{g}$. A nivel de significación del $1\,\%$, ¿ podemos aceptar que la pesa de prueba sea de $1000\,\text{g}$ ?

Resolución:
Tratándose de muestras grandes y realizaciones independientes ( muestreo ) de la misma varianza, se cumplen las condiciones de validez del Teorema Central del Límite, luego podemos estimar la media poblacional mediante el estimador $\overline{x} \sim N(\mu\,,\,\sigma / \sqrt{n})$. Sin embargo, al desconocer la desviación típica, $\sigma$, de la población, empleamos con buena aproximación el estimador $\overline{x} \approx N(\mu\,,\,S / \sqrt{n})$, donde $S$ representa la cuasidesviación muestral la cual, sí tenemos como dato.

Planteamos el contraste de la hipótesis nula $H_0:\,\mu = \mu_0$, siendo $\mu_0=1000$ frente a la hipótesis alternativa $H_1:\,\mu \neq \mu_0$ ( contraste bilateral ), y por lo dicho arriba, podemos utilizar como estadístico del contraste la variable aleatoria $\overline{x}$ tipificada:
    $\dfrac{\overline{x}-\mu_0}{S/ \sqrt{n}} \approx N(0,1)$
de tal forma que aceptaremos $H_0$ si el valor observado de dicho estadístico $\overline{x}$ cae dentro del intervalo de aceptación de $H_0$, dado por
    $C^{*}=[\;\overline{x}-z_{\alpha / 2} \cdot \dfrac{S}{\sqrt{n}}\,,\,\overline{x}+z_{\alpha / 2} \cdot \dfrac{S}{\sqrt{n}} \;]$
esto es, si el valor del estadístico
    $\dfrac{\overline{x}-\mu_0}{S/ \sqrt{n}} \approx N(0,1)$
pertenece al intervalo
    $[-z_{\alpha /2}\,,\,z_{\alpha / 2}]$
donde el valor de la abscisa $z_{\alpha /2}$ es tal que
    $P\{ |Z| \ge z_{\alpha /2} \}=\alpha / 2$
( siendo $z_{\alpha / 2}$ la abscisa que deja a su derecha el $(\alpha /2)\cdot 100 \,\%$ - respectivamente a su izquierda, el $(1-\alpha /2)\cdot 100 \,\%$ - de la distribución de probabilidad )
luego, utilizando las tablas de $Z \sim N(0,1)$, encontramos que $z_{\alpha /2}=z_{0'01 /2}=z_{0'005} \approx 2'58$

Calculando el valor del estadístico para la muestra observada obtenemos
    $\dfrac{|1001-1000|}{4 / \sqrt{100}}=2'5 \in [-2'58\,,\,2'58]$
luego decidimos aceptar la hipótesis nula - aunque no con mucha fuerza, por encontrarse el valor observado del estimador muy cerca del extremo superior del intervalo -, es decir, aceptamos que "la masa de la pesa de prueba es de mil gramos", a nivel de significación $0'01$.


-oOo-

Observación (p-valor):     Calculemos, a modo de ampliación, el nivel de significación observado, al que llamamos p-valor ( el menor nivel de significación para poder rechazar la hipótesis nula, esto es, el menor valor de la probabilidad de rechazar la hipótesis nula siendo ésta cierta ), luego lo calculamos de la forma
    p-valor $:=P\{|Z|\succ z_{\alpha / 2}\,|\,H_0\}=P_{H_0}\{|Z|\succ 2'5\}=2\,P_{H_0}\{Z \succ 2'5\}$
                $\underset{\text{tablas } Z \sim N(0,1)}{=}0'0124$
valor que es ligeramente mayor que el nivel de significación impuesto de antemano, luego podemos aceptar la hipótesis nula, pero no con mucha fuerza, tal como ya se había comentado al calcular el intervalo de aceptación; ésto lo confirma. En efecto, por el significado del p-valor, es necesario que no sea pequeño ( pongamos que inferior a $0'01$ ) para poder aceptar la hipótesis nula; en nuestro caso, sobrepasa ligeramente esta cantidad.


[nota del autor]

Intervalo de confianza para la estimación de una proporción. Margen de error, coeficiente de confianza y tamaño de la muestra.

Enunciado:
Se desea realizar una encuesta entre la población mayor de edad de un determinado país, con una sola pregunta que tiene respuesta dicotómica: "sí" o "no". Si se admite un margen de error del $2\,\%$ y se fija un nivel de confianza del $95\%$ en la estimación de la proporción $p$, ¿ cuál debes ser el tamaño mínimo de la muestra ?.

Resolución:
La característica de la población en estudio corresponde a una variable aleatoria $X$ que tiene distribución de Bernoulli $B(1,p)$, siendo $p$ la proporción de una de las dos tendencias, digamos que del "sí". Para el caso de muestras grandes, la variable aleatoria del estimador $\hat{p}$ tiene una distribución en el muestreo
    $\hat{p} \approx N(p\,,\,\sqrt{\dfrac{p\,(1-p)}{n}}$
luego hemos visto con anterioridad que el intervalo de confianza de $p$ viene dado por
    $I=[\;\hat{p}-z_{\alpha / 2 } \cdot \sqrt{\dfrac{\hat{p}\,(1-\hat{p})}{n}}\;,\;\hat{p}+z_{\alpha / 2 } \cdot \sqrt{\dfrac{\hat{p}\,(1-\hat{p})}{n}}\;]$
siendo el marge de error
    $z_{\alpha / 2 } \cdot \sqrt{\dfrac{\hat{p}\,(1-\hat{p})}{n}}$

Como no contamos con el valor de $\hat{p}$, supondremos que éste es igual a $0'5$, que es la situación equilibrada en el resultado de la encuesta, para la cual el tamaño de la muestra alcanza una cota superior; entonces la cantidad
    $\sqrt{\dfrac{\hat{p}\,(1-\hat{p})}{n}}$
es, en este caso
    $\sqrt{\dfrac{0'5 \cdot 0'5}{n}}$
es decir
    $\dfrac{0'5}{\sqrt{n}}$



Entonces, imponiendo el requerimiento del enunciado
    $z_{\alpha / 2 } \cdot \sqrt{\dfrac{\hat{p}\,(1-\hat{p})}{n}} \prec 0'02$
esto es
    $z_{\alpha / 2 } \cdot \dfrac{0'5}{\sqrt{n}} \prec 0'02$
y, por las tablas de la distribución normal $N(0,1)$ sabemos que
    $P\{Z \ge z_{\alpha / 2}\} = \alpha / 2 \Rightarrow z_{\alpha /2} = 1'96$
la desigualdad a resolver queda
    $1'96 \cdot \dfrac{0'5}{\sqrt{n}} \prec 0'02 $
y de aquí
    $\sqrt{n} \succ \dfrac{1'96 \cdot 0'5}{0'02}$
y elevando al cuadrado en ambos miembros de la desigualdad
    $n \succ \bigg(\dfrac{1'96 \cdot 0'5}{0'02}\bigg)^2 = 2401$

$\square$




[nota del autor]

Contraste de hipótesis sobre una proporción. Cálculo del p-valor (ampliación). Error de tipo I y error de tipo II. Potencia del contraste (ampliación).

Enunciado:
Se sabe que, hace un cierto tiempo, el $52\,\%$ de los ciudadanos estaban en contra de una cierta ley. Recientemente, se ha elaborado una encuesta a $400$ ciudadanos ( muestra aleatoria simple ), y se observó que $184$ de los mismos se mostraban contrarios a dicha ley. ¿ Puede afirmarse, con un coeficiente de significación del $0'01$, que la proporción de los ciudadanos ( en la población ) ha disminuido ?

Resolución:
De acuerdo con los datos, parece razonable plantear el contraste contraste de hipótesis unilateral:
    $H_0:\, p \ge p_0$ ( hipótesis nula o hipótesis estándar: se mantiene la misma situación, esto es: "la proporción de resultados en contra de dicha ley se mantiene o incluso aumenta" )
    $H_1:\, p \prec p_0$ ( hipótesis alternativa: "la proporción de resultados en contra de dicha ley disminuye" )
siendo $p_0$ el valor de la proporción de referencia ( en el pasado ), que es un dato del problema y que es igual a $0'52$

La característica en estudio corresponde a una variable aleatoria $X$ con distribución de Bernoulli, $X \sim B(1,p)$, luego el estadístico con el que procede realizar el contraste de hipótesis corresponde a una variable aleatoria
    $\dfrac{\hat{P}-p_0}{\sqrt{\dfrac{p_0\,(1-p_0)}{n}}} \approx N(0,1)$
donde $n$ es el tamaño de la muestra, que es nuestro caso es $n=400$

De acuerdo con el planteamiento del contraste, aceptaremos $H_0$ si el valor del estadístico $\hat{P}$ observado en la muestra es superior a $p_0$, es decir, si podemos encontrar una constante positiva $c$, con un nivel de confianza de $1-\alpha$, es decir, si
    $P\{\hat{P} \ge p_0 + c\}=1-\alpha$
que, tipificando, también podemos expresar de la forma
    $P\{\dfrac{\hat{P}-p_0}{\sqrt{\dfrac{p_0\,(1-p_0)}{n}}} \ge \dfrac{c}{\sqrt{\dfrac{p_0\,(1-p_0)}{n}}} \}=1-\alpha$
esto es
    $P\{Z \ge \dfrac{c}{\sqrt{\dfrac{p_0\,(1-p_0)}{n}}} \}=1-\alpha$
y, denotando por $z_{1-\alpha}$ al valor del miembro derecho de la desigualdad del argumento
    $z_{1-\alpha}:=\dfrac{c}{\sqrt{\dfrac{p_0\,(1-p_0)}{n}}}$
el cual representa la abscisa de la función de densidad $f(z)$ que deja a la derecha el $(1-\alpha)\cdot 100 \,\%$ de la distribución ( respectivamente a la izquierda, el $\alpha \cdot 100\, \%$ de la distribución )
y que obtener a partir de la consulta de la tabla $N(0,1)$ de la función de distribución de probabilidad $F(z)$ procediendo de la manera que sigue
podemos la condición expresada arriba de la forma
    $P\{Z \ge z_{1-\alpha}\}=1-\alpha$
es decir, y para el caso que nos ocupa, para un nivel de significación $\alpha=0'01$:
    $P\{Z \ge z_{1-0'01}\}=1-0'01$
esto es
    $P\{Z \ge z_{0'99}\}=0'99$
que, habida cuenta de que el valor de probabilidad $0'99$, no podemos obtenerlo directamente en las tablas, podemos escribir la probabilidad pedida de la forma
    $1-P\{Z \le z_{0'99}\}=0'99$
luego
    $P\{Z \le z_{0'99}\}=1-0'99=0'01$
y, por simetría de la función de densidad de probabilidad $f(z)$, es igual a
    $P\{Z \ge -z_{0'99}\}=0'01$
valor que sí encontramos directamente en las tablas y que corresponde a la abscisa
    $-z_{0'99}=2'33$ ( operando con dos decimales )
por tanto
    $z_{0'99}=-2'33$
luego el intervalo de valores del estadístico que corresponde a la región de aceptación de la hipótesis nula, $H_0$, es $C^{*}=[-2'33 \,,\, +\infty )$

Observamos que valor del estadístico del contraste en la muestra seleccionada es
        $\dfrac{0'46-0'52}{\sqrt{\dfrac{0'52\,(1-0'52)}{400}}} \approx -2'40 \notin C^{*}$
luego rechazamos $H_0$, y por tanto, aceptamos la hipótesis alternativa $H_1$ ( "la proporción en contra de dicha ley ha disminuido" ) con un coeficiente de significación de $0'01$ ( nivel de confianza del $99\,\%$ ).
$\square$

-oOo-

Observación 1. (Error de tipo I. Interpretando el coeficiente de significación del test. Calculando el p-valor):     Recordemos que el nivel de significación del test representa el error de tipo I, que se define como a probabilidad de rechazar la hipótesis nula, siendo ésta cierta. Así pues, cuánto más confiemos en la validez de la hipótesis nula, menor tendrá que ser el nivel de significación $\alpha$ que le asignemos de antemano, por lo tanto, éste es un punto delicado del contraste, de ahí la importancia de calcular el p-valor, o nivel de significación observado, al objeto de cotejar la decisión que tomemos a partir de la ubicación del valor observado del estadístico del contraste en la región de aceptación de la hipótesis nula o bien en la región crítica ( de rechazo de la hipótesis nula ).

El p-valor es el nivel de significación observado; en otras palabras: el menor coeficiente de significación - esto es, la probabilidad observada de rechazar H_0 siendo ésta cierta - con el que podríamos, por tanto, rechazar la hipótesis nula $H_0$. Si el p-valor que encontremos es pequeño, pongamos, inferior a $0'01$ ( la probabilidad de rechazar la hipótesis nula siendo ésta cierta es pequeña ) querrá decir que, en buena lógica, no podremos justificar la decisión de aceptarla y, en consecuencia, la rechazaremos ( aceptando la hipótesis alternativa ).

Calculemos pues el p-valor:
    p-valor:=Probabilidad_observada("rechazar $H_0$ siendo $H_0$ es cierta")=
      $=P\{Z \prec -2'33 | p_{0} \ge 0'52\}$
      $=P_{H_{0}}\{Z \succ 2'33\}$
      $=0'0099$
valor que es demasiado pequeño ( en particular, inferior al nivel de significación $\alpha=0'01$ fijado de antemano ), para poder aceptar la hipótesis nula $H_0$
luego, de acuerdo a este nivel de significación observado, se confirma la decisión de rechazar $H_0$ y aceptar la hipótesis nula.


Observación 2. ( Error de tipo II):     Además del error de tipo I ( que deberíamos cuidar de evitar, rebajando de antemano el coeficiente de significación del test pues, por ejemplo, en un juicio el no hacerlo supondría violar el principio de presunción de inocencia ), también debemos considerar otro tipo de error: el que proporciona la probabilidad de aceptar la hipótesis nula ( hipótesis estándar ) siendo ésta falsa ( en un juicio, por ejemplo, ésto correspondería a cometer el error de declarar inocente a un culpable). Éste otro error es el llamado error de tipo II ( menos importante que el primero, como es lógico).

Observación 3. ( Valorando la potencia del test):     El complemento a uno del error de tipo II es la probabilidad de rechazar la hipótesis nula siendo ésta falsa, probabilidad que se interpreta como la capacidad o potencia del contraste o test.

A modo de ejemplo, vamos a calcular la potencia del contraste en este ejercicio:

    potencia del test:=P(rechazar $H_0$ | $H_0$ falsa )
        =P( aceptar $H_1$ | $H_1$ cierta )
        =P( $p$ caiga a la izquierda de ($\hat{p}-c$) | $H_1$ cierta )
        $= P \{p\prec \hat{p}-z_{1-\alpha} \cdot \sqrt{\dfrac{p\,(1-p)}{n}} \;| \; p \prec p_0 \}$
pues el intervalo correspondiente a la zona crítica ( que corresponde a rechazar $H_0$ y, por tanto, a aceptar $H_1$ ) es
    $C=(-\infty\,,\, \hat{p}-z_{1-\alpha} \cdot \sqrt{\dfrac{p\,(1-p)}{n}}]$
por lo que seguimos el cálculo escribiendo que la última línea del mismo es igual a
    $P \{ \dfrac{p-\hat{p}}{\sqrt{\dfrac{p\,(1-p)}{n}}} \prec - z_{1-\alpha} \;| \; p \prec p_0 \}$
        $= P \{ \dfrac{\hat{p}-p}{\sqrt{\dfrac{p\,(1-p)}{n}}} \succ z_{1-\alpha} \;| \; p \prec p_0 \}$
luego, tomando un valor ligeramente superior a $-2'33$ ( valor de la abscisa encontrada antes, supuesta $H_0$ cierta ) para la nueva abscsisa $z$ compatible con la condición ( $H_1$ cierta ), como por ejemplo $-2'3$, y prosiguiendo el cálculo, encontramos
        $\approx P_{H_1} \{ \dfrac{\hat{p}-p}{\sqrt{\dfrac{p\,(1-p)}{n}}} \succ -2'3 \}$
es decir
        $= P_{H_1} \{ Z \succ -2'3 \}$
        $= 1-P_{H_1} \{ Z \prec -2'3 \}$
        $= 1-P_{H_1} \{ Z \succ 2'3 \}$
y consultando las tablas de la distribución $N(0,1)$ encontramos
        $= 1-0'0179$
        $\approx 0'98$
pudiendo valorar por tanto dicho test con una potencia del $98\,\%$. $\square$



- - -

Referencias:
  [1] Compta, A., et. al., Matemàtiques II, Barcanova, Barcelona, 1993
  [2] Guàrdia, J.; Viader, M., Estadística, Castellnou, Barcelona, 1999
  [3] García Pérez, A., Estadística Básica con R, UNED, Madrid, 2010
  [4] Allepús, J., et. al., Exercicis d'inferència estadística, Cossetània, Valls, 2002
  [5] Gonick, L.; Smith, W, La Estadística en Cómic, Zendrera Zariquiey, Barcelona, 1999

miércoles, 22 de enero de 2014

Un poco de álgebra con las desigualdades

Enunciado:
Justificar lo siguiente
    $\overline{x}-c \le \mu \le \overline{x}+c \Leftrightarrow \mu-c \le \overline{x} \le \mu+c$

Resolución:
Partiendo de
    $\overline{x}-c \le \mu \le \overline{x}+c$
vamos a sumar $-\mu-\overline{x}$ a cada miembro de la doble desigualdad, con lo cual podemos escribirla de la forma
    $\overline{x}-c -\mu-\overline{x} \le \mu-\mu - \overline{x} \le \overline{x}+c - \mu-\overline{x}$
y simplificando
    $-c -\mu \le -\overline{x} \le c - \mu$
multiplicando ahora por $-1$ en cada miembro de la doble desigualdad
    $c + \mu \ge \overline{x} \ge \mu - c$
llegamos a
    $\mu-c \le \overline{x} \le \mu + c$
Por supuesto, podemos demostrar la implicación a la izquierda siguiendo un proceso similar.
$\square$

Nota:   De manera similar, se demuestra también que
    $\overline{x} -c \le \mu \le \overline{x} + c \Leftrightarrow -c \le \overline{x}-\mu \le c$

[nota del autor]

martes, 21 de enero de 2014

Calculando el tamaño de la muestra para garantizar el margen de error dado

Enunciado:
Para estimar la proporción, $p$, de familias de una determinada ciudad que poseen un determinado tipo de electrodoméstico, se extrae una muestra aleatoria simple de tamaño $n$ y se observa el valor del estimador $\hat{p}$ de $p$, que resulta ser igual a $0'4$. ¿ Cuál es el valor mínimo de $n$ para que, a un nivel de confianza del $95\,\%$, el margen de error de la estimación de la proporción $p$ ( intervalo de confianza ) sea menor que $0'01$ ?.

Resolución:
Al ser la variable $X \sim B(1,p)$ ( distribución de Bernoulli ) y, considerando muestras grandes,
la variable aleatoria asociada al estimador, $\hat{p}$, de $p$ es
    $\hat{p} \approx N\bigg( p\,,\, \sqrt{\dfrac{p\,(1-p)}{n}} \bigg)$
el intervalo de confianza de $p$, con un coeficiente de confianza $1-\alpha=0'95$ es
    $I_{0'95}(p)=\big(\hat{p} - z_{\alpha / 2}\cdot \sqrt{\dfrac{p\,(1-p)}{n}} \,,\, \hat{p} + z_{\alpha / 2}\cdot \sqrt{\dfrac{p\,(1-p)}{n}}\big) $
es decir
    $p = \hat{p} \, \pm \, z_{\alpha / 2}\cdot \sqrt{\dfrac{p\,(1-p)}{n}}$
donde, ahora, $\hat{p}$ representa el valor observado en la muestra, es decir, $0'4$ y $z_{\alpha / 2} = z_{0'05 / 2} = z_{0'025} \underset{tablas \; N(0,1)}{=} 1'96$

Teniendo en cuenta que el margen de error en la estimación de $p$ es
    $z_{\alpha / 2}\cdot \sqrt{\dfrac{p\,(1-p)}{n}}$
deberá cumplirse ( requerimiento del enunciado ) que
    $1'96\cdot \sqrt{\dfrac{0'4\cdot 0'6}{n}} \prec 0'01$
por tanto
    $\sqrt{\dfrac{0'4\cdot 0'6}{n}} \prec \dfrac{0'01}{1'96}$
y, elevando al cuadrado en cada miembro de la desigualdad
    $\dfrac{0'4\cdot 0'6}{n} \prec \bigg(\dfrac{0'01}{1'96}\bigg)^2$
de donde
    $n \succ \dfrac{0'4 \cdot 0'6}{(\frac{0'01}{1'96})^2} \approx 9219$
es decir, deberemos consultar un mínimo de $9219$ familias para garantizar el margen de error pedido.
$\square$

[nota del autor]

¿ Está trucada la moneda ?

Enunciado:
Al lanzar una moneda $100$ veces, observamos que aparecen $45$ caras ( y $55$ cruces ). Con un nivel de confianza del $95\,\%$, ¿ se podría decir que la moneda está trucada ?.

Resolución:
Vamos a dar una respuesta a la pregunta construyendo el intervalo de confianza para la estimación de la proporción teórica de caras. Si la moneda no está trucada, dicho valor debería ser del $50\,\%$, ( es decir, la probabilidad de obtener cara en un lanzamiento de la moneda no trucada debe ser igual a $0'5$ ); pues bien, si dicho valor, se sitúa dentro del intervalo no podremos afirmar que la moneda esté trucada ( al nivel de confianza pedido ).

Identificamos la distribución de Bernoulli para las $n$ variables aleatorias del muestreo ( una por cada lanzamiento )
    $X_i \sim B(1,p) \;\; i=1,2,\ldots,n$
por tanto sabemos que el estimador $\hat{p}$ de la proporción de la población, $p$, es una variable aleatoria con distribución
    $\hat{p} \sim N\big(p, \sqrt{\dfrac{p\,(1-p)}{n}}\big)$

Entonces el intervalo de confianza es
    $I_{1-\alpha}(p)=\bigg(\hat{p}-z_{\alpha / 2}\cdot \sqrt{\dfrac{\hat{p}\,(1-\hat{p})}{n}}\,,\,\hat{p}+z_{\alpha / 2}\cdot \sqrt{\dfrac{\hat{p}\,(1-\hat{p})}{n}}\bigg)$
donde, ahora, $\hat{p}$ representa el valor observado de la proporción ( en la muestra ), esto es
    $\hat{p}=\dfrac{45}{100} = 0'45$
y, como es habitual, de las tablas $Z \sim N(0,1)$, se obtiene
$z_{\alpha / 2} = z_{0'05 / 2} = z_{0'025} \underset{tablas}{= } 1'96$

Teniendo en cuenta que $n=100$ ( tamaño de la muestra ), sustituyendo estos datos en la expresión del intervalo obtenemos
    $I_{0'95}(p)=\bigg( 0'45 - 1'96 \cdot \sqrt{\dfrac{0'45 \cdot 0'55}{100}}\,,\,0'45 + 1'96 \cdot \sqrt{\dfrac{0'45 \cdot 0'55}{100}}\bigg)$
                  $=\big( 0'35\,,\,0'55 \big)$

Entonces, como
    $p_{no \; trucada}=0'5 \in I_{0'95}(p)$
concluimos que, con un coeficiente de confianza del $95\,\%$, no podemos afirmar que la moneda esté trucada.

Nota:     En el próximo tema ( Contraste de Hipótesis ) trataremos este tipo de problemas de una manera más eficaz y formal.

$\square$

[nota del autor]

Obtención del percentil n de una variable aleatoria normal de parámetros conocidos

Enunciado:
Sea una variable aleatoria $X$ con una distribución normal de parámetros $\mu=20$ ( media ) y $\sigma=2$ ( desviación típica ). Calcular el percentil $10$.

Resolución:
El percentil $n$ ( en nuestro caso, el percentil $10$ ) de una variable aleatoria $X$ es, el valor de la abscisa $x$ de la función de distribución de probabilidad de la misma, $F(x)$, para el cual el valor de dicha función es $1/n$ ( en nuestro caso $1/10 = 0'1$ ); en otras palabras, el valor de la variable aleatoria $X$ que deja a su izquierda el $n \cdot 100\,\%$ ( en nuestro caso, el $10 \, \%$ ) de los valores ( ordenados de menor a mayor ) de la misma.

Denotemos por $x_{0'1}$ ( el valor pedido ) tal que $P\{X \prec x_{0'1}\} = 0'1$, donde $X \sim N(20,2)$.
Tipificando, podemos escribir ésto de la forma:
    $P\{Z \prec \dfrac{x_{0'1}-20}{2}\} = 0'1$
donde
    $Z \sim N(0,1)$
es decir
    $F\big(\frac{x_{0'1}-20}{2}\big) = 0'1$
Ahora bien, en las tablas disponibles no están tabulados los valores de $F$ menores que $0'5$, por lo que debemos tener en cuenta la simetría de de la función de densidad de probabilidad $f(z)$ para extraer de ellas la información que necesitamos. Veamos cómo hacerlo. Por comodidad, denotemos por $k$ al argumento de la función de distribución de probabilidad,
    $k:=\frac{x_{0'1}-20}{2}$
entonces $P\{X \prec k\}$, que és igual a $0'1$, es igual ( por simetría ) a $P\{X \succ -k\}$ y a su vez ésto es igual a $1-P\{X \succ -k\}$, luego $P\{X \prec -k\}=1-0'1=0'9$, valor que sí encontramos tabulado y que corresponde a $-k\approx 1'28$; es decir,
    $- \frac{x_{0'1}-20}{2} \approx 1'28 \Rightarrow x_{0'1} \approx 20 -2 \cdot 1'28 = 14'44$
$\square$

[nota del autor]

lunes, 20 de enero de 2014

Margen de error en la estimación de la media por intervalos de confianza. Tamaño de la muestra

Enunciado:
Se nos informa que la variable aleatoria "tiempo de reacción de un practicante de un cierto deporte ante un determinado evento" sigue un modelo normal con desviación típica $\sigma = 0'5$ segundos. Al estimar la media $\mu$ de la población por intervalos de confianza, con un coeficiente de confianza de $0'95$, se desea obtener un error en la estimación menor de $0'1$ segundos, ¿ cuál debe ser el tamaño mínimo del muestreo ?.

Resolución:
El intervalo de confianza en la estimación de $\mu$ con un coeficiente de confianza $1-\alpha$ igual a $0'95$ es
    $I_{1-\alpha}(\mu)=\big(\overline{x}-z_{\alpha / 2}\cdot \sigma(\overline{x})\,,\,\overline{x}+z_{\alpha / 2} \cdot \sigma(\overline{x})\big)$

    La semiamplitud del intervalo de confianza, $z_{\alpha / 2} \cdot \sigma(\overline{x})$, representa el margen de error en la estimación, siendo $\sigma(\overline{x})$ la desviación del estimador $\overline{x}$ de la media de la población $\mu$, que es igual a $\sigma / \sqrt{n}$. Recordemos que $\sigma$ es la desviación típica de la población, que es conocida ).

Entonces, para un coeficiente de confianza igual a $0'95$, una abscisa $z_{\alpha / 2}=z_{0'05 / 2}= z_{0'025}=1'96$-- consultando las tablas de la función de distribución de probabilidad $N(0,1)$ ) --, luego imponiendo el requerimiento del enunciado:
    $z_{\alpha / 2}\cdot \dfrac{\sigma}{\sqrt{n}} \prec 0'1$
y teniendo en cuenta que $\sigma = 0'5$ ( dato ),
    $1'96 \cdot \dfrac{0'5}{\sqrt{n}} \prec 0'1$
y de aquí
    $1'96 \cdot \dfrac{0'5}{0'1} \prec \sqrt{n}$
luego
    $\sqrt{n} \succ 1'96 \cdot \dfrac{0'5}{0'1}$
es decir
    $n \succ \bigg(1'96 \cdot \dfrac{0'5}{0'1}\bigg)^2$
y operando el segundo miembro de la desigualdad
    $n \succ 96$
En conclusión: debemos tomar muestras de un tamaño superior a $96$ individuos para garantizar que con un coeficiente de confianza de $0'95$ el error en la estimación de la media sea inferior a una décima.
$\square$


[nota del autor]

domingo, 19 de enero de 2014

Estimación de una proporción para muestras grandes

Sea $X$ la variable aleatoria asociada a una característica dicotómica de un individuo en una población; esto es, $X \sim B(1,p)$ ( distribución de Bernoulli ), donde $p$ es la probabilidad de que se dé uno de los dos atributos de dicha característica ( por ejemplo, la probabilidad de elegir una bola blanca que forma parte de la población (conjunto) de bolas blancas y negras contenidas en una urna. Es claro que $p$ ( establecemos que sea la probabilidad que la bola sea blanca ) es un parámetro, en principio, desconocido de la distribución de la variable aleatoria que describe dicha característica de los individuos de la población ( ser bola blanca o ser bola negra ), y, por tanto, nos proponemos resolver el problema de estimar dicho parámetro, $p$, considerando un muestreo aleatorio simple, encontrando un intervalo de estimación de dicho parámetro a un nivel de confianza de $(1-\alpha)\cdot 100\,\%$.

Para estimar dicho parámetro $p$ procederíamos de la siguiente manera: extraeríamos una muestra de tamaño $n$ de la urna; es decir elegimos al azar, $n$ bolas de la urna, de forma sucesiva y reemplazando las bolas que vayamos sacando al objeto de garantizar la independencia de las sucesivas realizaciones; obtendremos así $x_1,x_2,\ldots,x_n$, correspondientes a cada una de las variables aleatorias $X_1,\ldots,X_n$ que configuran el muestreo aleatorio simple, todas ellas del mismo tipo que la variable aleatoria, $X$, que describe la característica de la población. Dichos valores son unos o ceros, de acuerdo con algún convenio establecido; así, por ejemplo, al extraer una de las bolas, anotamos un uno si es ésta es blanca o un cero si es negra; a continuación, habiendo anotado la ristra de unos y ceros, observaríamos - esto es: calcularíamos - el valor de la media muestral, que es igual a la suma del conjunto de unos y ceros dividida ésta por el tamaño muestral, cantidad que, naturalmente, es la proporción $\hat{p}$ de bolas blancas de la muestra. Hecho ésto procederemos a realizar la estimación utilizando el cálculo de la probabilidades, que es lo que sigue a continuación.

Recordemos que, al estudiar la distribución en el muestro de algunos estimadores (en el Tema anterior), vimos que la variable aleatoria, $\hat{P}$, que corresponde al estimador de una proporción $p$ ( que, en realidad, es lo que se trata de obtener aquí), sigue una distribución normal de parámetros $\mu=p$ (media) $\sigma(\hat{p})=\sqrt{p(1-p) / n}$ para un tamaño muestral lo suficientemente grande, pongamos que $n \ge 100$; es decir, en estas condiciones y tipificando la variable podemos decir que
    $Z=\dfrac{\hat{P}-p}{\sqrt{p(1-p) / n}} \sim N(0,1)$
Tengamos en cuanta que al desconocer el parámetro $p$ debemos, a su vez, estimar la desviación típica sustituyendo dicho parámetro por el valor medido en la muestra, $\hat{p}$, es decir, tomaremos para la desviación típica del estimador $\hat{P}$ de la proporción
    $\sigma(\hat{p})=\sqrt{\dfrac{\hat{p}(1-\hat{p}}{n}}$
y, por tanto, utilizaremos la variable tipificada
    $Z \sim \dfrac{\hat{P}-p}{\sqrt{\hat{p}(1-\hat{p}) / n}} \sim N(0,1)$
a la hora de hacer los cálculos con la distribución de probabilidad del estimador de la proporción.

Llegados a este punto, es evidente que podemos proceder de la misma manera que en en el caso de la estimación de la media de una población. Es decir, para estimar ( a partir del muestreo ) el parámetro $\mu$ mediante un intervalo de confianza, tal que $p \in I=(\hat{p}-c,\hat{p}+c)$ con un coeficiente de confianza $1-\alpha$, tendremos que calcular pues los extremos de dicho intervalo $I$. Para ello, partimos de la interpretación del coeficiente de confianza como una probabilidad, que es la siguiente:
    $P\{\hat{p}-c \prec p \prec \hat{p}+c\}=1-\alpha$
que es lo mismo que
    $P\{\hat{p}-c-\hat{p} \prec p - \hat{p} \prec \hat{p}+c - \hat{p}\}=1-\alpha$
simplificando
    $P\{-c \prec p - \prec c\}=1-\alpha$
que es igual a
    $P\{c \succ \hat{p}-p \succ -c\}=1-\alpha$
y por tanto
    $P\{-c \prec \hat{p} - p \prec c\}=1-\alpha$
con lo cual
    $P\{\dfrac{-c}{\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}} \prec \dfrac{p-\hat{p}}{\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}} \prec \dfrac{c}{\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}} \}=1-\alpha$
es decir
    $P\{\dfrac{-c}{\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}} \prec Z \prec \dfrac{c}{\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}} \}=1-\alpha$
y, habiendo tipificado la variable, calcularemos el valor de la abscisa $z_{\alpha /2 }$, es decir, el valor de
    $\dfrac{c}{\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}}$
de la siguiente manera:

Por ser simétrica la función de densidad de probabilidad de una distribución normal tipificada podemos escribir
    $P\{Z \prec -z_{\alpha /2 } \} = P\{Z \succ z_{\alpha /2 } \}=\alpha / 2$
luego
    $P\{Z \prec z_{\alpha /2 } \} = 1-P\{Z \succ z_{\alpha /2 } \}=1- \dfrac{\alpha}{2}$
cantidad que corresponde al valor de la función de distribución de probabilidad en dicha abscisa, $F(z_{\alpha /2})$, y que leeremos en las tablas de $Z \sim N(0,1)$

Una vez obtenido dicho valor, recordemos que
    $z_{\alpha /2} = \dfrac{c}{\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}}$
y de aquí obtenemos el valor de $c$:
    $c=z_{\alpha /2}\,\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}$

Entonces podemos afirmar que, con un coeficiente de confianza del $(1-\alpha)\cdot 100 \,\%$, la proporción , $p$, de la población pertenece al intervalo de confianza dado por
    $I=\Big(\;\hat{p}- z_{\alpha /2}\, \sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}\,,\,\hat{p}+ z_{\alpha /2}\, \sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}\;\Big)$

Comentario:     Entendiendo $I$ como un intervalo de incertidumbre en la estimación del parámetro ( la proporción $p$ de la población, en el caso que nos ocupa ), podemos escribir también que
    $p = \hat{p}\,\pm\, z_{\alpha /2}\,\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}$
donde la cantidad
    $z_{\alpha /2}\, \sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}$
se puede ver como el ínfimo ( la menor de las cotas superiores)
y, respectivamente,
    $-z_{\alpha /2}\, \sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}$
como el supremo ( la mayor de las cotas inferiores)
del error absoluto del valor estimado de la proporción de la población $p$, a un nivel de confianza de $(1-\alpha)\cdot 100 \,\%$
esto es, como un margen de error absoluto en el resultado de dicha estimación.

Interpretación del intervalo de confianza desde el punto de vista estadístico:
Si procediéramos a efectuar un número suficientemente grande de realizaciones del muestreo, para situarnos dentro del dominio de validez de la Ley de los Grandes Números ( probabilidad $\overset{n \gg 1}{ \rightarrow }$ frecuencia del recuento ), es decir, eligiendo repetidamente, un gran número de muestras de la población, entonces al medir/observar las proporciones muestrales respectivas, se puede decir que el $(1-\alpha)\cdot 100 \,\%$ de la veces encontraríamos dicho valor de la media dentro del intervalo de confianza de la media de la población que hemos calculado.

-oOo-

Ejemplo:
Una urna contiene un gran número de bolas negras y blancas ( iguales en tamaño, masa y textura ). Se desea estimar la proporción de bolas blancas a partir de un muestreo aleatorio simple obteniendo un intervalo de confianza, a un nivel de confianza del $95\,\%$. Para ello se extrae una muestra de $200$ bolas, de las cuales se ha observado que $50$ son blancas.

Resolución:
Sea $p$ dicha proporción a estimar. Teniendo en cuenta que el tamaño muestral es $n=200$ y que la proporción observada en la muestra es $\hat{p}=50/200=0'25$ ( es decir, un $25\,\%$ ), entonces
&nsbsp &nbs $p \in I=(0'25 - c\,,\, 0'25+c)$
donde
    $e=z_{\alpha /2}\, \sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}$
es decir
    $e=1'96\, \sqrt{\dfrac{0'25 \cdot (1-0'25)}{200}} \approx 0'0600$
luego, con un nivel de confianza del $95\,\%$, podemos afirmar que
&nsbsp   $p \in I=(0'19\,,\, 0'31)$

Conclusión:
    Habiendo tomado una muestra aleatoria simple de $200$ bolas concluimos que, a nivel de confianza del $95\,\%$, la proporción estimada de la población de bolas blancas es de un $25\,\%$ con un margen de error del $6\,\%$.

$\square$


viernes, 17 de enero de 2014

Estimación del intervalo de confianza de la media de una población normal con varianza conocida o bien para una distribución no necesariamente normal pero siendo grande el tamaño de la muestra

Sea $X$ la variable aleatoria asociada a una característica de los individuos de una población. Nos proponemos estimar la media $\mu$ de la población mediante el muestreo y, para ello, partiremos de la suposición que $X$ siga una distribución normal o bien que, aún no siendo así, al realizar el muestreo, el tamaño muestral sea grande ( Teorema Central del Límite ), y que, en cualquiera de los dos casos, sea conocida la varianza ( y, por tanto, también la desviación típica $\sigma$ ).

Para estimar ( a partir del muestreo ) el parámetro $\mu$ mediante un intervalo de confianza $I$ con un coeficiente de confianza $1-\alpha$ -- por ejemplo, del $90\,\%$ o del $95\,\%$ --, debemos recordar que la variable aleatoria del estimador $\overline{x}$ de la media $\mu$ tiene la siguiente distribución en el muestreo: $N(\mu, \sigma / \sqrt{n})$, donde $n$ es el tamaño muestral y
$\sigma /\sqrt{n}$ es la desviación típica del estimador $\overline{x}$ de la media $\mu$ de la población.

Tendremos que calcular pues los extremos de dicho intervalo $I$. Para ello, partimos de la interpretación del coeficiente de confianza como una probabilidad, que es la siguiente:
    $P\{\overline{x}-a \prec \mu \prec \overline{x}+b\}=1-\alpha$
si suponemos, sin pérdida de generalidad, que $a=b:=c$ podemos escribir
    $P\{\overline{x}-c \prec \mu \prec \overline{x}+c\}=1-\alpha$
que es lo mismo que
    $P\{\overline{x}-c-\overline{x} \prec \mu - \overline{x} \prec \overline{x}+c - \overline{x}\}=1-\alpha$
simplificando
    $P\{-c \prec \mu - \overline{x} \prec c\}=1-\alpha$
que es igual a
    $P\{c \succ \overline{x}-\mu \succ -c\}=1-\alpha$
y por tanto
    $P\{-c \prec \overline{x}-\mu \prec c\}=1-\alpha$
con lo cual
    $P\{\dfrac{-c}{\sigma /\sqrt{n}} \prec \dfrac{\overline{x}-\mu}{\sigma / \sqrt{n}} \prec \dfrac{c}{\sigma /\sqrt{n}} \}=1-\alpha$
es decir
    $P\{\dfrac{-c}{\sigma /\sqrt{n}} \prec Z \prec \dfrac{c}{\sigma /\sqrt{n}} \}=1-\alpha$
y, habiendo tipificado la variable, calcularemos el valor de la abscisa $z_{\alpha /2 }$, es decir, el valor de
    $\dfrac{c}{\sigma /\sqrt{n}}$
de la siguiente manera:

Por ser simétrica la función de densidad de probabilidad de una distribución normal tipificada podemos escribir
    $P\{Z \prec -z_{\alpha /2 } \} = P\{Z \succ z_{\alpha /2 } \}=\alpha / 2$
luego
    $P\{Z \prec z_{\alpha /2 } \} = 1-P\{Z \succ z_{\alpha /2 } \}=1- \dfrac{\alpha}{2}$
cantidad que corresponde al valor de la función de distribución de probabilidad en dicha abscisa, $F(z_{\alpha /2})$, y que leeremos en las tablas de $Z \sim N(0,1)$

Una vez obtenido dicho valor, recordemos que
    $z_{\alpha /2} = \dfrac{c}{\sigma / \sqrt{n}}$
y de aquí obtenemos el valor de $c$:
    $c=z_{\alpha /2}\, \dfrac{\sigma}{\sqrt{n}}$

Entonces podemos afirmar que, con un coeficiente de confianza del $(1-\alpha)\cdot 100 \,\%$, la media $\mu$ de la población pertenece al intervalo de confianza dado por
    $I=(\overline{x}- z_{\alpha /2}\, \dfrac{\sigma}{\sqrt{n}}\,,\,\overline{x}+ z_{\alpha /2}\, \dfrac{\sigma}{\sqrt{n}})$
donde, ahora, $\overline{x}$ representa el valor de la media de la muestra seleccionada, esto es, la media de los valores observados/medidos $x_1,x_2,\ldots\,x_n$.

Comentario:     Entendiendo $I$ como un intervalo de incertidumbre en la estimación del parámetro ( la media $\mu$ de la población, en el caso que nos ocupa ), podemos escribir también que
    $\mu = \overline{x}\,\pm\, z_{\alpha /2}\, \dfrac{\sigma}{\sqrt{n}}$
donde la cantidad
    $z_{\alpha /2}\, \dfrac{\sigma}{\sqrt{n}}$
se puede ver como el ínfimo ( la menor de las cotas superiores)
y, respectivamente,
    $-z_{\alpha /2}\, \dfrac{\sigma}{\sqrt{n}}$
como el supremo ( la mayor de las cotas inferiores)
del error absoluto de la media de la población $\mu$ obtenida por estimación, a un nivel de confianza de $(1-\alpha)\cdot 100 \,\%$; esto es, como un margen de error absoluto en el resultado de dicha valoración.

Observación:
Notemos que si el nivel de confianza $1-\alpha$ aumenta, entonces el nivel de riesgo $\alpha$ decrece, luego la abscisa $z_{\alpha /2}$ aumenta, luego la amplitud del intervalo de confianza aumenta y, por tanto, el margen de error en la estimación crece. Así, por ejemplo, con un coeficiente de confianza del $90\,\%$ encontraremos un intervalo de confianza de menor amplitud, y por tanto de menor margen de error, $z_{\alpha / 2} \cdot \sigma(\overline{x})$, que con un coeficiente de confianza mayor, digamos del $95\,\%$.

Por tanto, es evidente que podemos reducir el margen de error en la estimación rebajando el nivel de confianza. Esto, sin embargo, no es recomendable pues es evidente que un buen nivel de confianza es muy razonable en cualquier estimación. Hay otra forma de reducir el margen de error ( y, por tanto, la amplitud del intervalo de estimación ) en la estimación, sin renunciar a un cierto nivel de confianza fijado: aumentar el tamaño de la muestra. En efecto, si se aumenta el tamaño de la muestra $n$ aumenta, claro, el valor del denominador, $\sqrt{n}$, en la expresión del margen de error, luego éste disminuye; eso no obstante, no siembre es viable pues a veces es complicado o costoso trabajar con muestras grandes.

Interpretación del intervalo de confianza desde el punto de vista estadístico:
Si procediéramos a efectuar un número suficientemente grande de realizaciones del muestreo, para situarnos dentro del dominio de validez de la Ley de los Grandes Números ( probabilidad $\overset{n \gg 1}{ \rightarrow }$ frecuencia del recuento ), es decir, eligiendo repetidamente, un gran número de muestras de la población, entonces al medir/observar las medias muestrales respectivas, se puede decir que el $(1-\alpha)\cdot 100 \,\%$ de la veces encontraríamos dicho valor de la media dentro del intervalo de confianza de la media de la población que hemos calculado.

-oOo-

Ejemplo:
El tiempo de vida de las bombillas que fabrica una determinada marca sigue una distribución normal de media desconocida y desviación típica igual a $100$ horas. Al objeto de estimar la media de la población, seleccionamos una muestra aleatoria simple de $n=400$ bombillas y encontramos un valor de la media muestral de $3000$ horas. Encontrar el intervalo de confianza de la media de la población, suponiendo un coeficiente de confianza $(1-\alpha)\cdot 1000=95\,\%$

Resolución:
Sea $X$ la variable aleatoria correspondiente a la característica de la población estudiada ( tiempo de vida de las bombillas fabricadas ) y que, según el enunciado, es $X \sim N(\mu\,,\,100)$. Entonces, el estimador de la media $\overline{x}$ sigue la siguiente distribución en el muestreo
    $\overline{x} \sim N(\mu\,,\,100 / \sqrt{400})$
esto es
    $\overline{x} \sim N(\mu\,,\,5)$
con lo cual
    $\mu \in (\overline{x}- c\,,\,\overline{x}+c)$
donde
    $c=z_{\alpha /2}\, \dfrac{\sigma}{\sqrt{n}}$

Teniendo en cuenta que el coeficiente de confianza $1-\alpha$ es $0'95$ ( expresado en tanto por unidad), vemos que $\alpha$ es $0'05$, valor que emplearemos para consultar las tablas de la función de distribución de probabilidad, $F(z)$, de $Z \sim N(0,1)$ al objeto de encontrar el valor de la abscisa $z_{\alpha / 2}$ ( es decir, el valor de $z_{0'025}$ ). Para ello procedemos de la siguiente forma:

  Como $z_{0'025}$ ha de ser tal que
    $P\{Z \ge z_{0'025}\} = 0'025$
entonces
    $F(z_{0'025})=1-P\{Z \le z_{0'025}\} = 1- 0'025$
es decir
    $F(z_{0'025})=0'975$
y a partir de este valor de probabilidad que encontramos en las tablas vemos que éste corresponde a la siguiente abscisa
    $z_{0'025}=1'96$
por tanto,
    $c=1'96 \cdot 5$
        $=9'8 \approx 10$
con lo cual podemos concluir que, a un nivel de confianza del $95\,\%$, la media $\mu$ del tiempo de vida de las bombillas que se fabrican pertenece al intervalo ( de confianza )
    $(3000-10\,,\,3000+10)$
esto es:
$\mu$ ( expresada en horas ) es tal que
    $2990 \prec \mu \prec 3010$

Observación:     También podemos expresar el resultado al que hemos llegado diciendo que la media $\mu$ del tiempo de vida de las bombillas que fabrica dicha empresa es $3000 \,\pm \, 10 \, \text{horas}$.

Interpretemos este resultado:
  Si procediéramos a efectuar un número grande de realizaciones del muestreo ( para situarnos dentro del dominio de validez de la Ley de los Grandes Números ), pongamos que $1000$, observaríamos que, calculando cada vez el valor de la media de la muestra, alrededor de $950$ de las realizaciones el valor de ésta estaría dentro del intervalo de confianza que hemos calculado.

$\square$


[nota del autor]

martes, 14 de enero de 2014

Ejercicio de cálculo con la distribución normal

Enunciado:
Sea $X$ una variable aleatoria que sigue una distribución normal de media $\mu=2$ y desviación típica $\sigma=4$, lo cual denotamos por $X \sim N(2,4)$. Se pide:
    $P\{ \left|2-X\right| \le 4\}$


Resolución:

  $P\{ \left|2-X\right| \le 4\}=$
                                $= P\{ -4 \le 2-X \le 4\}$
                                $=P\{ -4 -2 \le 2-X -2 \le 4 -2 \}$
                                $=P\{ -6 \le -X \le 2 \}$
                                $=P\{ 6 \ge X \ge -2 \}$
                                $=P\{ -2 \le X \le 6 \}$
                                $=P\{ X \le 6 \}-P\{ X \le -2 \}$
                                $\underset{(1)}{=} P\{ Z \le \dfrac{6-2}{4} \}-P\{ Z \le \dfrac{-2-2}{4} \}$
                                $= P\{ Z \le 1 \}-P\{ Z \le -1 \}$
                                $= P\{ Z \le 1 \}-P\{ Z \ge 1 \}$
                                $= P\{ Z \le 1 \}-(1-P\{ Z \le 1 )\}$
                                $= 2\cdot P\{ Z \le 1 \}-1$
                                $= 2\,F(1)-1$
                                $\underset{(2)}{=} 2\cdot 0'8413-1$
                                $=0'6826$

= = =

(1) Con el cambio de variable
$Z=\dfrac{X-\mu}{\sigma}$
pasamos de $X\sim N(2,4)$ a $Z\sim N(0,1)$ con lo cual podemos leer los valores de la función de distribución de probabilidad $F(x)$ en las tablas.

(2) Obtenemos $F(1)$ consultando las tablas de la d. $N(0,1)$ ( los valores vienen aproximados hasta la cuarta cifra decimal ).

= = =
$\square$


[nota del autor]

lunes, 13 de enero de 2014

Cálculos de probabilidad con la distribución normal

Enunciado:
Sea $X$ una variable aleatoria que sigue una distribución normal de media $\mu=5$ y desviación típica $\sigma=2$, lo cual denotamos por $X \sim N(5,2)$. Se pide:

    a) $P\{X \le 2'1\}$

    b) $P\{\left|X\right| \le 3'4\}$

    c) $P\{\left|X\right| \ge 3'4\}$

Observación:
Teniendo en cuenta que $X$ es una v.a. continua, es irrelevante utilizar desigualdades estrictas o débiles puesto que la probabilidad de un valor puntual, $X=k$, es cero; en otras palabras, como
$P(X=k)=0$, entonces podemos escribir $P\{X\le k\}=P\{X \prec k\}$ y $P\{X\ge k\}=P\{X \succ k\}$



Resolución:
a)   Tipificando la variable $X$ por medio del cambio
$Z=\dfrac{X-\mu}{\sigma}$
podemos trabajar con una distribución normal $Z \sim N(0,1)$ ( distribución normal centrada, es decir, de media igual a $0$, y con desviación típica igual a $1$ ) con lo cual podremos utilizar las tablas de dicha distribución de probabilidad.

Entonces
si $X=2,1$
$Z=\dfrac{2'1-5}{2}$
    $=-1,45$
es decir
$P\{X \le 2'1\} = P\{Z \le -1'45\}$
y, atendiendo a la simetría de la función de densidad de probabilidad $f(z)$, podemos escribir
$P\{Z \le -1,45\}= 1-P\{Z \le 1'45\}$

A continuación, leemos en las tablas $N(0,1)$ que el valor de la función de distribución de probabilidad para $z=1'45$ es $F(0'45)=0'9265$, que es el valor de la probabilidad acumulada al barrer el área bajo la curva de la función $f(z)$, desde $-\infty$ hasta $1'45$, luego $P\{Z \le 1'45\}=0'9265$, luego $1-P\{Z \le 1'45\}=0'0735$

es decir
$P\{X \le 2'1\}=P\{Z \le -1'45\}=1-P\{Z \le 1'45\}=0'0735$

-oOo-

b)   Trabajaremos (como en el apartado anterior) con la v.a. normal estándar o tipificada $Z$ y, para ello, debemos hacer el cambio de variable habitual:
$Z=\dfrac{X-\mu}{\sigma}$

Para $X=3'4$, el valor que le corresponde con la tipificación es
$\dfrac{3'4-5}{2}=-0'8$
y a $X=-3'4$ le corresponde el valor
$\dfrac{-3'4-5}{2}=-4'2$


luego
$P\{| X | \le 3'4 \}=P\{ -3'4 \le X \le 3'4 \}=P\{ X \le 3'4 \} -P\{ X \le -3'4 \}=$
      $=P\{Z\le -0'8\}-P\{Z \le -4'2\}$
      $=(1-P\{Z\le 0'8\})-(1-P\{Z\le 4'2\})$
      $=P\{Z\le 4'2\}-P\{Z\le 0'8\}$
      $=F(4'2)-F(0'8)$
      $=1-0'7881$
      $=0'2119$

-oOo-
c)  
$P\{\left|X\right| \ge 3'4\}=P\{X \ge 3'4\}+P\{X \le -3'4\}=$
      $=(1-P\{X \le 3'4\})+P\{X \le -3'4\}$
      $=(1-P\{Z \le -0'8\})+P\{Z \le -4'2\}$
      $=\big(1-(1-P\{Z \le 0'8\})\big)+(1-P\{Z \le 4'2\})$
      $=(1-1+P\{Z \le 0'8\})+(1-P\{Z \le 4'2\})$
      $=P\{Z \le 0'8\}+(1-1)$
      $=P\{Z \le 0'8\}$
      $=F(0'8)$
      $=0'7881$

$\square$

domingo, 12 de enero de 2014

Comentarios sobre el Teorema Central del Límite y su aplicación a la estimación de la media

Teorema Central del Límite
Dada un muestreo aleatorio simple formado por una sucesión de variables aleatorias independientes $X_1,\ldots\,X_n$ con la misma varianza y la misma media que la variable aleatoria $X$ que sirve de modelo a una cierta característica de la población, entonces la variable aleatoria $(X_1+\ldots+X_n)/n$, que corresponde al estimador $\overline{x}$ de la media $\mu$, sigue una distribución de probabilidad normal $N(\mu\,,\,\sqrt{n}\,\sigma$, por tanto la variable tipificada
    $\dfrac{(X_1+\ldots+X_n)/n - \mu}{\sigma / \sqrt{n}}$
sigue una distribución normal $N(0,1)$.

Observación/comentario:
En muchos problemas de estimación de la media $\mu$ mediante el estimador $\overline{x}$ de la misma, cuya variable aleatoria (en el muestreo) tipificada es
    $\dfrac{\overline{x} - \mu}{\sigma / \sqrt{n}} \sim N(0,1)$
nos toparemos, no obstante, con dos dificultades a la hora de aplicar el TCL: una de ellas será debido a que las muestras puedan ser demasiado pequeñas con lo cual deja deja de tener validez, y, por otra parte, también es muy frecuente no conocer la varianza $\sigma^2$ de la población y, por tanto, tampoco la desviación típica $\sigma$ con lo cual deberemos estimarla, por medio del estimador insesgado de la misma, que es la cuasivarianza, es decir, mediante
    $\displaystyle S^2=\dfrac{1}{n-1}\,\sum_{i=1}^{n}\,(x-\mu)^2$
y de aquí obtener la cuasidesviación típica
    $\displaystyle S=\sqrt{\dfrac{1}{n-1}\,\sum_{i=1}^{n}\,(x-\mu)^2}$
ello nos permitirá operar con otro estimador de la media poblacional:
    $t_{n-1}=\dfrac{\overline{x} - \mu}{S / \sqrt{n}}$
cuya distribución no es $N(0,1)$ sino otra d. conocida como distribución de Student ( debida a William Gosset ) -- con $n-1$ grados de libertad, tal como se anota arriba --, además, funciona también bastante bien para muestras pequeñas. Por supuesto, encontraremos tabulados sus valores en los libros de tablas estadísticas.

[nota del autor]

sábado, 11 de enero de 2014

Estimadores. Distribución en el muestreo. Sobre la suma de los valores muestrales.

Enunciado:
El voltaje de las pilas de una determinada marca se asocia a una variable aleatoria de media igual a $\mu=1'5$ voltios y de distribución $\sigma=0'2$ voltios ( parámetros de la población de pilas ). Se elige una muestra aleatoria simple de tamaño $n=100$ pilas y se conectan todas estas pilas en serie, lo cual supone que, al sumarse los voltajes, se pueda disponer de una batería de, aproximadamente, $150$ voltios. Calcular la probabilidad de que la batería resultante tenga un voltaje comprendido entre $148$ voltios y $152$ voltios.


Resolución:
Dice el Teorema Central del Límite que, dada un muestreo aleatorio simple formado por una sucesión de variables aleatorias independientes $X_1,\ldots\,X_n$ con la misma varianza y la misma media que la variable aleatoria $X$ que sirve de modelo a una cierta característica de la población, entonces la variable aleatoria $(X_1+\ldots+X_n)/n$, que corresponde al estimador $\overline{x}$ de la media $\mu$ sigue una distribución de probabilidad normal $N(\mu\,,\,\sqrt{n}\,\sigma$, por tanto la variable tipificada
    $\dfrac{(X_1+\ldots+X_n)/n - \mu}{\sigma / \sqrt{n}}$
es una $N(0,1)$

De aquí, se deduce como consecuencia directa de dicho teorema, que el estimador de la suma de los valores muestrales $X_1+\ldots+X_n$ tiene una distribución normal de media $n\mu$ y desviación típica $\sqrt{n}\,\sigma$.

En nuestro caso, nos parece apropiado denotar por $\hat{V}$ a dicho estimador (por referirnos a la suma de voltajes de la batería resultante de la asociación), luego
    $\hat{V} \sim N( n \,\mu \,,\,\sqrt{n} \,\sigma )$
con lo cual podemos escribir
    $P\{148 \le \hat{V} \le 152 \} = P\{ \hat{V} \le 152 \}-P\{ \hat{V} \le 148\}$
                $=P\{Z \le \dfrac{152-100\cdot 1'5}{0'2\,\sqrt{100}}\}-P\{Z \le \dfrac{148-100\cdot 1'5}{0'2\,\sqrt{100}}\}$
                $=P\{Z \le 1\}-P\{Z \le -1\}$
                $=(1-P\{Z > 1\})-P\{Z \ge 1\}$
                $=1-2\,P\{Z > 1\})\}$
                $\underset{(1)}{=} 1-2 \cdot 0'1587$
                $=0'6826$

==
      (1):consultando las tablas de la normal $N(0,1)$
==
$\square$


[nota del autor]

Muestreo. Muestreo Aleatorio Simple. Inferencia Estadística. Teorema Central del Límite.

Estadística inferencial. Sobre la población y el muestreo de la misma.

    Consideremos una determinada característica de una población a la cual asociamos una variable aleatoria $X$, observable, con una distribución de probabilidad supuesta (de la cual conocemos algunos o ninguno de sus parámetros) o, quizá, incluso podría darse el caso que la distribución de probabilidad de dicha variable fuese desconocida. Uno de los objetivos de la Inferencia Estadística es el de estimar el valor de los parámetros desconocidos, ya sea de forma puntual o bien mediante el cálculo de intervalos de confianza; otro objetivo igualmente importante es el de realizar contrastes de hipótesis.

La fiabilidad de los resultados de los estudios de inferencia estadística -- que pasa por medir/observar el valor de la característica ( en estudio ) en un subconjunto de la población -- requiere que la elección de la muestra se haya hecho de tal manera que sea representativa y, por tanto, debe contemplarse la independencia de elección de sus diversos elementos y, además, ésto tiene que hacerse de forma aleatoria, de tal manera que todos los individuos de la población tengan la misma probabilidad de ser elegidos para formar parte de la muestra. Si la muestra no es representativa, ésta contendrá sesgo con lo cual toda conclusión que se extraiga del estudio no será razonablemente correcta.

Por lo que se acaba de exponer, el tipo de muestreo ideal es el que denominamos muestreo aleatorio simple, que describimos a continuación. Este tipo de muestreo es el que se supondrá en todos los ejercicios que realizaremos en este curso. Sin embargo, en la práctica, es a menudo difícil llevar a cabo este muestreo ideal; por ello, y solamente a nivel informativo debemos citar también tres tipos más de muestreo en los que el sesgo, si bien será pequeño, no será nulo ( habrá que ir con cuidado ): el muestreo aleatorio sistemático ( se escogen los individuos siguiendo una pauta repetitiva a partir de un primer individuo elegido al azar ), el muestreo aleatorio estratificado ( deben mantenerse unas proporciones si la población está formada por varias subpoblaciones con rasgos diferenciales ), y el muestreo aleatorio por conglomerados o áreas ( en el que el muestreo tiene en cuenta los distintos bloques/zonas/áreas en los que se ubican los individuos de la población). Has otros tipos de muestreo, con menor aleatorización que los anteriores, que, si duda introducirán sesgo y, por tanto, habrá que tener muy en cuenta ésto a la hora de emitir conclusiones: el muestreo de tipo errático o casual ( encuestas en la cola de un cine, por ejemplo), el muestreo de efecto bola de nieve ( sondeos en las redes sociales, por ejemplo, en los que un formulario se difunde a través de los servicios de mensajería de la red ), el muestreo por cuotas ( en los que los individuos de la muestra son seleccionados si y solo si cumplen determinados condiciones ) y el muestreo intencionado ( en los que los individuos de la muestra son seleccionados con una fuerte presencia de criterios no aleatorios y, por tanto, suponen un sesgo muy importante ). Vamos a profundizar ahora en algunos detalles.

Muestreo aleatorio simple
    Una muestra aleatoria simple de la población está formada por $n$ observaciones independientes $x_1,x_2,\ldots,x_n$ de la variable aleatoria $X$, entendiéndose por cada $x_i$, ( $i=1,\ldots,n$ ) el valor de la variable aleatoria $X$ observada/medida en el individuo seleccionado al azar y que ocupa el lugar $i$-ésimo, de tal manera que todos los individuos de la población tengan las misma probabilidad de ser elegidos para formar parte de la muestra.

Dicho ésto, podemos ahora interpretar/entender de manera más formal el muestreo aleatorio simple (m.a.s.) de la variable aleatoria $X$ como uno una sucesión de variables aleatorias independientes y del mismo tipo, $X_1,\ldots,X_n$, con la misma distribución de probabilidad que la variable $X$.

Teorema Central del Límite
Dada un muestreo aleatorio simple formado por una sucesión de variables aleatorias independientes $X_1,\ldots\,X_n$ con la misma varianza y la misma media que la variable aleatoria $X$ que sirve de modelo a una cierta característica de la población, entonces la variable aleatoria $(X_1+\ldots+X_n)/n$, que corresponde al estimador $\overline{x}$ de la media $\mu$, sigue una distribución de probabilidad normal $N(\mu\,,\,\dfrac{\sigma}{\sqrt{n}})$, por tanto la variable tipificada $$\dfrac{\bar{x} - \mu}{\sigma / \sqrt{n}}$$
sigue una distribución normal $N(0,1)$.

Observación/comentario:
En muchos problemas de estimación de la media $\mu$ mediante el estimador $\overline{x}$ de la misma, cuya variable aleatoria (en el muestreo) tipificada es
    $\dfrac{\overline{x} - \mu}{\sigma / \sqrt{n}} \sim N(0,1)$
nos toparemos, no obstante, con dos dificultades a la hora de aplicar el TCL: una de ellas será debido a que las muestras puedan ser demasiado pequeñas con lo cual deja deja de tener validez, y, por otra parte, también es muy frecuente no conocer la varianza $\sigma^2$ de la población y, por tanto, tampoco la desviación típica $\sigma$ con lo cual deberemos estimarla, por medio del estimador insesgado de la misma, que es la cuasivarianza, es decir, mediante
    $\displaystyle S^2=\dfrac{1}{n-1}\,\sum_{i=1}^{n}\,(x-\mu)^2$
y de aquí obtener la cuasidesviación típica
    $\displaystyle S=\sqrt{\dfrac{1}{n-1}\,\sum_{i=1}^{n}\,(x-\mu)^2}$
ello nos permitirá operar con otro estimador de la media poblacional:
    $t_{n-1}=\dfrac{\overline{x} - \mu}{S / \sqrt{n}}$
cuya distribución no es $N(0,1)$ sino otra d. conocida como distribución de Student ( debida a William Gosset ) -- con $n-1$ grados de libertad, tal como se anota arriba --, además, funciona también bastante bien para muestras pequeñas. Por supuesto, encontraremos tabulados sus valores en los libros de tablas estadísticas.

[nota del autor]

viernes, 10 de enero de 2014

Sobre la distribución en el muestreo de la variable aleatoria que corresponde al estimador de una proporción

Enunciado:
Un alumno se ha presentado como representante al Consejo Escolar de su instituto. En las elecciones, el $50\,\%$ de los votos son favorables a su candidatura. Se escoge una muestra aleatoria simple de $110$ alumnos entre los que han depositado su votado. Se pide:
    a) ¿ Cuál es la distribución en el muestreo que sigue el estimador de la proporción (de la población) a favor de su candidatura ?
    b) Hallar la probabilidad de que más del $40\,\%$ de los alumnos de la muestra hayan votado favorablemente a dicho candidato ?


Resolución:
a)
Denotamos por $p$ a la proporción de la población que vota favorablemente a este candidato.

Consideremos una muestra aleatoria simple de tamaño muestral $n$, $X_1,X_2,\ldots,X_n$, siendo los valores unos o ceros ( codificando con un 1 cada voto favorable y con un 0 cada voto desfavorable ), pues se puede establecer, en buena lógica, que la variable $X$ es dicotómica y, por ello, sigue una distribución de Bernoulli $B(1,p)$.

Dicho esto, recordemos que el mejor estimador de $p$ es la proporción muestral que denotaremos por $\hat{p}$, definida de la forma
    $\displaystyle \hat{p}=\dfrac{\sum_{i=1}^{n}\,X_{i}}{n}$
luego la distribución en el muestreo de la variable aleatoria $n\,\hat{p}$ es una d. Binomial $B(n,p)$, y, de aquí, se puede demostrar que, para muestras grandes ( digamos $n > 100$ ), la variable aleatoria que corresponde al estimador $\hat{p}$ de la proporción de población sigue, aproximadamente, una distribución normal
de media
    $\mu=p$
y desviación típica
    $\sigma=\sqrt{\dfrac{p\,(1-p)}{n}}$
luego tipificando la variable aleatoria podemos escribir
    $\dfrac{\hat{p}-p}{\sqrt{\dfrac{p(1-p)}{n}}} \approx N(0,1)$

b)
Conociendo la proporción $p$ de la población, que es igual a $0'5$, y dado que
    $\sigma=\sqrt{\dfrac{0'5\,(1-0'5)}{110}}$
la respuesta al segundo apartado es
    $P\{\hat{p}>0'4\}=P\{Z>\dfrac{0'4-0'5}{110}\}=P\{Z>-2'0976\}=$

                $=1-P\{Z\le -2'0976\}$

                $=1-P\{Z\ge 2'0976\}$
                $\underset{(1)}{=} 1-0'0180$
                $=0'982$

===
    (1): Consultando las tablas de la distribución normal tipificada $N(0,1)$ e interpolando:
        $\dfrac{P\{Z>2'0976\}-0'0179}{2'0976-2'10}=\dfrac{0'0179-0'0183}{2'10-2'09}$
de donde
        $P\{Z>2'0976\}=\dfrac{0'0179-0'0183}{2'10-2'09} \cdot (2'0976-2'10)+0'0179$
            $\approx 0'0180$
===
$\square$

Referencias:

  • Adaptación del Problema propuesto 13.4 del Libro Base

[nota del autor]

Un ejercicio sobre el estimador de la la media de una población normal de varianza conocida

Enunciado:
La emisión de un cierto contaminante procedente del escape de los vehículos con motor de combustión de cierta marca sigue una distribución normal de media $\mu=1'2$ (en unidades arbitrarias) y desviación típica $\sigma=0'4$. Se escoge al azar una muestra de $25$ vehículos. Se pide:
    a) ¿ Cuál es la distribución en el muestreo del estimador de la media ?
    b) Hallar la probabilidad de que la media de la muestra sea mayor de $1'2$


Resolución:
a)
Denotemos por $X$ a la variable aleatoria de la población que describe la cantidad de contaminante emitida: $X \sim N(1'2\,,\,0'4)$; entonces, por el Teorema Central del Límite, el estimador de la media de una población normal sigue también una distribución normal, de media igual a $\mu$ y desviación típica $\sigma / \sqrt{n}$, es decir, $\overline{x}\sim N(\mu \,,\,\sigma / \sqrt{n})$
b)
    $P\{\overline{x} > 1'2\}$
y tipificando la variable
    $P\{ \dfrac{\overline{x}-\mu} {\sigma / \sqrt{n} } > \dfrac{1'2-\mu}{ \sigma / \sqrt{n} } \}$
      $=P\{Z > \dfrac{1'2-1'2}{0'4 / \sqrt{25}} \}$
      $=P\{Z > 0 \} \underset{(1)}{=} 0'5$

        (1) Consultando las tablas de la distribución normal tipificada $N(0,1)$
$\square$

Referencias:

  • Adaptación del Problema propuesto 13.5 del Libro Base

[nota del autor]

Estimadores. Distribución en el muestreo. Estimación de la diferencia de medias de dos poblaciones normales independientes

Enunciado:
Un fabricante de televisores compra piezas a dos compañías. Sabemos que: a) la variable aleatoria que describe duración de las piezas que proporciona la compañía $A_1$ sigue una distribución normal de parámetros $\mu_1=7'2$ años ( media ) y $\sigma_1=0'8$ años ( desviación típica ); b) la variable aleatoria que describe duración de las piezas que proporciona la compañía $A_2$ sigue una distribución normal de parámetros $\mu_2=6'7$ años ( media ) y $\sigma_2=0'7$ años ( desviación típica ). Se extrae una muestra $n_1=34$ piezas de la población de piezas producidas por la compañía $A_1$ y una muestra de $n_2=40$ piezas de la población de piezas producidas por la compañía $A_2$. Calcular la probabilidad de que la media de la muestra de la compañía $A_1$ se al menos un año mayor que la media de la muestra de la compañía $A_2$.


Resolución:
Denotemos por $X$ a la variable aleatoria que describe el tiempo de vida de la población de piezas producidas por la compañía A, que, según el enunciado, sigue una distribución $N(\mu_1,\sigma_1)$, y por $Y$ a la variable aleatoria que describe el tiempo de vida de la población de piezas producidas por la compañía B, que según el enunciado, sigue una distribución $N(\mu_2,\sigma_2)$

Sea $X_1,\ldots,X_{n_1}$ una muestra aleatoria simple procedente de la producción de la compañía A ( $n_1=34$ piezas ) e $Y_1,\ldots,Y_{n_2}$ ( $n_2=40$ piezas ) una muestra aleatoria simple procedente de la compañía B.

Como ambas muestras suponemos que son independientes y los parámetros de las variables aleatorias de las poblaciones $X$ e $Y$ son conocidos, hemos visto en clase que la variable aleatoria que describe el estimador de la diferencia de medias muestrales $\overline{x}_1-\overline{x}_2$ ( distribución en el muestreo ) sigue una distribución normal:
    $\overline{x}_1-\overline{x}_2 \sim N \Big(\;\mu_1-\mu_2\;,\;\sqrt{\dfrac{\sigma_{1}^2}{n_1}+\dfrac{\sigma_{2}^2}{n_2}}\;\Big)$

Tipificando la variable vemos que
    $Z \sim \dfrac{(\overline{x}_1-\overline{x}_2)-(\mu_1-\mu_2)}{\sqrt{\dfrac{\sigma_{1}^2}{n_1}+\dfrac{\sigma_{2}^2}{n_2}}} \sim N(0,1)$

Luego
    $P\{(\overline{x}_1-\overline{x}_2)\ge 1\}=$
        $=P\{Z \ge \dfrac{1-(\mu_1-\mu_2)}{\sqrt{\dfrac{\sigma_{1}^2}{n_1}+\dfrac{\sigma_{2}^2}{n_2}}}\} \underset{(1)}{=} P\{Z\ge 2,8364\}) \underset{(2)}{\approx} 0'0023$


        (1) Sustituyendo los datos del enunciado y consultando las tablas de la distribución normal tipificada $N(0,1)$
        (2) Consultando las tablas de la distribución normal tipificada $N(0,1)$

$\square$


Referencias:
  • Adaptación del Problema 13.11 del Libro Base

[nota del autor]