domingo, 26 de enero de 2014

Contraste de hipótesis sobre una proporción. Cálculo del p-valor (ampliación). Error de tipo I y error de tipo II. Potencia del contraste (ampliación).

Enunciado:
Se sabe que, hace un cierto tiempo, el $52\,\%$ de los ciudadanos estaban en contra de una cierta ley. Recientemente, se ha elaborado una encuesta a $400$ ciudadanos ( muestra aleatoria simple ), y se observó que $184$ de los mismos se mostraban contrarios a dicha ley. ¿ Puede afirmarse, con un coeficiente de significación del $0'01$, que la proporción de los ciudadanos ( en la población ) ha disminuido ?

Resolución:
De acuerdo con los datos, parece razonable plantear el contraste contraste de hipótesis unilateral:
    $H_0:\, p \ge p_0$ ( hipótesis nula o hipótesis estándar: se mantiene la misma situación, esto es: "la proporción de resultados en contra de dicha ley se mantiene o incluso aumenta" )
    $H_1:\, p \prec p_0$ ( hipótesis alternativa: "la proporción de resultados en contra de dicha ley disminuye" )
siendo $p_0$ el valor de la proporción de referencia ( en el pasado ), que es un dato del problema y que es igual a $0'52$

La característica en estudio corresponde a una variable aleatoria $X$ con distribución de Bernoulli, $X \sim B(1,p)$, luego el estadístico con el que procede realizar el contraste de hipótesis corresponde a una variable aleatoria
    $\dfrac{\hat{P}-p_0}{\sqrt{\dfrac{p_0\,(1-p_0)}{n}}} \approx N(0,1)$
donde $n$ es el tamaño de la muestra, que es nuestro caso es $n=400$

De acuerdo con el planteamiento del contraste, aceptaremos $H_0$ si el valor del estadístico $\hat{P}$ observado en la muestra es superior a $p_0$, es decir, si podemos encontrar una constante positiva $c$, con un nivel de confianza de $1-\alpha$, es decir, si
    $P\{\hat{P} \ge p_0 + c\}=1-\alpha$
que, tipificando, también podemos expresar de la forma
    $P\{\dfrac{\hat{P}-p_0}{\sqrt{\dfrac{p_0\,(1-p_0)}{n}}} \ge \dfrac{c}{\sqrt{\dfrac{p_0\,(1-p_0)}{n}}} \}=1-\alpha$
esto es
    $P\{Z \ge \dfrac{c}{\sqrt{\dfrac{p_0\,(1-p_0)}{n}}} \}=1-\alpha$
y, denotando por $z_{1-\alpha}$ al valor del miembro derecho de la desigualdad del argumento
    $z_{1-\alpha}:=\dfrac{c}{\sqrt{\dfrac{p_0\,(1-p_0)}{n}}}$
el cual representa la abscisa de la función de densidad $f(z)$ que deja a la derecha el $(1-\alpha)\cdot 100 \,\%$ de la distribución ( respectivamente a la izquierda, el $\alpha \cdot 100\, \%$ de la distribución )
y que obtener a partir de la consulta de la tabla $N(0,1)$ de la función de distribución de probabilidad $F(z)$ procediendo de la manera que sigue
podemos la condición expresada arriba de la forma
    $P\{Z \ge z_{1-\alpha}\}=1-\alpha$
es decir, y para el caso que nos ocupa, para un nivel de significación $\alpha=0'01$:
    $P\{Z \ge z_{1-0'01}\}=1-0'01$
esto es
    $P\{Z \ge z_{0'99}\}=0'99$
que, habida cuenta de que el valor de probabilidad $0'99$, no podemos obtenerlo directamente en las tablas, podemos escribir la probabilidad pedida de la forma
    $1-P\{Z \le z_{0'99}\}=0'99$
luego
    $P\{Z \le z_{0'99}\}=1-0'99=0'01$
y, por simetría de la función de densidad de probabilidad $f(z)$, es igual a
    $P\{Z \ge -z_{0'99}\}=0'01$
valor que sí encontramos directamente en las tablas y que corresponde a la abscisa
    $-z_{0'99}=2'33$ ( operando con dos decimales )
por tanto
    $z_{0'99}=-2'33$
luego el intervalo de valores del estadístico que corresponde a la región de aceptación de la hipótesis nula, $H_0$, es $C^{*}=[-2'33 \,,\, +\infty )$

Observamos que valor del estadístico del contraste en la muestra seleccionada es
        $\dfrac{0'46-0'52}{\sqrt{\dfrac{0'52\,(1-0'52)}{400}}} \approx -2'40 \notin C^{*}$
luego rechazamos $H_0$, y por tanto, aceptamos la hipótesis alternativa $H_1$ ( "la proporción en contra de dicha ley ha disminuido" ) con un coeficiente de significación de $0'01$ ( nivel de confianza del $99\,\%$ ).
$\square$

-oOo-

Observación 1. (Error de tipo I. Interpretando el coeficiente de significación del test. Calculando el p-valor):     Recordemos que el nivel de significación del test representa el error de tipo I, que se define como a probabilidad de rechazar la hipótesis nula, siendo ésta cierta. Así pues, cuánto más confiemos en la validez de la hipótesis nula, menor tendrá que ser el nivel de significación $\alpha$ que le asignemos de antemano, por lo tanto, éste es un punto delicado del contraste, de ahí la importancia de calcular el p-valor, o nivel de significación observado, al objeto de cotejar la decisión que tomemos a partir de la ubicación del valor observado del estadístico del contraste en la región de aceptación de la hipótesis nula o bien en la región crítica ( de rechazo de la hipótesis nula ).

El p-valor es el nivel de significación observado; en otras palabras: el menor coeficiente de significación - esto es, la probabilidad observada de rechazar H_0 siendo ésta cierta - con el que podríamos, por tanto, rechazar la hipótesis nula $H_0$. Si el p-valor que encontremos es pequeño, pongamos, inferior a $0'01$ ( la probabilidad de rechazar la hipótesis nula siendo ésta cierta es pequeña ) querrá decir que, en buena lógica, no podremos justificar la decisión de aceptarla y, en consecuencia, la rechazaremos ( aceptando la hipótesis alternativa ).

Calculemos pues el p-valor:
    p-valor:=Probabilidad_observada("rechazar $H_0$ siendo $H_0$ es cierta")=
      $=P\{Z \prec -2'33 | p_{0} \ge 0'52\}$
      $=P_{H_{0}}\{Z \succ 2'33\}$
      $=0'0099$
valor que es demasiado pequeño ( en particular, inferior al nivel de significación $\alpha=0'01$ fijado de antemano ), para poder aceptar la hipótesis nula $H_0$
luego, de acuerdo a este nivel de significación observado, se confirma la decisión de rechazar $H_0$ y aceptar la hipótesis nula.


Observación 2. ( Error de tipo II):     Además del error de tipo I ( que deberíamos cuidar de evitar, rebajando de antemano el coeficiente de significación del test pues, por ejemplo, en un juicio el no hacerlo supondría violar el principio de presunción de inocencia ), también debemos considerar otro tipo de error: el que proporciona la probabilidad de aceptar la hipótesis nula ( hipótesis estándar ) siendo ésta falsa ( en un juicio, por ejemplo, ésto correspondería a cometer el error de declarar inocente a un culpable). Éste otro error es el llamado error de tipo II ( menos importante que el primero, como es lógico).

Observación 3. ( Valorando la potencia del test):     El complemento a uno del error de tipo II es la probabilidad de rechazar la hipótesis nula siendo ésta falsa, probabilidad que se interpreta como la capacidad o potencia del contraste o test.

A modo de ejemplo, vamos a calcular la potencia del contraste en este ejercicio:

    potencia del test:=P(rechazar $H_0$ | $H_0$ falsa )
        =P( aceptar $H_1$ | $H_1$ cierta )
        =P( $p$ caiga a la izquierda de ($\hat{p}-c$) | $H_1$ cierta )
        $= P \{p\prec \hat{p}-z_{1-\alpha} \cdot \sqrt{\dfrac{p\,(1-p)}{n}} \;| \; p \prec p_0 \}$
pues el intervalo correspondiente a la zona crítica ( que corresponde a rechazar $H_0$ y, por tanto, a aceptar $H_1$ ) es
    $C=(-\infty\,,\, \hat{p}-z_{1-\alpha} \cdot \sqrt{\dfrac{p\,(1-p)}{n}}]$
por lo que seguimos el cálculo escribiendo que la última línea del mismo es igual a
    $P \{ \dfrac{p-\hat{p}}{\sqrt{\dfrac{p\,(1-p)}{n}}} \prec - z_{1-\alpha} \;| \; p \prec p_0 \}$
        $= P \{ \dfrac{\hat{p}-p}{\sqrt{\dfrac{p\,(1-p)}{n}}} \succ z_{1-\alpha} \;| \; p \prec p_0 \}$
luego, tomando un valor ligeramente superior a $-2'33$ ( valor de la abscisa encontrada antes, supuesta $H_0$ cierta ) para la nueva abscsisa $z$ compatible con la condición ( $H_1$ cierta ), como por ejemplo $-2'3$, y prosiguiendo el cálculo, encontramos
        $\approx P_{H_1} \{ \dfrac{\hat{p}-p}{\sqrt{\dfrac{p\,(1-p)}{n}}} \succ -2'3 \}$
es decir
        $= P_{H_1} \{ Z \succ -2'3 \}$
        $= 1-P_{H_1} \{ Z \prec -2'3 \}$
        $= 1-P_{H_1} \{ Z \succ 2'3 \}$
y consultando las tablas de la distribución $N(0,1)$ encontramos
        $= 1-0'0179$
        $\approx 0'98$
pudiendo valorar por tanto dicho test con una potencia del $98\,\%$. $\square$



- - -

Referencias:
  [1] Compta, A., et. al., Matemàtiques II, Barcanova, Barcelona, 1993
  [2] Guàrdia, J.; Viader, M., Estadística, Castellnou, Barcelona, 1999
  [3] García Pérez, A., Estadística Básica con R, UNED, Madrid, 2010
  [4] Allepús, J., et. al., Exercicis d'inferència estadística, Cossetània, Valls, 2002
  [5] Gonick, L.; Smith, W, La Estadística en Cómic, Zendrera Zariquiey, Barcelona, 1999

No hay comentarios:

Publicar un comentario

Gracias por tus comentarios