miércoles, 18 de marzo de 2015

Introducción al contraste de hipótesis

ENUNCIADO:
Consideremos una urna que contiene un número muy grande de bolas, la mitad de las cuales son blancas y la otra mitad rojas. Se han extraído $40$ bolas de dicha urna y se nos informa que han aparecido $8$ bolas rojas ( y $32$ bolas blancas ). ¿ Es razonable considerar representativa a dicha muestra ? Razonar la respuesta.

SOLUCIÓN:
Consideremos la hipótesis La muestra es representativa, esto es: la elección de las bolas, una a una, se ha realizado con reemplazamiento - las extracciones sucesivas son independientes - y removiendo bien las bolas antes de extraer la siguiente bola, es decir, de manera aleatoria.

Llamamos a esta hipótesis, hipótesis fundamental ( que denotamos por $H_0$ ), pues ésta respalda la presunción de que la muestra no ha sido amañada ( la muestra es representativa ), atribuyendo a la casualidad el hecho de que aparecen en la muestra menos bolas blancas de lo que podríamos aventurar, de acuerdo con el valor esperado, que rondaría la cantidad de unas $20$ bolas rojas.

En oposición a la hipótesis fundamental surge, lógicamente, la hipótesis alternativa, $H_{1}$: la muestra ha sido amañada, es decir, la muestra no es representativa.

De acuerdo con la medida de la muestra, y recurriendo a la teoría de la probabilidad, debemos contrastar una hipótesis frente a la otra. Para ello, razonamos del siguiente modo: Como la variable aleatoria número de bolas rojas que aparecen en la muestra debe seguir el modelo binomial $B(40,0'5)$ ( pruebas sucesivas e independientes de Bernouilli ), entonces al calcular la probabilidad de obtener a lo sumo $8$ bolas rojas en la muestra de tamaño $40$, si ésta ( a la que denominamos $p$-valor ) resulta lo suficientemente pequeña, será muy razonable rechazar la hipótesis fundamental.

Veamos qué obtenemos:
$$\displaystyle P\lbrace X \le 8 | H_0 \rbrace = \sum_{i=0}^{8}\,\binom{40}{i}\,0'5^{i}\,(1-0'5)^{40-i} \approx 0'00009$$
Como este valor ( $p$-valor ) es lo suficientemente pequeño ( muy pequeña, realmente ), es razonable rechazar la hipótesis nula, concluyendo, por lo que se ha expuesto arriba, que la muestra de bolas adolece de sesgo, posiblemente voluntario ( la muestra ha sido amañada ) y, por tanto, debemos concluir que dicha muestra no es representativa.


OBSERVACIÓN:
Como no siempre obtendremos valores de dicha probabilidad tan claramente pequeños, a menudo, para poder concluir si aceptamos o no la hipótesis fundamental, tendremos que decidir el valor de una cota -- que denominaremos nivel de significación del test ( y que denotaremos por $\alpha$ ) -- de tal modo que para valores mayores de la probabilidad calculada para el valor medido en la muestra ( aparecen $8$ bolas blancas ), nos lleve a aceptar la hipótesis fundamental ( o hipótesis nula ) y, por consiguiente, a emitir, como conclusión del test que, de acuerdo con dicho nivel de significación, debemos dar por válida la hipótesis fundamental.

Por ejemplo, ¿ qué decisión habríamos tomado de ser dicha probabilidad no tan pequeña ?, pongamos que $0'0534$, que es el resultado de plantear el mismo problema con una muestra de $25$ bolas, pues
$$\displaystyle P\lbrace X \le 8 | H_0 \rbrace = \sum_{i=0}^{8}\,\binom{25}{i}\,0'5^{i}\,(1-0'5)^{25-i} \approx 0'0534$$
Démonos cuenta de que, en esta nueva situación ( la probabilidad calculada ya no es tan pequeña como en la situación original ), conviniendo que para el nivel de significación del test, $\alpha$, que éste sea de $0'01$, es evidente que al ser menor que el de la probabilidad calculada, deberíamos, ahora, aceptar la hipótesis nula ( concluir que la muestra es representativa, a dicho nivel de significación ).

Y, por por el contrario, en el caso de ser dicha probabilidad calculada ( para el valor medido en la muestra, esto es, para $8$ bolas rojas ) menor que el nivel de significación, $\alpha$, pongamos que convengamos $\alpha=0'1$, deberíamos, para este otro nivel de significación, rechazar la hipótesis nula y, por tanto, aceptar la hipótesis alternativa.

COMENTARIOS:
a) Denominamos error de tipo I a $P( \text{rechazar} \, H_0 | H_0 \, \text{cierta} ) $ y, precisamente, es éste el valor del nivel de significación $\alpha$; por lo tanto, el $p-\text{valor}$ ( calculado arriba en el primer supuesto ) representa el nivel de significación observado, esto es, el error de tipo I observado; con lo cual, debemos entender el nivel de significación preestablecido del test, $\alpha$, como una cota del dicho nivel de significación, lo razonablemente pequeña. Tengamos en cuenta que de ser $\alpha$ muy pequeño, el test siempre conducirá a validar la hipótesis fundamental, mientras que si, por el contrario, es demasiado grande, el test siempre conducirá a rechazarla, en favor de la hipótesis alternativa. Así pues, cuánto más dudemos de la validez de la hipótesis fundamental, mayor debería ser el nivel de significación preestablecido, $\alpha$, del test.

b) Denominamos error de tipo II a $P( \text{aceptar} \, H_0 | H_0 \, \text{falsa} )$, que abreviamos como $\beta$, y, potencia del test, a $P( \text{rechazar} \, H_0 | H_0 \, \text{falsa})$, esto es, $1-\beta$. De esto se deduce que al disminuir el error de tipo II ( evitar el considerar como no significativos hechos no casuales ), aumenta la potencia del test; sin embargo, debemos tener en cuenta que al reducir el error de tipo II, aumenta, por contra, el error de tipo I ( es decir $\alpha$ ), que es el que se debería minimizar con preferencia a minimizar el de tipo II, pues de establecer dicha cota de error de tipo I grande ( de manera preestablecida ), ello abocaría a considerar indebidamente como significativas lo que podrían ser meras casualidades ( en el caso de un juicio, esto podría llevar a tomar la decisión de considerar culpable a un inocente [!] ).


$\square$

- - -

Referencias:
  [1] Compta, A., et. al., Matemàtiques II, Barcanova, Barcelona, 1993
  [2] Guàrdia, J.; Viader, M., Estadística, Castellnou, Barcelona, 1999
  [3] García Pérez, A., Estadística Básica con R, UNED, Madrid, 2010
  [4] Allepús, J., et. al., Exercicis d'inferència estadística, Cossetània, Valls, 2002
  [5] Gonick, L.; Smith, W, La Estadística en Cómic, Zendrera Zariquiey, Barcelona, 1999

No hay comentarios:

Publicar un comentario

Gracias por tus comentarios