Processing math: 0%

miércoles, 18 de marzo de 2015

Introducción al contraste de hipótesis

ENUNCIADO:
Consideremos una urna que contiene un número muy grande de bolas, la mitad de las cuales son blancas y la otra mitad rojas. Se han extraído 40 bolas de dicha urna y se nos informa que han aparecido 8 bolas rojas ( y 32 bolas blancas ). ¿ Es razonable considerar representativa a dicha muestra ? Razonar la respuesta.

SOLUCIÓN:
Consideremos la hipótesis La muestra es representativa, esto es: la elección de las bolas, una a una, se ha realizado con reemplazamiento - las extracciones sucesivas son independientes - y removiendo bien las bolas antes de extraer la siguiente bola, es decir, de manera aleatoria.

Llamamos a esta hipótesis, hipótesis fundamental ( que denotamos por H_0 ), pues ésta respalda la presunción de que la muestra no ha sido amañada ( la muestra es representativa ), atribuyendo a la casualidad el hecho de que aparecen en la muestra menos bolas blancas de lo que podríamos aventurar, de acuerdo con el valor esperado, que rondaría la cantidad de unas 20 bolas rojas.

En oposición a la hipótesis fundamental surge, lógicamente, la hipótesis alternativa, H_{1}: la muestra ha sido amañada, es decir, la muestra no es representativa.

De acuerdo con la medida de la muestra, y recurriendo a la teoría de la probabilidad, debemos contrastar una hipótesis frente a la otra. Para ello, razonamos del siguiente modo: Como la variable aleatoria número de bolas rojas que aparecen en la muestra debe seguir el modelo binomial B(40,0'5) ( pruebas sucesivas e independientes de Bernouilli ), entonces al calcular la probabilidad de obtener a lo sumo 8 bolas rojas en la muestra de tamaño 40, si ésta ( a la que denominamos p-valor ) resulta lo suficientemente pequeña, será muy razonable rechazar la hipótesis fundamental.

Veamos qué obtenemos:
\displaystyle P\lbrace X \le 8 | H_0 \rbrace = \sum_{i=0}^{8}\,\binom{40}{i}\,0'5^{i}\,(1-0'5)^{40-i} \approx 0'00009
Como este valor ( p-valor ) es lo suficientemente pequeño ( muy pequeña, realmente ), es razonable rechazar la hipótesis nula, concluyendo, por lo que se ha expuesto arriba, que la muestra de bolas adolece de sesgo, posiblemente voluntario ( la muestra ha sido amañada ) y, por tanto, debemos concluir que dicha muestra no es representativa.


OBSERVACIÓN:
Como no siempre obtendremos valores de dicha probabilidad tan claramente pequeños, a menudo, para poder concluir si aceptamos o no la hipótesis fundamental, tendremos que decidir el valor de una cota -- que denominaremos nivel de significación del test ( y que denotaremos por \alpha ) -- de tal modo que para valores mayores de la probabilidad calculada para el valor medido en la muestra ( aparecen 8 bolas blancas ), nos lleve a aceptar la hipótesis fundamental ( o hipótesis nula ) y, por consiguiente, a emitir, como conclusión del test que, de acuerdo con dicho nivel de significación, debemos dar por válida la hipótesis fundamental.

Por ejemplo, ¿ qué decisión habríamos tomado de ser dicha probabilidad no tan pequeña ?, pongamos que 0'0534, que es el resultado de plantear el mismo problema con una muestra de 25 bolas, pues
\displaystyle P\lbrace X \le 8 | H_0 \rbrace = \sum_{i=0}^{8}\,\binom{25}{i}\,0'5^{i}\,(1-0'5)^{25-i} \approx 0'0534
Démonos cuenta de que, en esta nueva situación ( la probabilidad calculada ya no es tan pequeña como en la situación original ), conviniendo que para el nivel de significación del test, \alpha, que éste sea de 0'01, es evidente que al ser menor que el de la probabilidad calculada, deberíamos, ahora, aceptar la hipótesis nula ( concluir que la muestra es representativa, a dicho nivel de significación ).

Y, por por el contrario, en el caso de ser dicha probabilidad calculada ( para el valor medido en la muestra, esto es, para 8 bolas rojas ) menor que el nivel de significación, \alpha, pongamos que convengamos \alpha=0'1, deberíamos, para este otro nivel de significación, rechazar la hipótesis nula y, por tanto, aceptar la hipótesis alternativa.

COMENTARIOS:
a) Denominamos error de tipo I a P( \text{rechazar} \, H_0 | H_0 \, \text{cierta} ) y, precisamente, es éste el valor del nivel de significación \alpha; por lo tanto, el p-\text{valor} ( calculado arriba en el primer supuesto ) representa el nivel de significación observado, esto es, el error de tipo I observado; con lo cual, debemos entender el nivel de significación preestablecido del test, \alpha, como una cota del dicho nivel de significación, lo razonablemente pequeña. Tengamos en cuenta que de ser \alpha muy pequeño, el test siempre conducirá a validar la hipótesis fundamental, mientras que si, por el contrario, es demasiado grande, el test siempre conducirá a rechazarla, en favor de la hipótesis alternativa. Así pues, cuánto más dudemos de la validez de la hipótesis fundamental, mayor debería ser el nivel de significación preestablecido, \alpha, del test.

b) Denominamos error de tipo II a P( \text{aceptar} \, H_0 | H_0 \, \text{falsa} ), que abreviamos como \beta, y, potencia del test, a P( \text{rechazar} \, H_0 | H_0 \, \text{falsa}), esto es, 1-\beta. De esto se deduce que al disminuir el error de tipo II ( evitar el considerar como no significativos hechos no casuales ), aumenta la potencia del test; sin embargo, debemos tener en cuenta que al reducir el error de tipo II, aumenta, por contra, el error de tipo I ( es decir \alpha ), que es el que se debería minimizar con preferencia a minimizar el de tipo II, pues de establecer dicha cota de error de tipo I grande ( de manera preestablecida ), ello abocaría a considerar indebidamente como significativas lo que podrían ser meras casualidades ( en el caso de un juicio, esto podría llevar a tomar la decisión de considerar culpable a un inocente [!] ).


\square

- - -

Referencias:
  [1] Compta, A., et. al., Matemàtiques II, Barcanova, Barcelona, 1993
  [2] Guàrdia, J.; Viader, M., Estadística, Castellnou, Barcelona, 1999
  [3] García Pérez, A., Estadística Básica con R, UNED, Madrid, 2010
  [4] Allepús, J., et. al., Exercicis d'inferència estadística, Cossetània, Valls, 2002
  [5] Gonick, L.; Smith, W, La Estadística en Cómic, Zendrera Zariquiey, Barcelona, 1999

No hay comentarios:

Publicar un comentario

Gracias por tus comentarios