14Teste de hipóteses para a média de uma população normal com variância conhecida
Agora vamos discutir o problema de se testar uma afirmação sobre a média de uma população normal com variância populacional conhecida.
Suponha que desejamos testar se a altura média de uma determinada população é superior de 1,67m, quando é de conhecimento que o desvio padrão populacional da altura é de 0,15 m. Como verificar essa afirmação?
Suponha que foi coletada uma amostra de 25 pessoas desta população. Neste momento, vocês estão estudando testes de hipóteses, no qual a hipótese nula é uma hipótese simples (um único valor para o parâmetro) e a hipótese alternativa é composta (vários valores para o parâmetro).
No problema descrito acima queremos testar as seguintes hipóteses:
\(H_0\): A altura média é igual a 1,67 metros (\(\mu\) = 1,67),
\(H_1\): A altura média é superior a 1,67 metros (\(\mu\) > 1,67).
Como podemos criar uma regra de decisão que permita escolhermos uma das hipóteses criadas. Pensando sobre essa prerrogativa, desejamos criar uma regra de decisão que utilize os dados observados para uma tomada de decisão. Qual dessas hipóteses parece ser mais “suportada” pelos dados?
Como estamos falando da altura média da população, podemos pensar que a altura média amostral poderia ser utilizada para nos ajudar a tomar esta decisão.
Olhando. para as hipóteses especificadas, podemos pensar que valores grandes de \(\bar{x}\) são mais favoráveis a hipótese alternativa \((H_1)\) do que a hipótese de nulidade \((H_0)\). Sendo assim, vamos definir uma região favorável a hipótese alternativa chamada de região crítica:
Para as hipóteses definidas, a região crítica será unilateral a direita, uma vez que somente valores grandes de \(\bar{x}\) são favoráveis a \(H_1\). A grande questão é, a partir de que valor a altura média amostral será considerada grande o suficiente para dar suporte a hipótese alternativa?
Para especificarmos esse valor, definimos o erro que podemos controlar na regra de decisão (teste de hipóteses), chamado de erro tipo I, ou nível de significância:
\[
\mbox{Erro Tipo I} = P(\mbox{Rejeitar } H_0| H_0 \mbox{ é verdadeiro}) = \alpha.
\]
Usualmente escolhemos valores pequenos para \(\alpha\) uma vez que o mesmo reflete um erro que estamos dispostos a cometer. Com base em \(\alpha\) vamos definir um valor de \(k\) para especificarmos a região crítica. Veja que iremos rejeitar \(H_0\) quando \(\bar{x}\) pertencer a região crítica e como trata-se de uma probabilidade, só conseguimos calcular esta probabilidade se conhecermos a distribuição de probabilidade de \(\bar{X}\). Sendo assim:
\(k\) é o quantil que deixa uma probabilidade \(\alpha\) acima dele (ou \(1 - \alpha\) abaixo dele). Logo, se especificarmos o valor de \(\alpha\), conheceremos o valor de \(k\). Vamos criar uma rotina computacional, que recebe como argumentos a amostra x, o valor da variância populacional sigma2, o nível de significância alpha e o valor da média populacional em \(H_0\), e retorna a região crítica para este teste de hipóteses.
Atividade 1: Importem o arquivo Medidas.rds e armazenem em um objeto chamado base.
A rotina será chamada de RC_unid, pois essa rotina poderá ser aplicada para testes de hipóteses para a média de uma população normal, com variância conhecida, com hipótese alternativa unilateral a direita, isto é, quando valores grandes da média amostral formarem a região crítica.
#Função que retorna a região crítica de um teste de hipóteses unilateral a direita para a média de uma população normal com variância conhecidaRC_unid =function(x,sigma2,alpha,mu0){#definindo o tamanho da amostra n =length(x)#calculando o quantil k da distribuição de x.barra k =qnorm(p = alpha,mean = mu0,sd =sqrt(sigma2/n),lower.tail =FALSE)#Criando a mensagem que a função retornacat("Região crítica: x.barra maior ou igual a ", round(k, digits =2)) }
A função acima retorna a região crítica com duas casas decimais. Vamos aplicar a função nos dados observados de altura.
#Aplicando a função nos dados de alturaRC_unid(x = base$altura,sigma2 =0.15^2,alpha =0.05,mu0 =1.67)
Para tomarmos uma decisão, precisamos obter o valor da altura média amostral.
#Altura média amostral com duas casas decimaisround(mean(x = base$altura, na.rm =TRUE), digits =2)
[1] 1.69
Vemos que o valor de \(\bar{x} = 1,69\). Sendo assim, com base em um nível de significância de \(5\%\), não rejeitamos \(H_0\), pois \(\bar{x} \notin RC\), logo, os dados observados não fornecem evidência de que a altura média populacional seja superior a 1,67 cm.
Note que, mesmo com uma estimativa pontual superior a 1,67 (aproximadamente 1,69), com base em um nível de significância de 5%, não rejeitamos \(H_0\), não encontramos evidências para acreditar que a altura média seja superior a 1,67m.
A maioria dos softwares estatísticos não nos fornecem as regiões críticas para a tomada de decisão de um teste de hipóteses. Eles costumam fornecer uma medida para a tomada de decisão, chamada de p-valor (ou ainda de nível descritivo ou probabilidade de significância) definida por
\[
\mbox{p-valor} = P(\mbox{Observar valores mais extremos do que os fornecidos pela amostra})
\]
Neste caso, extremos pra gente sempre vai ser algo favorável a hipótese alterenativa \(H_1\). Logo, se a probabilidade de observarmos valores mais extremos do que os fornecidos pela amostra for pequena, é poque a amostra possui valores extremos, sendo assim, essa amostra é favorável a \(H_1\). Por outro lado, se a probabilidade de observarmos valores mais extremos do que os fornecidos pela amostra for grande, é poque a amostra não possui valores extremos, sendo assim, essa amostra é favorável a \(H_0\). A tomada de decisão com base no p-valor será
A forma de calcular o p-valor vai depender das hipóteses especificadas. Por exemplo, num teste unilateral a direita, ser extremo é ser grande. Num teste unilateral a esquerda, ser extremo é ser pequeno. Num teste bilateral, ser extremo ou é ser grande ou é ser pequeno. Cuidado no cálculo desta probabilidade! Neste exemplo que estamos discutindo
\[\begin{eqnarray}
\mbox{p-valor} & = & P(\mbox{Observar valores mais extremos do que os fornecidos pela amostra}) \\
& = & P\left(\bar{X} > \bar{x} | \bar{X} \sim N\left(\mu_0, \frac{\sigma^2}{n}\right) \right) \\
& = & P\left(\bar{X} > 1,6888 | \bar{X} \sim N\left(1,67, \frac{0,15^2}{25}\right) \right) \\
\end{eqnarray}\]
Vamos criar uma rotina computacional, chamada p_unid, que recebe como argumentos a amostra x, o valor da variância populacional sigma2 e o valor da média populacional em \(H_0\), e retorna o p-valor para o teste de hipóteses para a média unilateral a direita de uma população normal com variância populacional conhecida.
#Função que retorna o p-valor de um teste de hipóteses unilateral a direita para a média de uma população normal com variância conhecidap_unid =function(x,sigma2,mu0){#definindo o tamanho da amostra n =length(x)#calculando o p-valor pval =pnorm(q =mean(x),mean = mu0,sd =sqrt(sigma2/n),lower.tail =FALSE)#Retornando o p-valorreturn(pval)}
Vamos aplicar a função nos dados observados de altura.
#Aplicando a função nos dados de alturap_unid(x = base$altura,sigma2 =0.15^2,mu0 =1.67)
[1] 0.2654389
Com base em um nível de significância de 5%, não rejeitamos \(H_0\), pois \(\mbox{p-valor} > \alpha\), não encontramos evidências para acreditar que a altura média seja superior a 1,67m.
Vemos que a probabilidade de observarmos valores mis extremos do que os fornecidos pela amostra é alta, logo, a amostra observada não é um valor extremo, não dando suporte para a hipótese alternativa.
14.1 Desafio
Considerando que a circunferência da cintura (em cm) possui população normal. Teste a hipótese de que a circunferência média é superior a 78 cm. Sabemos que a variância da circunferência é de 6,2 \(\mbox{cm}^2\). Use \(\alpha = 0,05\).
Refaça o item anterior, usando \(\alpha = 0,01\). Sua conclusão mudaria?
Crie uma função que apresenta a região crítica de um teste unilateral a esquerda para a média de uma população normal com variância populacional conhecida.
Crie uma função que calcula o p-valor de um teste bilateral para a média de uma população normal com variância populacional conhecida.
Verifique se a idade média desta população é inferior a 55 anos. Sabemos que o desvio padrão da idade é de 18 anos. Use \(\alpha = 0,05\).
Verifique se o peso médio desta população é diferente de 71 kg. Sabemos que a variância do peso é de 24 \(\mbox{Kg}^2\). Use \(\alpha = 0,05\).