Agora vamos discutir o problema de se testar uma afirmação sobre uma proporção populacional.
Suponha que estamos em um período eleitoral e o candidato A afirma que sua intenção de votos no 1º turno é superior a 30%. Como verificar essa afirmação?
Estamos discutindo regras de decisões que nos permitem checar afirmações sobre parâmetros, conhecidos como testes de hipóteses.
Sabemos que cada teste de hipóteses possui suas especificações, incluindo suas estatísticas de teste e pressupoições.
No problema levantado queremos testar as seguintes hipóteses:
\(H_0\): a proporção de intenção de votos do candidato A no 1º turno é igual a 0,3 (\(p=0,3\)),
\(H_1\): a proporção de intenção de votos do candidato A no 1º turno é superior a 0,3 (\(p>0,3\)).
Para verificar a afirmação, foram entrevistados 450 eleitores da cidade W. Para executarmos o teste acima, usaremos a função prop.test do pacote stats.
A seguir, vamos apresentar os principais argumentos da funçãoprop.test:
- x - o número de sucessos observados na amostra;
- n - o tamanho da amostra;
- alternative - argumento que define se o teste é bilateral ou unilateral a esquerda e a direita (default = bilateral - two.sided),
- correct - argumento que define se será aplicada a correção de continuidade na estatística de teste (default = TRUE).
Atividade 1: Importem o arquivo votos.csv e armazenem em um objeto chamado base_votos.
#Realizando o testeprop.test(x =sum(base_votos$votosA_1T),n =length(base_votos$votosA_1T),p =0.3,alternative ="greater",correct =FALSE)
1-sample proportions test without continuity correction
data: sum(base_votos$votosA_1T) out of length(base_votos$votosA_1T), null probability 0.3
X-squared = 6.0952, df = 1, p-value = 0.006777
alternative hypothesis: true p is greater than 0.3
95 percent confidence interval:
0.3172463 1.0000000
sample estimates:
p
0.3533333
A saída do teste contém várias informações: o valor da estatística do teste \(X\)-squared, o número de graus de liberdade da estatística de teste (df) e o p-valor associado as hipóteses especificadas (p-value). Ele deixa explícito qual a hipótese alternativa “true p is greater than 0.3” que significa “a verdadeira proporção é maior que 0.3”. Fornece também um intervalo de confiança unilateral (que não tem muita utilização, a menos que fosse um teste de hipóteses bilateral, pois seria o IC para o parâmetro) e o valor de uma estimativa pontual.
Notamos que o valor da estimativa pontual é superior a 0,3 (aproximadamente 0,35). Para verificarmos a afirmação feita pelo candidato A no 1o turno, vamos usar um nível de significância de 5%. Com base em um \(\alpha\)=0,05, p-valor é menor do que \(\alpha\), logo rejeitamos \(H_0\), ou seja, existem evidências para acreditar que proporção de eleitores com intenção de voto no candidato A seja superior a 30%, isto é, o candidato está falando a verdade.
O candidato chegou a fazer a afirmação de que se as eleições do 2º turno fossem hoje, ele seria eleito. Vamos checar essa afirmação?!
Para que ele seja eleito no 2º turno, ele precisa ter mais de 50% das intenções de voto, logo as hipóteses que iremos testar são dadas por:
\(H_0\): a proporção de intenção de votos do candidato A no 2º turno é igual a 0,5 (\(p=0,5\)),
\(H_1\): a proporção de intenção de votos do candidato A no 2º turno é superior a 0,5 (\(p>0,5\)).
#Realizando o testeprop.test(x =sum(base_votos$votosA_2T),n =length(base_votos$votosA_2T),p =0.5,alternative ="greater",correct =FALSE)
1-sample proportions test without continuity correction
data: sum(base_votos$votosA_2T) out of length(base_votos$votosA_2T), null probability 0.5
X-squared = 2.5689, df = 1, p-value = 0.05449
alternative hypothesis: true p is greater than 0.5
95 percent confidence interval:
0.4990083 1.0000000
sample estimates:
p
0.5377778
Comentários de cada passo da análise:
A estimativa pontual é de 53,78%.
A estimativa pontual nos mostra que a proporção de votos do candidato A é de 53,78%. A função utilizada prop.test pertence ao pacote stats. Sugere-se que seja feita uma correção de continuidade ao se realizar um teste de uma proporção pelo fato de se aproximar a distribuição Binomial, que é discreta, por uma Normal, que é contínua. O teste usual que vocês aprendem em Estatística II, não considera a correção de continuidade.
Com base em um nível de significância de 1%, não rejeitamos \(H_0\), indicando que não possuímos evidências suficiente para acreditar que a proporção de votos no candidato A no 2º turno seja superior a 50%.
18.1 Função poder
Suponha que desejamos testar as seguintes hipóteses sobre a proporção populacional \(p\), \[H_0: p = 0,4 \qquad \times \qquad H_1: p < 0,4.\]
O teste acima possui uma região crítica definida por\[ RC = \{\hat{p}: \hat{p} \leq k\}.\]
Se desejamos calcular o poder do teste (chamado de \(\pi\)) associado ao teste acima, devemos calcular
Para resolver a probabilidade acima é necessário conhecer \(k\), mas este só será conhecido se fixarmos um valor para \(\alpha\) = P(Erro Tipo I), por exemplo, vamos definí-lo como 0,05:
\[\begin{eqnarray}
\alpha & = & P(\mbox{Erro Tipo I })\\
& = & P(\mbox{Rejeitar } H_0| H_0 \mbox{ é verdadeira})\\
& = & P(\hat{p} \in RC | H_0 \mbox{ é verdadeira})\\
& = & P\left(\hat{p} \leq k| \hat{p} \sim N \left( 0,4; \frac{0,4 \times 0,6}{n}\right) \right)\\
\end{eqnarray}\]
Deste modo é possível definir o valor de \(k\), basta encontrarmos o quantil da distribuição de \(\hat{p}\) que deixa uma área abaixo dele de \(0,05\) (\(k(0,05)\)).
De forma genérica, Definido o valor de \(k(\alpha)\), podemos calcular \(\pi\)?
Note que só é possível calcularmos \(\pi\) se conhecermos a distribuição de probabilidade de \(\hat{p}\). A mesma só será conhecida se definirmos um valor para \(p\), então \(\pi\) é uma função de \(p\), logo, podemos escrever
Com base nas equações desenvolvidas acima, podemos criar uma função que receberá como argumentos: tamanho da amostra, nível de significância, valor da proporção a ser testado (em \(H_0\)) e \(p\) - o valor da proporção na qual será calculado o poder do teste.
#Criando uma função que calcula o poder do teste para um teste de hipóteses#unilateral a esquerda da proporçãopoder.punie =function(n,alfa,p,p0){#Calculando o quatil que define a RC k =qnorm(p = alfa,mean = p0,sd =sqrt((p0*(1-p0))/n))#Calculando o poder para um p específico pi =pnorm(q = k, mean = p, sd =sqrt((p*(1-p))/n))#Retornando o poderreturn(pi)}
Suponha que foi observada uma amostra de 30 indivíduos, qual será o poder do teste se \(p =\) 0,2?
#Calculando o poder para p = 0,2poder.punie(n =30,alfa =0.05,p =0.2,p0 =0.4)
[1] 0.7654938
Notamos que a probabilidade de afirmarmos que a proporção é menor do que 0,4 quando na verdade ela é 0,2 é de aproximadamente 76%.
Como podemos obter esta probabilidade para diversos valores de \(p\), vamos plotar a função poder criada para valores de \(p\) de 0 a 0,5?
#Carregando pacotelibrary(ggplot2)library(tibble)#Plotando a função do erro tipo IIggplot(data =tibble(val =c(0,0.5)), mapping =aes(x = val)) +stat_function(fun = poder.punie,args =list(n =30,alfa =0.05,p0 =0.4)) +xlab("p") +ylab(expression(pi(p))) +theme_minimal()
Percebemos que quanto menor for o valor de \(p\), maior é a probabilidade do teste dizer que a proporção é menor do que 0,4. Isso faz todo o sentido, uma vez que representam situações mais fáceis para o teste acertar.
18.2 Desafio
Com base no arquivo Medidas. Teste se a proporção de pessoas com peso superior a 70 Kg é menor do que 40%. Use um nível de significância de 5%.
Com base no arquivo Medidas. Teste se a proporção de pessoas com altura inferior a 1,70 é diferente de 25%. Use um nível de significância de 5%.
Crie uma função que calcula o poder para um teste bilateral para a porporção. Avalie a função usando \(n = 30\), \(\alpha = 0,05\), \(p = 0,7\), \(p_0 = 0,6\). Interprete o resultado obtido.
Plote a função criada no item anterior.
Crie uma função que calcula o erro Tipo II para um teste unilateral à direita para a porporção. Utilize \(n = 30\), \(\alpha = 0,05\), \(p_0 = 0,25\). Plote a função.