#Ativando pacotes
library(tibble)
library(ggplot2)
#Para obtermos um histograma bem representado, n deve ser grande
= 5000
n
#Gere uma amostra de X de tamanho n
= rnorm(n,
normal mean = 0,
sd = 1)
#Calcule o valor de Y que define a transformação
= tibble(y = normal^2)
base
#Vamos plotar o histograma dos valores observados de Y e acrescentar sob o histograma
#a densidade teórica de uma distribuição qui-quadrado com 1 grau de liberdade
ggplot(data = base,
mapping = aes(x = y)) +
geom_histogram(mapping = aes(y = after_stat(density)),
bins = 40,
boundary = 0) +
stat_function(fun = dchisq,
args = list(df = 1),
col = "red",
xlim = c(0,max(base$y))) +
labs(y = "densidade")
9 Transformação de variáveis
A seguir, apresentaremos métodos empíricos para verificar os resultados de algumas transformações de variáveis que úteis ao longo do curso. É importante esclarecer que não estamos demonstrando formalmente os resultados a seguir; em vez disso, estamos verificando numericamente a sua validade.
9.1 A distribuição qui-quadrado
Um caso particular do modelo Gama é obtido quando fazemos \(\alpha = \nu/2\) e \(\beta = 2\) , com \(\nu >0\) inteiro.
Dizemos que uma variável aleatória contínua \(X\), que assume valores positivos, tem uma distribuição de qui-quadrado com \(\nu\) graus de liberdade se sua densidade for expressa por
\[f(x) = \dfrac{1}{\Gamma(\nu/2)2^{\nu/2}}x^{\nu/2-1}e^{-x/2}, x > 0 \mbox{ e } \nu > 0.\]
Utilizamos a notação, \(X \sim \chi^2_{(\nu)}.\) A \(E(X) = \nu\) e \(Var(X) = 2\nu\).
Seja \(Z \sim N(0,1)\) e considere \(Y = Z^2\). Temos um resultado que garante que
\[Y = Z^2 \sim \chi^2_{(1)}.\]
Como verificarmos numericamente este resultado?
Inicialmente, é importante destacar que o valor de \(n\) foi estabelecido como sendo grande, visando uma melhor representação do histograma. A razão para isso é simples: para visualizar adequadamente o formato da distribuição de um conjunto de dados por meio de um histograma, é crucial contar com uma quantidade significativa de observações. Para ilustrar, imagine que temos um conjunto de dois valores de uma distribuição Exponencial, isto é, \(n = 2\). Se tentarmos criar um histograma com base nesse conjunto pequeno de valores, não será possível identificar claramente a forma característica da distribuição Exponencial. Mesmo que os valores sejam extraídos de uma distribuição Exponencial, apenas um conjunto extenso de dados permitirá que o histograma revele de maneira eficaz a forma dessa distribuição. Portanto, é correto afirmar que somente com um número considerável de observações o histograma conseguirá representar fielmente a distribuição Exponencial.
Observamos que o histograma apresenta um formato que se alinha bem com a curva da distribuição qui-quadrado com 1 grau de liberdade, sugerindo que o conjunto de valores \(y_1, \ldots, y_{5000}\) possivelmente segue uma distribuição \(\chi^2_{(1)}\), conforme enunciado no resultado.
9.2 A distribuição t-sudent
A distribuição t-student é frequentemente encontrada nas formulações de intervalos de confiança e nas distribuições de diversas estatísticas empregadas em testes de hipóteses. Em sua essência, a distribuição t-student é derivada da combinação de duas outras distribuições: a distribuição Normal e a distribuição Qui-quadrado. A seguir, apresentamos um exemplo ilustrativo.
Seja \(X \sim N(0,1)\) e \(Y \sim \chi^2_{(10)}\) duas variáveis independentes. A transformação \(T=\frac{X}{\sqrt{Y/10}}\) possui distribuição t-student: \[T = \dfrac{X}{\sqrt{Y/10}} \sim t_{(10)}.\]
#Vamos checar esse resultado numericamente. Vamos definir um n
#Para obtermos um histograma bem representado, n deve ser grande
= 5000
n
#Gere uma amostra de X de tamanho n
= rnorm(n,
normal mean = 0,
sd = 1)
#Gere uma amostra de Y de tamanho n
= rchisq(n,
qui df = 10)
#Calcule o valor de T que define a transformação
= tibble(t = normal/sqrt(qui/10))
base
#Vamos plotar o histograma dos valores observados de T e acrescentar sob o histograma
#a densidade teórica de uma distribuição t com 10 graus de liberdade
ggplot(data = base,
mapping = aes(x = t)) +
geom_histogram(mapping = aes(y = after_stat(density)),
bins = 20) +
stat_function(fun = dt,
args = list(df = 10),
col = "red") +
labs(y = "densidade")
Considerando os conjuntos de valores \(x_1, \ldots, x_{5000},\) os valores gerados a partir de uma distribuição Normal com média 0 e variância 1, e \(y_1, \ldots, y_{5000},\) provenientes de uma distribuição Qui-quadrado com 10 graus de liberdade, procedemos da seguinte maneira: calculamos os valores \(t_i\) utilizando a fórmula \[t_i = \frac{x_i}{\sqrt{y_i/10}}, i=1,\ldots,5000.\]
Em seguida, elaboramos um histograma para a amostra \(t_1, \ldots, t_{5000}.\) Para avaliar a adequação da distribuição dos valores \(t\) obtidos, superpomos ao histograma a função densidade de uma distribuição t-student com 10 graus de liberdade. Observamos que o histograma apresenta um formato que se alinha bem com a curva da distribuição teórica t-student, sugerindo que o conjunto de valores \(t_1, \ldots, t_{5000}\) possivelmente segue uma distribuição t-student, conforme previsto pela teoria.
É importante destacar que, se o histograma não apresentasse uma concordância com a curva de densidade teórica (representada em vermelho), isso sugeriria que a variável \(T\) não segue a distribuição t-student conforme esperado.
De modo geral, seja \(X \sim N(0,1)\) e \(Y \sim \chi^2_{(\nu)}\), em que \(X\) e \(Y\) são independentes. A distribuição de
\[T = \dfrac{X}{\sqrt{Y/\nu}} = \dfrac{N(0,1)}{\sqrt{\chi^2_{(\nu)}/\nu}} \sim t_{(\nu)}.\]
Uma variável \(T\sim t(\nu)\) tem função densidada dada por
\[f(t) = \dfrac{\Gamma((\nu+1)/2)}{\Gamma(\nu/2)\sqrt{\pi \nu}}(1+t^2/\nu)^{-(\nu+1)/2}. -\infty < t < \infty\]
A esperança e a variância de \(T\) são dadas por \(E(T) = 0\) e \(Var(T) = \frac{\nu}{\nu-2}, \nu > 2\), respectivamente.
9.3 A distribuição F de Snedecor
A variável \(F\) é obtida pela razão de duas variáveis com distribuição qui-quadrado. Considere \(U \sim \chi^2_{\nu_1}\) e \(V \sim \chi^2_{\nu_2}\) duas variáveis aleatórias independentes. Então a variável aelatória \[W = \dfrac{U/\nu_1}{V/\nu_2} \sim F_{(\nu_1,\nu_2)}.\]
\(W\) tem densidade dada por
\[f(w) = \dfrac{\Gamma((\nu_1+\nu_2)/2)}{\Gamma(\nu_1/2)\Gamma(\nu_2/2)}\left(\dfrac{\nu_1}{\nu^2}\right)^{\nu_1/2}\dfrac{w^{(\nu_1-2)/2}}{(1+\nu_1w/\nu_2)^{-(\nu_1+\nu_2)/2}}, w >0.\]
Usamos a notação \(W \sim F(\nu_1,\nu_2)\), com \(E(W) = \frac{\nu_2}{\nu_2-2}\) e \(Var(W) = \frac{2\nu_2^2(\nu_1+\nu_2-2)}{\nu_1(\nu_2-2)^2(\nu_2-4)}\).
Como verificar esse resultado empiricamente, assumindo que \(\nu_1 = 3\) e \(\nu_2 = 5\)?
#Para obtermos um histograma bem representado, n deve ser grande
= 5000
n
#Gere uma amostra de U de tamanho n
= rchisq(n,
qui1 df = 3)
#Gere uma amostra de V de tamanho n
= rchisq(n,
qui2 df = 5)
#Calcule o valor de T que define a transformação
= tibble(w = (qui1/3)/(qui2/5))
base
#Vamos plotar o histograma dos valores observados de W e acrescentar sob o histograma
#a densidade teórica de uma distribuição F(3,5)
ggplot(data = base,
mapping = aes(x = w)) +
geom_histogram(mapping = aes(y = after_stat(density)),
bins = 40,
boundary = 0) +
stat_function(fun = df,
args = list(df1 = 3,
df2 = 5),
col = "red",
xlim = c(0,max(base$w))) +
labs(y = "densidade")
9.4 Desafio
Sejam \(X_1 \sim Exp(\lambda)\), \(X_2 \sim Exp(\lambda)\) e \(X_3 \sim Exp(\lambda)\). Sabemos que
\[X_1 + X_2 + X_3 \sim Gama (3,\lambda).\]Verifique o resultado numericamente, supondo que \(\lambda = 5\).
Sejam \(X_1 \sim \chi^2_{4}\) e \(X_2 \sim \chi^2_{1}\). Sabemos que
\[X_1 + X_2 \sim \chi^2_{5}.\]Verifique o resultado numericamente.