A seguir, vamos discutir a análise de dados faltantes na base colon.csv. Trata-se de uma modificação dos dados apresentados em Laurie et al. (1989). A base contém dados de um dos primeiros ensaios bem-sucedidos de quimioterapia adjuvante para câncer de cólon. Levamisol é um composto de baixa toxicidade anteriormente usado para tratar infestações por vermes em animais; O 5-FU é um agente quimioterápico moderadamente tóxico (no que diz respeito a essas coisas). Existem dois registros por pessoa, um de reincidência e outro de óbito.
Para prosseguir, vamos importar a base de dados (que se encontra com extesnão .csv). Para tal, precisamos incluir a base de dados e o script no projeto criado, podemos executar os comandos a seguir.
#Ativando pacoteslibrary(readr)library(dplyr)#Importando o banco colon.csvbase_colon =read_csv(file ="colon.csv") #informar o nome do arquivo#Visualizando o objetobase_colon
Vamos obter algumas medidas descritivas para algumas variáveis, comparando homens e mulheres, incluindo os quantitativos de NA por variável.
#Criando uma tabela comparando os resultados entre homens e mulheres para conhecermos melhor os dadosbase_colon |> dplyr::group_by(sex.factor) |> furniture::table1("Age, years"= age,"Sex, binary"= sex.factor,"Number of Nodes"= nodes,"Extent of spread"= extent.factor,"Perforation"= perfor.factor,"Mortality, 5 years"= mort_5yr,"Smoking (MCAR)"= smoking_mcar,"Smoking (MAR)"= smoking_mar,total =TRUE,na.rm =FALSE,digits =2,output ="markdown")
Total
Female
Male
n = 929
n = 445
n = 484
Age, years
59.75 (11.95)
59.49 (12.28)
60.00 (11.64)
Sex, binary
Female
445 (47.9%)
445 (100%)
0 (0%)
Male
484 (52.1%)
0 (0%)
484 (100%)
NA
0 (0%)
0 (0%)
0 (0%)
Number of Nodes
3.66 (3.57)
3.73 (3.55)
3.59 (3.59)
Extent of spread
Adjacent structures
43 (4.6%)
19 (4.3%)
24 (5%)
Muscle
106 (11.4%)
47 (10.6%)
59 (12.2%)
Serosa
759 (81.7%)
366 (82.2%)
393 (81.2%)
Submucosa
21 (2.3%)
13 (2.9%)
8 (1.7%)
NA
0 (0%)
0 (0%)
0 (0%)
Perforation
No
902 (97.1%)
432 (97.1%)
470 (97.1%)
Yes
27 (2.9%)
13 (2.9%)
14 (2.9%)
NA
0 (0%)
0 (0%)
0 (0%)
Mortality, 5 years
Alive
511 (55%)
243 (54.6%)
268 (55.4%)
Died
404 (43.5%)
194 (43.6%)
210 (43.4%)
NA
14 (1.5%)
8 (1.8%)
6 (1.2%)
Smoking (MCAR)
Non-smoker
645 (69.4%)
336 (75.5%)
309 (63.8%)
Smoker
186 (20%)
64 (14.4%)
122 (25.2%)
NA
98 (10.5%)
45 (10.1%)
53 (11%)
Smoking (MAR)
Non-smoker
573 (61.7%)
236 (53%)
337 (69.6%)
Smoker
129 (13.9%)
40 (9%)
89 (18.4%)
NA
227 (24.4%)
169 (38%)
58 (12%)
Visualizando as posições dos dados faltantes na base de dados.
Use a estatística de teste de Little (1988) para avaliar se os dados estão faltando completamente aleatoriamente (MCAR). A hipótese nula neste teste é que os dados são MCAR e a estatística do teste é um valor qui-quadrado. Se p-valor for menor do que o nível de significância adotado, podemos concluir que os dados não são MCAR.
Conclusão: Não há evidências de que a omissão na mortalidade de esteja associada a qualquer uma das variáveis: idade, sexo, extensão da disseminação, perfuração e tabagismo (ambas variáveis),
Conclusão: Não há evidências de que a omissão na variável tabagismo (versão MCAR) esteja associada a qualquer uma das variáveis: idade, sexo, extensão da disseminação e perfuração.
Conclusão: Há evidências de que a omissão na variável tabagismo (versão MAR) está associada ao sexo.
Laurie, J, C Moertel, T Fleming, H Wieand, J Leigh, J Rubin, G McCormack, J Gerstner, J Krook, and J Malliard. 1989. “Surgical Adjuvant Therapy of Large-Bowel Carcinoma: An Evaluation of Levamisole and the Combination of Levamisole and Fluorouracil: The North Central Cancer Treatment Group and the Mayo Clinic.”J Clinical Oncology 7: 1447–56.
Little, Roderick J. A. 1988. “A Test of Missing Completely at Random for Multivariate Data with Missing Values.”Journal of the American Statistical Association 83 (404): 1198–1202.