Avaliação de diferentes técnicas de agrupamento no contexto da Imputação em Cascata
Resumo
É comum que bases de dados apresentem valores ausentes, o que pode demandar a aplicação de técnicas de imputação. Neste artigo, propomos uma variação da abordagem de imputação em cascata, adequada para tratar valores ausentes em múltiplas colunas, em que valores imputados em um atributo são reintegrados à base de dados antes da imputação, e utilizados para a complementação do próximo atributo. Os resultados revelam que a variação dos algoritmos de agrupamento não impacta na qualidade do dado imputado. Entretanto, há ganhos quando comparado à imputação por média.
Referências
Coneglian, G. and Segundo (2017). Missing data: Our view of the state of the art. Encontros Bibli, 22.
Ferlin, C. (2008). Imputação em cascata: uma abordagem para imputação multivariada de dados. PhD thesis, Tese (Doutorado em Engenharia de Sistemas e Computação) - Universidade Federal do Rio de Janeiro - Rio de Janeiro.
Gelman, A. and Hill, J. (2006). Data Analysis Using Regression And Multilevel/Hierarchical Models, volume 3.
Gonçalves, L. M. (2021). Imputação hot-deck: Uma revisão sistemática da literatura. Master’s thesis, Dissertação (Mestrado em Ciência da Computação) - Centro Federal de Educação Tecnológica Celso Suckow da Fonseca (CEFET/RJ).
Jarrahi, M. H., Memariani, A., and Guha, S. (2022). The principles of data-centric ai (dcai). Communications of the ACM.
Little, R. and Rubin, D. (2019). Statistical Analysis with Missing Data. Wiley.
Montiel, J., Read, J., Bifet, A., and Abdessalem, T. (2018). Scalable model-based cascaded imputation of missing data. Lecture Notes in Computer Science (including sub-series Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 10939 LNAI:64 – 76.
Rubin, D. B. (1976). Inference and missing data. Biometrika, 63(3):581–592.
Rubin, D. B. (1988). An overview of multiple imputation. Journal of the American Statistical Association, page 79–84.
Wayman, J. (2003). Multiple imputation for missing data: What is it and how can i use it. Annual Meeting of the American Educational Research Associantion.