Avaliação de diferentes técnicas de agrupamento no contexto da Imputação em Cascata

  • Tarsila Tavares Centro Federal de Educação Tecnológica Celso Suckow da Fonseca (CEFET/RJ)
  • Kele Belloze Centro Federal de Educação Tecnológica Celso Suckow da Fonseca (CEFET/RJ) https://orcid.org/0000-0001-6257-2520
  • Ronaldo Goldschmidt Instituto Militar de Engenharia (IME) https://orcid.org/0000-0003-1688-0586
  • Jorge Soares Centro Federal de Educação Tecnológica Celso Suckow da Fonseca (CEFET/RJ)

Resumo


É comum que bases de dados apresentem valores ausentes, o que pode demandar a aplicação de técnicas de imputação. Neste artigo, propomos uma variação da abordagem de imputação em cascata, adequada para tratar valores ausentes em múltiplas colunas, em que valores imputados em um atributo são reintegrados à base de dados antes da imputação, e utilizados para a complementação do próximo atributo. Os resultados revelam que a variação dos algoritmos de agrupamento não impacta na qualidade do dado imputado. Entretanto, há ganhos quando comparado à imputação por média.

Palavras-chave: Imputação em Cascata, Data-Centric Artificial Intelligence, Pré-Processamento

Referências

Cartwright, M., Shepperd, M., and Song, Q. (2003). Dealing with missing software project data. Software Metrics, IEEE International Symposium on, 0:154.

Coneglian, G. and Segundo (2017). Missing data: Our view of the state of the art. Encontros Bibli, 22.

Ferlin, C. (2008). Imputação em cascata: uma abordagem para imputação multivariada de dados. PhD thesis, Tese (Doutorado em Engenharia de Sistemas e Computação) - Universidade Federal do Rio de Janeiro - Rio de Janeiro.

Gelman, A. and Hill, J. (2006). Data Analysis Using Regression And Multilevel/Hierarchical Models, volume 3.

Gonçalves, L. M. (2021). Imputação hot-deck: Uma revisão sistemática da literatura. Master’s thesis, Dissertação (Mestrado em Ciência da Computação) - Centro Federal de Educação Tecnológica Celso Suckow da Fonseca (CEFET/RJ).

Jarrahi, M. H., Memariani, A., and Guha, S. (2022). The principles of data-centric ai (dcai). Communications of the ACM.

Little, R. and Rubin, D. (2019). Statistical Analysis with Missing Data. Wiley.

Montiel, J., Read, J., Bifet, A., and Abdessalem, T. (2018). Scalable model-based cascaded imputation of missing data. Lecture Notes in Computer Science (including sub-series Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 10939 LNAI:64 – 76.

Rubin, D. B. (1976). Inference and missing data. Biometrika, 63(3):581–592.

Rubin, D. B. (1988). An overview of multiple imputation. Journal of the American Statistical Association, page 79–84.

Wayman, J. (2003). Multiple imputation for missing data: What is it and how can i use it. Annual Meeting of the American Educational Research Associantion.
Publicado
14/10/2024
TAVARES, Tarsila; BELLOZE, Kele; GOLDSCHMIDT, Ronaldo; SOARES, Jorge. Avaliação de diferentes técnicas de agrupamento no contexto da Imputação em Cascata. In: SIMPÓSIO BRASILEIRO DE BANCO DE DADOS (SBBD), 39. , 2024, Florianópolis/SC. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2024 . p. 687-693. ISSN 2763-8979. DOI: https://doi.org/10.5753/sbbd.2024.242401.