PREAnoTe: Uma abordagem de anotação de corpus para o ajuste fino de Large Language Model pré-treinado

Resumo


O ajuste fino de um Modelo de Linguagem (ML) necessita de corpus volumoso, categorizado e anotado. Contudo, corpora são escassos e a anotação manual é custosa. Como alternativa, surgiu a abordagem Distant Supervision que pode usar Recursos Semânticos (RS). Entretanto, há lacunas na utilização de RS para minimizar o custo da anotação. Este artigo propõe PREAnoTe, uma abordagem capaz de apoiar a anotação, utilizando regras de expressão regular, orientado por um metamodelo e RS. Os experimentos mostraram resultados promissores, alcançando uma precisão de 95% nas entidades e 76% nas relações, culminando em um ML ajustado com 86% de precisão e cobertura.
Palavras-chave: Modelo de Linguagem, Processamento de Linguagem Natural, Reconhecimento de Entidades Nomeadas, Extração de Relações

Referências

Avelino., J., Rosa., G., Danon., G., Cordeiro., K., and C. Cavalcanti., M. (2024). Knowledge Graph generation from text using Supervised Approach supported by a Relation Metamodel: An application in C2 domain. In Proceedings of the 26th International Conference on Enterprise Information Systems - Volume 1: ICEIS, pages 281–288. INSTICC, SciTePress.

BRASIL (2018). Glossário de termos e expressões para uso no Exército. Exército. Estado-Maior.

Caseli, H. M. and Nunes, M. G. V., editors (2023). Processamento de Linguagem Natural: Conceitos, Técnicas e Aplicações em Português. BPLN. [link].

Collovini, S., Gonçalves, P. N., Cavalheiro, G., Santos, J., and Vieira, R. (2020). Relation Extraction for Competitive Intelligence. In International Conference on Computational Processing of the Portuguese Language, pages 249–258. Springer.

Fries, J. A., Steinberg, E., Khattar, S., Fleming, S. L., Posada, J., Callahan, A., and Shah, N. H. (2021). Ontology-driven weak supervision for clinical entity classification in electronic health records. Nature communications, 12(1):2017.

Hogan, A., Blomqvist, E., Cochez, M., D’amato, C., Melo, G. D., Gutierrez, C., Kirrane, S., Gayo, J. E. L., Navigli, R., Neumaier, S., Ngomo, A.-C. N., Polleres, A., Rashid, S. M., Rula, A., Schmelzeisen, L., Sequeda, J., Staab, S., and Zimmermann, A. (2021). Knowledge Graphs. ACM Computing Surveys, 54(4).

Kent, W. (2012). Data and reality: a timeless perspective on perceiving and managing information. Technics publications.

Liu, P., Qian, L., Zhao, X., and Tao, B. (2023). The construction of Knowledge Graphs in the Aviation Assembly Domain Based on a Joint Knowledge Extraction Model. IEEE Access, 11:26483–26495.

Mintz, M., Bills, S., Snow, R., and Jurafsky, D. (2009). Distant Supervision for Relation Extraction without Labeled Data. In Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP, pages 1003–1011, Suntec, Singapore. Association for Computational Linguistics.

Souza, F., Nogueira, R., and Lotufo, R. (2020). BERTimbau: Pretrained BERT Models for Brazilian Portuguese. In Cerri, R. and Prati, R. C., editors, Intelligent Systems, pages 403–417, Cham. Springer International Publishing.

Zhou, J., Li, X., Wang, S., and Song, X. (2022). NER-based Military Simulation Scenario development process. The Journal of Defense Modeling and Simulation, 20(4):563–575.
Publicado
14/10/2024
AVELINO, Jones O.; ROSA, Giselle F.; DANON, Gustavo R.; CORDEIRO, Kelli F.; CAVALCANTI, Maria Cláudia. PREAnoTe: Uma abordagem de anotação de corpus para o ajuste fino de Large Language Model pré-treinado. In: SIMPÓSIO BRASILEIRO DE BANCO DE DADOS (SBBD), 39. , 2024, Florianópolis/SC. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2024 . p. 806-812. ISSN 2763-8979. DOI: https://doi.org/10.5753/sbbd.2024.242494.