Mineração de textos para agrupamento de teses e dissertações por meio de análise de similaridade
Published 2022-12-23
Keywords
- Redes de conhecimento,
- Mineração de texto,
- Doc2Vec
How to Cite
Copyright (c) 2022 Revista Brasileira de Biblioteconomia e Documentação
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.
Abstract
A construção de redes de conhecimento é um dos grandes desafios da pesquisa científica e inovação, no tocante ao uso e processamento da informação. Produzir conhecimento em redes de pesquisa e colaboração é importante para o entendimento e internacionalização das investigações. A utilização de métodos que possam revelar áreas de conhecimento implicitamente relacionadas é uma interessante alternativa. Entretanto, a realização deste tipo de construção requer a aplicação de métodos e técnicas específicos, os quais possam, a partir de amostras de dados, gerar informação que auxilie tal tarefa. Este artigo tem como objetivo apresentar a aplicação dos métodos de mineração de dados Doc2Vec e classificação de Reinert para a inferência de redes de conhecimento com base na similaridade e agrupamento de tópicos de documentos científicos textuais. O desenvolvimento do trabalho é baseado na metodologia KDT (do inglês, Knowledge Discovery from Texts). Diante disso, foram obtidas, utilizando técnicas de Web Scraping, dados de teses e dissertações disponibilizados na Biblioteca Digital Brasileira de Teses e Dissertações do IBICT, os quais foram tratados e submetidos à rotinas de processamento de mineração textual. São apresentados resultados quanto à classificação das amostras em grupos por similaridade semântica e grafos que representam a relação entre tais grupos.