Extração de Relações em Domínio Aberto para o Português

Uma grande parte da informação publicada na Internet está em formato textual, o qual não é adequado para o processamento computacional. O problema de extração de relações consiste em extrair automaticamente informações de um texto e convertê-las para um formato estruturado, que é apropriado para o processamento computacional. A maioria dos trabalhos de pesquisa sobre extração de relações tem foco na língua inglesa e em domínio fechado, específico. Recentemente, surgiram algumas iniciativas para tratar este problema em domínio aberto, onde as relações de interesse não são definidas. Entretanto, estas propostas não contemplam a língua portuguesa. Neste projeto, propomos o desenvolvimento de um sistema de extração de relações em domínio aberto para o Português. A metodologia adotada será baseada em duas áreas: processamento de linguagem natural (PLN) e aprendizado de máquina (AM). Estas duas áreas têm produzido soluções de alta qualidade para extração de relações em diferentes domínios e línguas. Um requisito da maioria dos algoritmos de AM é um grande conjunto de exemplos, cuja construção é custosa. Neste trabalho, serão exploradas técnicas de AM para minimizar este esforço, tais como aprendizado semi-supervisionado, aprendizado ativo, aprendizado de transferência e supervisão à distância. Para validar a ferramenta de extração de relações, serão realizadas duas avaliações: uma quantitativa e outra qualitativa. A avaliação quantitativa será baseada em métricas clássicas da literatura, como precisão e cobertura. A avaliação qualitativa será realizada através de um sistema de mineração de dados para que usuários avaliem a utilidade das relações extraídas.