Aprendizado de Máquina Baseado em Uma Única Classe: Algoritmos e Aplicações
A quantidade de dados disponível em formato digital na rede mundial de computadores aumenta a cada dia. Esses dados estão em diferentes formatos, como (i) textos produzidos dentro das empresas, portais de notícias, blogs e redes sociais; (ii) imagens produzidas por satélites, drones, câmeras digitais e exames médicos; (iii) dados numérios produzidos por resultados por exames ou aparelhos de mensuração que gerem tais dados e (iv) sequencias de genes. É humanamente impossível realizar tarefas como a organização, gerenciamento, e uma das principais, a extração de conhecimento de grandes volumes de dados, os quais são úteis tanto na área acadêmica quanto comercial. Uma das técnicas para se realizar tais tarefas automaticamente é a classificação automática. Para que se possa relizar a classificação automática, é preciso construir um modelo de classificação. Esse modelo é normalmente construído por técnicas de aprendizado de máquina, as quais visam extrair padrões de exemplos e respectivos rótulos (identificadores de classe). A maioria das pesquisas e aplicações práticas ainda fazem uso do aprendizado supervisionado multi-classe. Neste cenário, o usuário ou especialista de domínio responsável pela rotulação deve definir todas as classes nas quais os documentos poderão ser atribuídos, bem como uma grande quantidade de exemplos de documentos pertencentes a cada uma dessas classes (documentos rotulados). Isso pode ser oneroso ao rotulador e demandar conhecimento absoluto sobre o problema a ser tratado. Uma situação mais prática seria o usuário fornecer apenas exemplos de seu conhecimento ou se seu interesse. Além disso, neste mesmo cenário, será atribuído à um exemplo não rotulado sempre uma das categorias que foram informadas durante a construção do modelo de classificação, mesmo que a classe real desse exemplo não seja uma das classes previamente informada. Para sanar essas dificuldades do aprendizado supervisionado multi-classe tradicionalmente utilizado, e para deixar mais prática a aplicação da classificação automática em situações em que o usuário esteja interessado em uma única classe (também denominada classe alvo ou classe de interesse), têm ganhado interesse nos últimos anos a área de aprendizado baseado em uma única classe. Neste tipo de aprendizado, são informados apenas exemplos da classe de interesse para construir o modelo de classificação, e portanto, diminuindo o esforço do usuário de rotulação e conhecimento do domínio por parte do usuário. Nesta abordagem, o classificador irá classificar um exemplo como sendo da classe de interesse ou não sendo da classe de interesse (também denominado outlier).