Anotação Automática Semissupervisionada de Papéis Semânticos para o Português do Brasil

Abstract

A anotação de papeis semânticos (APS) é uma tarefa do processamento de língua natural (PLN) que permite analisar parte do signicado das sentenças através da detecção dos participantes dos eventos (e dos eventos em si) que estão sendo descritos nelas, o que é essencial para que os computadores possam usar efetivamente a informação codificada no texto. A maior parte das pesquisas desenvolvidas em APS tem sido feita para textos em inglês, considerando as particularidades gramaticais e semânticas dessa língua, o que impede que essas ferramentas e resultados sejam diretamente transportáveis para outras línguas como o português. A maioria dos sistemas de APS atuais emprega métodos de aprendizado de máquina supervisionado e, portanto, precisa de um corpus grande de sentenças anotadas com papéis semânticos para aprender corretamente a tarefa. No caso do português do Brasil, um recurso lexical que provê este tipo de informação foi recentemente disponibilizado: o PropBank.Br. Contudo, em comparação com os corpora para outras línguas como o inglês, o corpus fornecido por este projeto é pequeno e, portanto, não permitiria que um classicador treinado supervisionadamente realizasse a tarefa de anotação com alto desempenho. Para tratar esta diculdade, neste trabalho emprega-se uma abordagem semissupervisionada capaz de extrair informação relevante tanto dos dados anotados disponíveis como de dados não anotados, tornando-a menos dependente do corpus de treinamento. Implementa-se o algoritmo self-training com modelos de regressão logística (ou máxima entropia) como classicador base, para anotar o corpus Bosque (a seção correspondente ao CETENFolha) da Floresta Sintá(c)tica com as etiquetas do PropBank.Br. Ao algoritmo original se incorpora balanceamento e medidas de similaridade entre os argumentos de um verbo específico para melhorar o desempenho na tarefa de classicação de argumentos. Usando um benchmark de avaliação implementado neste trabalho, a abordagem semissupervisonada proposta obteve um desempenho estatísticamente comparável ao de um classicador treinado supervisionadamente com uma maior quantidade de dados anotados (80.5 vs. 82.3 de F1, p > 0.01).

Type
Publication
Master’s Thesis
Fernando Alva-Manchego
Fernando Alva-Manchego
Lecturer

My research interests include text simplification, readability assessment, evaluation of natural language generation, and writing assistance.