39ª Defesa de Doutorado - Marcelo Akira Inuzuka

39ª Defesa de Doutorado - Decomposição de Tarefas no Processamento de Linguagem Natural - Marcelo Akira Inuzuka

Evento

: Laboratório 250 do INF e sala 1 RNP

: 24 de Abril 2025 às 08:30

39ª Defesa de Tese de Doutorado

Decomposição de Tarefas no Processamento de Linguagem Natural

Aluno: Marcelo Akira Inuzuka

Data: 24/04/2025

Horário: 08h30

Local: Laboratório 250 do INF e sala 1 RNP

https://conferenciaweb.rnp.br/ufg/instituto-de-informatica-sala-1-ufg

 

Membros da Banca:

  • Prof. Dr. Hugo Alexandre Dantas do Nascimento (INF/UFG - Presidente) - ORIENTADOR
  • Profa. Dra. Nádia Felix Felipe da Silva (INF/UFG) - COORIENTADORA
  • Prof. Dr. Marcio de Souza Dias (DC/UFCAT - Examinador Externo)
  • Prof. Dr. Wanderley de Souza Alencar (INF/UFG - Examinador Externo)
  • Prof. Dr. Thierson Couto Rosa (INF/UFG - Examinador Interno)
  • Prof. Dr. Wellington Santos Martins (INF/UFG - Examinador Interno)

Resumo:

A anotação de corpus é essencial para o treinamento de modelos de Processamento de Linguagem Natural (PLN), mas enfrenta desafios relacionados à qualidade e ao alto custo. Esta tese investiga a decomposição de tarefas como estratégia para modularizar e otimizar a anotação, garantindo maior controle e eficiência. Inicialmente focada no Mapeamento de Argumentos, a pesquisa redirecionou seu escopo após identificar a complexidade e inviabilidade financeira dessa tarefa. Por meio de um processo iterativo baseado na Teoria Fundamentada, foram identificados padrões de projeto aplicáveis à anotação de corpus, resultando na formalização de diretrizes e na criação de artefatos como guidelines, datasets e ferramentas, incluindo a Argmap, que facilita a anotação colaborativa e a medição da concordância entre anotadores. A abordagem foi validada em dois estudos de caso: a segmentação de hashtags e a curadoria de frases-chave, nos quais a decomposição de tarefas demonstrou impacto positivo na qualidade da anotação. Além disso, a tese propõe o padrão Recrutador-Selecionador, que estrutura o processo de anotação em etapas de recrutamento e qualificação de anotadores, garantindo maior confiabilidade nos dados gerados. Os achados demonstram que a decomposição de tarefas combinada com padrões de projeto permite estruturar a anotação de forma mais eficiente e escalável, contribuindo para a construção de corpus de alta qualidade em PLN.