Defesa_Mestrado.png

404ª Defesa de Dissertação de Mestrado - Alef Iury Siqueira Ferreira

Evento

: Laboratório 250 e sala 1 RNP

: 31 de Julho 2026 às 14:00

 Defesa_Mestrado.png

403ª defesa de Mestrado
Aluno(a): Alef Iury Siqueira Ferreira
Local da defesa: Lab.250 INF e sala 1 RNP 
Data: 31/07/2026
Horário: 14h

Título do trabalho: " Harmony Through Alignment: Unifying Multimodal Representations of Sound and Text Across Languages "

Membros da banca:

  • Profa. Dra. Nádia Félix Felipe da Silva (INF/UFG - Presidente) - ORIENTADORA
  • Profa. Dra. Sandra Eliza Fontes de Avila (Unicamp) - COORIENTADORA
  • Prof. Dr. Sávio Salvarino Teles de Oliveira (INF/UFG - Examinador Interno)
  • Prof. Dr. Arnaldo Candido Junior (UNESP - Examinador Externo)

Resumo:

O alinhamento entre modalidades obteve grandes avanços, especialmente no domínio texto-imagem. No entanto, a extensão desses princípios para criar representações robustas e multilíngues de linguagem e áudio introduz desafios distintos que ainda permanecem parcialmente não resolvidos na literatura. Entre eles estão a escassez de conjuntos de dados texto-áudio linguisticamente diversos e o custo computacional proibitivamente alto do treinamento de modelos em larga escala. Para lidar com os altos custos computacionais e de dados associados ao treinamento de modelos multimodais, esta dissertação apresenta inicialmente o CACARA (Cross-Modal Alignment Leveraging a Text-Centric Approach for Cost-Effective Multimodal and Multilingual Learning), um framework projetado para integrar novas modalidades de forma eficiente. O CACARA emprega uma estratégia de aprendizado por alinhamento emergente. Uma nova modalidade, o áudio, é alinhada a um modelo multilíngue texto-imagem pré-treinado que é mantido congelado. O modelo herda as capacidades multilíngues do codificador textual ao utilizar o framework proposto usando apenas dados em inglês. Essa abordagem permite recuperação zero-shot entre línguas e entre modalidades, reduzindo o tempo de treinamento e o consumo de energia. Como contribuição complementar, esta pesquisa apresenta o PALMA (Pre-trained Audio-Language Multilingual Alignment via Mixture-of-Layers), um framework para a otimização sistemática de modelos bimodais linguagem-áudio. O PALMA vai além dos métodos  convencionais ao avaliar de forma abrangente codificadores estado da arte (state-of-the-art, SOTA) e paradigmas modernos de treinamento. Sua principal inovação é o método “Mixture of Layers” (MoL). Essa estratégia de agregação adaptável combina características de múltiplas camadas do codificador para criar uma representação de áudio mais rica e refinada. Avaliações empíricas validam as abordagens propostas, que alcançam resultados competitivos. Nossos resultados fornecem fortes evidências de que o alinhamento emergente é uma estratégia viável, escalável e de baixo custo para expansão multimodal. Em última análise, este trabalho contribui para o desenvolvimento de sistemas multimodais mais acessíveis, eficientes e linguisticamente inclusivos.