399ª Defesa de Dissertação de Mestrado - Leis de Escalonamento Industrial em Continual Pre-Training: Otimização de Misturas Intra-Domínio

399ª Defesa de Mestrado
Aluno(a): Gabriel Teixeira Andrade Sousa
Local da defesa: Lab.257 INF e Google Meet
Data: 06/05/2026
Horário: 10h30
Título do trabalho: "Leis de Escalonamento Industrial em Continual Pre-Training: Otimização de Misturas Intra-Domínio"
Membros da banca:
- Professor Doutor Arlindo Rodrigues Galvão Filho (INF/UFG) - ORIENTADOR
- Professora Doutora Telma Woerle de Lima Soares (INF/UFG) - membra titular interna
- Professor Doutor Rodrigo Zempulski Fanucchi (CEIA/AKCIT/UFG) - membro titular externo
Resumo:
Modelos de linguagem de larga escala (LLMs) têm alto desempenho em tarefas gerais, porém sua aplicação em contextos técnico-industriais frequentemente requer adaptação por continual pre-training (CPT). Nesse cenário, o corpus de domínio raramente é homo gêneo: documentos normativos/procedimentais (manuais, normas) coexistem com regis tros operacionais de manutenção (ordens de serviço, relatos de campo), com diferentes níveis de ruído, estrutura e conteúdo informacional. Este trabalho analisa como a com posição interna do corpus industrial afeta a dinâmica de aprendizagem durante o CPT e propõe uma formulação de leis de escalonamento industriais que modela conjuntamente tamanho do modelo, tokens vistos e mistura intra-domínio entre duas fontes privadas, Docs e Reports, sob fração pública fixa para preservar capacidades gerais. São investiga das três escalas de modelos da família Llama em um desenho experimental controlado, com orçamento de tokens aproximadamente constante e variação sistemática da mistura Docs–Reports. A avaliação utiliza perdas de validação específicas por fonte, permitindo quantificar assimetrias entre subdomínios. A lei proposta estende leis compute-optimal e a D-CPT Law ao incorporar termos para exposição efetiva ao subdomínio e penalização de sub-representação extrema. Os parâmetros são ajustados por otimização robusta no espaço logarítmico, explorando trajetórias de checkpoints para aumentar a densidade ob servacional. Os resultados indicam ajuste consistente entre escala, tokens e composição, além de viabilizar decisões de mistura ótima sob restrições explícitas de degradação en tre subdomínios. Como contribuição, o trabalho oferece um formalismo quantitativo para planejar CPT industrial multicomponente, reduzindo a dependência de busca empírica exaustiva e apoiando decisões reprodutíveis de alocação de orçamento de treino.