
38ª Defesa de Doutorado - Bridging the Human-in-the-Loop Gap in Robotics Through Language A Multimodal Agentic AI for Scaling Human Supervision in Autonomous Systems - Lucas da Silva Assis
38ª Defesa de Tese de Doutorado
Bridging the Human-in-the-Loop Gap in Robotics Through Language A Multimodal Agentic AI for Scaling Human Supervision in Autonomous Systems
Aluno: Lucas da Silva Assis
Data: 22/04/2025
Local: Microsoft Teams
Horário: 14hs
Membros da Banca:
- Prof. Dr. Anderson da Silva Soares (INF/UFG - Presidente) - ORIENTADOR
- Prof. Dr. Gustavo Teodoro Laureano (INF/UFG - Examinador Interno)
- Prof. Dr. Flávio Henrique Teles Vieira (INF/UFG - Examinador Interno
- Prof. Dr. Aldo André Díaz Salazar (INF/UFG - Examinador Externo)
- Profa. Dra. Esther Luna Colombini (IC/Unicamp - Examinadora Externa)
Resumo:
Este trabalho apresenta uma arquitetura baseada em modelos de linguagem de grande porte (LLMs) para a supervisão de robôs de entrega em ambientes internos, com participação humana no processo (HITL — Human-in-the-Loop). A proposta inclui subagentes modulares: um Supervisor, responsável pela coordenação de alto nível; um Analista, encarregado do diagnóstico de dados; um Arquivista, para o gerenciamento da memória; e um Solucionador, dedicado ao raciocínio de autodescoberta.
Ao integrar de maneira sistemática dados históricos, registros de sensores e técnicas iterativas de resolução de problemas, a arquitetura aborda desafios recorrentes em implantações com múltiplos robôs, como falhas de localização, problemas de hardware e obstáculos causados por aglomerações em ambientes como shoppings.
Avaliações experimentais comparam condições com e sem suporte de memória, revelando que a abordagem com o uso do Arquivista oferece maior precisão nas soluções e maior satisfação por parte dos operadores. Em especial, a recuperação de memória acelera a resolução de falhas recorrentes, enquanto o raciocínio adaptativo aprimora a tomada de decisão em cenários desconhecidos ou com grande concentração de pessoas.
Métricas de similaridade textual — como sobreposição de tokens e alinhamento semântico — demonstram, adicionalmente, que a reutilização de linguagem e estratégias previamente validadas reforça a clareza e a coerência das ações recomendadas.
Os resultados destacam a viabilidade de um sistema modular, baseado em linguagem, que combina diagnósticos orientados a dados, mecanismos robustos de memória e planejamento autorreflexivo para a supervisão de robôs em larga escala. Ao aliar as capacidades flexíveis dos LLMs a fluxos de trabalho estruturados e centrados no ser humano, essa arquitetura agentiva demonstra um potencial significativo para aprimorar tanto a eficiência quanto a transparência na robótica autônoma aplicada ao mundo real.