Please enable JavaScript.
Coggle requires JavaScript to display documents.
PALM - Coggle Diagram
PALM
PALM Model
Módulo de Legendas de Imagem: Captura o contexto visual e gera descrições textuais para informar os modelos de linguagem sobre ações passadas.
Módulo de Antecipação de Ação: Usa LLMs para prever ações futuras com base em descrições contextuais e ações passadas.
Módulo de Reconhecimento de Ação: Gera rótulos de ações passadas em pares verbo-substantivo a partir de vídeos.
-
-
Visão Geral
Objetivo: Antecipar ações futuras em vídeos egocêntricos usando modelos de linguagem para descrever contextos visuais e prever ações.
Modelo Proposto: PALM, uma abordagem que combina modelos de visão-linguagem e modelos de linguagem para antecipação de ações a longo prazo.
Tarefas
Antecipação de Ações a Longo Prazo: Previsão de ações futuras em vídeos não cortados com base em contextos visuais e textuais.
Extração de Contexto Visual: Usa modelos de legendagem de imagens para capturar informações contextuais de vídeos.
Métodos de Avaliação
Edit Distance (ED): Avaliação baseada na distância de edição para verbos, substantivos e sequências de ações completas.