Please enable JavaScript.
Coggle requires JavaScript to display documents.
Transfusion - Coggle Diagram
Transfusion
Tarefas
Antecipação de Interação com Objetos: Prever qual objeto será interagido no futuro, qual ação será realizada e quando, usando vídeos egocêntricos.
Extração de Contexto de Ação Geração de resumos de linguagem para representar o contexto de ações passadas a partir de vídeos egocêntricos.
Fusão Multimodal: Integração de características visuais e linguísticas para prever interações futuras com objetos.
Visão Geral
Objetivo: Antecipar interações de objeto em vídeos egocêntricos usando descrições de linguagem natural para melhorar a previsão de interações futuras.
Modelo Proposto: TransFusion, uma arquitetura de fusão multimodal baseada em transformadores.
TransFusion Model
-
Fusão Multimodal: Integra características visuais e linguísticas para prever interações futuras com objetos.
Metodologia
Extração de Contexto: Utiliza modelos de visão-linguagem pré-treinados para gerar descrições resumidas das ações passadas.
Predição de Interações: Prevê a localização do objeto, a ação associada e o tempo de contato.
Experimentos
Dataset: Testes realizados no Ego4D, melhorando a precisão de previsão em classes de cauda longa.
Resultados: Supera modelos de última geração, demonstrando a eficácia dos resumos de linguagem para representação de contexto.
Benchmarks
Comparado com métodos como StillFast, InternVideo e GANOv2
-