Please enable JavaScript.
Coggle requires JavaScript to display documents.
Vid2Seq - Coggle Diagram
Vid2Seq
Fase de Pré-treino
Objetivos
Objetivo Generativo: O modelo é treinado para prever a sequência de fala transcrita com base nas entradas visuais, usando supervisionamento fraco.
Objetivo de Denoising: Introduz spans de texto corrompido para ensinar o modelo a recuperar a sequência original, melhorando a robustez.
Dados Utilizados
YT-Temporal-1B: Um conjunto de dados com 18 milhões de vídeos narrados, proporcionando um grande volume de dados não rotulados.
Processo de Pretraining:O modelo aprende a associar timestamps de fala transcrita a eventos visuais, reformulando limites de sentenças como limites de eventos.
Arquitetura
Estrutura do Modelo
Encoder
-
Text Encoder: Codifica a sequência de fala transcrita, incluindo tokens de tempo.
Decoder
Gera a sequência de eventos (legendas e timestamps) de forma autoregressiva, utilizando embeddings visuais e de fala.
Modelo Multi-modal
Integração de Modalidades: Combina informações visuais (frames de vídeo) e linguísticas (fala transcrita) em um único modelo.
Tokens Especiais: Introduz tokens de tempo para representar eventos temporais e facilitar a previsão conjunta de descrições e limites de eventos.
-
Objetivo
Realizar captioning denso de vídeos, que envolve a localização temporal e a descrição de todos os eventos em vídeos não editados.
-