0%

论文笔记 | Less is More:CLIP BERT for Video-and-Language Learning via Sparse Sampling

论文《Less is More: CLIP BERT for Video-and-Language Learning via Sparse Sampling》笔记

背景和问题

GORKRY

fQ6h6S

kKys61

概述和总结

  1. 针对task之间没有联系,以及多模特征之间没有联系的问题
  2. 用采样的方式,降低复杂度,然后对特征进行finetune,以前都是固定的
  3. 用预训练的权重提升性能,并且用2D的结构(也能降低计算量)就是用的ResNet50。后续训练会对权重做finetune

rXNvoF

3DChYe

模型和方法

形式化表示

71WXFr

模型结构

huI56O

xD33Uz

初始化

VuB7ed

实验结果

smbj0l