论文《HANet: Hierarchical Alignment Networks for Video-Text Retrieval》笔记
背景
- 直接编码到joint latent space,会导致一些细粒度的信息丢失
- 现有的用local的方式的模型,会导致文本和视频的不对称
- 用local的细粒度信息
- 把句子按照名词和动词拆分,用pos parse
- 用全局event和local action entity的层次图推理
不足
- 个人感觉这种直接预定义concept的方式不太灵活,有些视频就是没有那么多concept
- 分为多种粒度并且层次化构建模型值得学习
- 感觉缺少了时序上的信息,并且用的是CNN,用一些时序模型来提取特征是不是更好点
模型
提出了Hierarchical Alignment Network (HANet),把video和text划分为三个粒度,分别是event (video and text), action (motion and verb), and entity (appearance and noun),然后对这三个粒度分别进行特征提取,基于这三个粒度,构建一种自底向上的层次化模型结构,从frame-word,到video clip and textual context,最后再到whole video and text。
这里的event,action,entity都是第二个层次的特征,其中event是全局的,action是entity是局部的。
Video Parsing and Representations
local level
- video:没有直接用分割、检测追踪等方式切分,而是让模型去学习是属于啥。这里是预定义了每个视频8个concept,然后计算每个帧属于每个concept的概率。
- text:
- 上面的是action和entity级别的feature,但是缺了全局的。
- 通过fc能得到上面的
$v_x^{Ind}$
- local level的通过SE模块提取,其实就是Squeeze-and-Excitation block,是CNN。
- each frame has 𝐾 𝑎 dimensional action concept confidence and 𝐾 𝑒 dimensional entity concept confidence
- 对每个concept,挑选高置信度的帧
global level
Text Representations
local level
- individual level的直接用的Bi-GRU,
$v_g^Ind$
使用的注意力融合 - local和global的是用一层GCN。