论文《Support-set bottlenecks for video-text representation learning》笔记
背景和概述
- 目前的模型用的contrastive learning,直接强迫负样本对的距离要远,正样本对的距离要近,但是这样就导致,有一些相似样本,比如图像内容相似,但是做的事情不一样,这样的负样本就被强迫的远离了,这样会太严格了
- 直接的想法就是放松约束
- 这里结合了另一个loss,在minibatch里面的其他img来加权生成正样本的caption,就是decoder,然后让生成的caption和当前正样本的caption尽可能接近,就是autoencoder的思路
- 把上述的方法称为cross instance caption
总结
无
模型和方法
- cross modal discrimination and cross-captioning
- 模型结构