0%

论文笔记 | Support-set bottlenecks for video-text representation learning

论文《Support-set bottlenecks for video-text representation learning》笔记

背景和概述

  1. 目前的模型用的contrastive learning,直接强迫负样本对的距离要远,正样本对的距离要近,但是这样就导致,有一些相似样本,比如图像内容相似,但是做的事情不一样,这样的负样本就被强迫的远离了,这样会太严格了
  2. 直接的想法就是放松约束
  3. 这里结合了另一个loss,在minibatch里面的其他img来加权生成正样本的caption,就是decoder,然后让生成的caption和当前正样本的caption尽可能接近,就是autoencoder的思路
  4. 把上述的方法称为cross instance caption

总结

模型和方法

  1. cross modal discrimination and cross-captioning 1DRih4QbvTPr6Eo
  2. 模型结构z64vm3NXgEfrtYe

方法

  1. tHjxvaZUqKfks5i
  2. oCRTGIVqtWYjlun
  3. 9qbBpzKwDClGaVN

模型结构

n2ou74ewLCTaXxr

结果

CB91nw375mSse4f

23IHtw9ACdkBv7a