2021 EACL《On the Evaluation of Vision-and-Language Navigation Instructions》论文笔记
Abstract and Introduction
- 导航提示自动生成模型目前都没有被很好的验证性能,并且自动验证的指标也没有验证过。
- 论文发现目前很多生成器的效果仅仅和模板化的生成器差不多,验证了Speaker-Follower和EnvDrop两个模型,对比试验用了一些instruction 扰动和Trajectory扰动,包括:1. 方向变换 2. 实体变换 3. 短语交换
- 这篇论文实验了多种指标比如BLEU,ROUGE,METEOR等,发现他们在验证真实导航语句上面效果很差。为了改进指令的评估,提出了一种instruction-trajectory 兼容性模型,它不需要额外的参考指令。对于存在参考说明的模型选择,我们建议使用 SPICE 指标。
- 指令生成模型通常是用于提升VLN任务中agent的性能的,一方面能够起到数据增强的作用,另一方面能够在实用推理环境中扮演概率说话者的角色
- 但是验证生成出来的instruction也是很重要的,文章验证了目前instruction的效果,并验证了自动化验证的指标的效果
- 论文指出,文本评估指标在应用于新领域时应始终根据人类判断进行验证
Human Wayfinding Evaluations
- 为了对当前最先进的导航指令生成进行基准测试,我们通过让人为跟随它们来评估 Speaker-Follower 和 EnvDrop 模型的输出
- 对比实验了Crafty模型(一种基于模板的instruction 生成器)、Human Instruction、Instruction 扰动(1. 方向变换 2. 实体变换 3. 短语交换)、Speaker-Follower模型和EnvDrop模型
Compatibility Model
- 验证Instruction和path兼容性的模型
- 模型结构式一个对偶式的encoder,分别encode Instruction和trajector,并且把它们映射到相同的空间中。
Instruction encoder
- 输出:
,是bilstm最后输出的hidden的拼接 - 输入:Instruction tokens $W = {w_1, w_2, …, w_n},用bert进行了embedding,然后直接输入lstm
Visual encoder
- 也是两层lstm
- 输入:一系列的viewpoint信息:
, 是在位置 处捕获的全景图,按照elevation和heading角度分成了36个图片 - 输出:
分别是当前viewpoint的前一个viewpoint和后一个viewpoint的图片信息 - Attention直接用的dot-productAttention
是一个projection layer,应该是fc
- 整个的意思就是先提取当前信息,然后和前后的信息联合起来,用LSTM提取当前的视觉信息hidden
其他trick
- 对比学习提升了9-10%的AUC
- 往返回译
- 数据增强
- 指令Instruction增强
- trajectories增强
- 方向变换,实体变换,短语交换
- Loss:
- 分类loss:交叉熵loss和focal loss,
, 表示匹配概率, - a和b都是学习出来的,
是sigmoid
- 对比学习loss:
- 分类loss:交叉熵loss和focal loss,
- 采样:按照ground truth,Instruction扰动,trajectories扰动,2:1:1来采集正负样本,对于每个扰动,按照扰动类型,等比例采样