type
status
date
slug
summary
tags
category
icon
password

一. Abstract

1. Motivation:

解决动态场景下,对补全目标进行标注比较困难。 一般的补全网络如 ProPainter 在实际的应用中就是先使用目标追踪技术将第一帧中mask掉的目标拓展至视频的每一帧中,得到一个mask序列。而本篇论文的作者认为这种方法不可靠,因为生成的mask可能会存在不准确的情况,这样会导致补全视频时会出现部分的伪影并依赖高质量的mask序列。

2. Method:

构建两个结构:Curricular target inactivation learning 和 Online residue removal,在视频补全网络的一头一尾分别添加用于生成准确的mask序列和消除视频中的伪影现象的两个模块。

3. Result:

即插即用于任何的video inpainting 的backbone,如在DSTT, FuseFormer,E2FGVI上应用效果好过初始的模型。

二. Mothod

1. Network construction

  • backbone:DSTT or FuseFormer or E2FGVI
  • input:原始的视频帧和第一帧的mask
  • 流程:首先,将输入进inpainting network的encoder,得到feature;其次将feature传到curricular inactivation module进行选择性的多尺度inactivate;随后将target-inactivated feature传回inpainting network的decoder,得到inpainted video;最后在 test 阶段,使用online residue removal模块检测伪影并且消除。
notion image

2. Curriculum Inactivation Module

课程学习模块的作用主要在于让网络从ground truth mask开始训练,然后逐渐添加inaccurate mask提高训练的难度,让模型具备 即使输入不准确的mask依然能够生成高质量的inpainted video 的能力,提高模型的鲁棒性。
  • Dual-Curriculum Learning:模仿人类由易到难的学习过程,模型训练由两个课程任务组成,每一个课程任务都是由易到难,这包括三个阶段。
    • 阶段一:仅使用失活的GT Mask数据集来训练模型;
    • 阶段二:按比例使用失活的GT Mask数据集和失活的不准确的mask数据集,后者比例随着epoch数增加而增加;
    • 阶段三:仅使用活的不准确的mask数据集进行训练。
      •                        e表示epoch,M_c表示参与的mask,分别由三个阶段组成
        e表示epoch,M_c表示参与的mask,分别由三个阶段组成
      其中,不准确的mask 由SVOS输出的predicted mask 和 补充的由余弦相似度计算得到的attention mask构成,而这两种不准确的mask分别用于两个课程任务,最后将两个课程得到的失活mask进行可学习的参数的加权和,从而得到 后续再将传入Target Inactivation。
      notion image
  • Target Inactivation:由于高维特征能够捕获长范围、多尺度的空间联系,因此有选择地将一部分经过SVOS目标分割网络预测的mask的target进行多尺度inactivate(失活)。
    • 💡
      失活指的是将目标区域进行抹除,让目标从图像中抠出来,成为一片黑色区域。让mask掉的区域恢复一部分,让网络对mask sequence具有一定的容错,不至于一出现不准确的mask sequence就导致inpainted video效果不佳。简单来讲,让inpainting network对不准确的mask sequence产生耐药性、鲁棒性。
      notion image
 
  • Loss for Curricular-Inactivation Inpainting
    • 类似于FuseFormer,损失函数由重构损失和对抗损失函数组成。
      notion image
      notion image
      总损失函数为:
      notion image
      其中分别为1和0.01.

3. Online Residue Removal

即便通过Curriculum Inactivation Module让模型能够具有较好的鲁棒性,但是由于不准确的mask 的存在必然使得inpainted video在局部区域出现伪影现象,因此Online Residue Removal 模块的作用就是检测和清除的伪影。 Note:该模块仅用于test阶段!
  • Residue Detection:
    • 这里修改一个offline 预训练的目标追踪的网络SiamMask作为residue detection模块,首先将原视频的第一帧中的目标用一个的矩形框圈出来,将inpainted video的第t帧 的矩形框圈出来,随后将它俩输入进一个特征提取器 中,然后进行互相关计算,如下式:
      notion image
      即为互相关图,表示两张target feature 的相关性,随后将其输入decoder得到最后的残差响应图,残差相应图中高相应值表示残差伪影像素,随后在Residue Removal模块中将其除去。
       
  • Residue Removal:
    • 在已经检测出存在伪影的视频帧的基础上,提出两个损失函数,共同微调SVOS network 以鼓励其更好的生成准确的mask序列,分别是 contextual loss residue loss
      1)contextual loss 上下文损失用于最大化第一帧和第t帧之间 target 的相似度。
      notion image
      2)residue loss 残差损失用于最小化残差响应图中高像素值之和。
      notion image
      总的损失函数为:
      notion image
      其中,分别取 0.1 和 1。

三. Result

  1. 评估指标
      • PSNR和SSIM用于评估 inpainted video 的重构质量。
      • VFID用于评估 inpainted video 的时空连续性以及输入输出之间的感知相似度。
notion image
  1. 可视化结果
    1. notion image
      这说明,模型(c)-(f)在predicted Mask不准确的情况下表现一般,(h)同为one-shot模型,效果最拉,本文模型可视化效果最好。
       
                                                          本文提出的两个模块插入到不同的backbone上都能有一定的提升。
      本文提出的两个模块插入到不同的backbone上都能有一定的提升。
  1. 量化结果
    1. notion image
      其中,local指的是目标区域的指标,global指的是整个图像的指标
       
FuseFormerSAVIT
Hidragon
Hidragon
我唯一知道的是我一无所知
公告
type
status
date
slug
summary
tags
category
icon
password
追风赶月莫停留,平芜尽处是春山