type
status
date
slug
summary
tags
category
icon
password

一. Abstract

1. Motivation:

视频补全需要画面呈现细粒度,而其他方法由于使用hard patch splitting使得补全的视频边缘出现模糊。
💡
本文对video inpainting做了一个比较好的解释:一个使用帧与帧之间像素的信息传播来补全空缺的视觉任务,补全后的视频呈现相当的可信度和时空连续性。应用的领域包括:擦除目标(如固定在画面的水印 or 运动中的物体)、损坏视频的修复

2. Method:

基于新的 soft splitsoft composition 技术提出一种细粒度特征融合的方法。
  • soft split 将特征图进行含有重叠区域地分割,而不是简单地一刀切。
  • soft composition 将分割后的特征图进行缝合,重叠的区域进行相加。
  • 将经典的Transformer Block中的Feed Forword Network替换为Fusion Feed Forward Network。
notion image

3. Result:

言简意赅、一言蔽之,该方法超越了当时的SOTA。

二. Mothod

1. Network construction

网络的整体流程如下:
  • 首先输入图像经过Encoder得到
  • 随后对特征图做soft splitting(SS)处理得到patch(k×k),
  • 经过线性层embedded为一维的tokens
  • 经过Transformer blocks生成
  • 经过线性层和reshape操作还原为patch
  • 再对patch 做 soft composition(SC)处理得到特征图
  • 经过Decoder输出补全的视频
                                                                      其中 t 为视频帧数,n为一帧中的patch数量
其中 t 为视频帧数,n为一帧中的patch数量
完整的结构图如下所示:
notion image

2. Soft Split(SS) & Soft Composition(SC)

  • SS:按照一定的重合区域进行分割,即相邻的两个patch之间必定有重合区域,随后将patch展开为一维的token。
  • SC:在patch合成时,需要将patch之间重合的区域进行简单的累加。
💡
优点:使得补全的视频帧在patch的边缘更加平滑;扩大感受野。
notion image

3. FuseFormer

FuseFormer与经典的Transformer差不多,只是将其中的Feed Forward(MLP) 结构改为 Fusion Feed Forward。
notion image
两个式子即可完整表示上面的FuseFormer结构图:
notion image
 
Fusion Feed Forward的结构包括两个MLP、SS和SC模块。首先token先经过,随后进行SC和SS操作分别得到feature map 和 token,最后将token输入
💡
目的:让网络学习如何从一维的token转化为二维结构;增强了sub-patch的特征融合能力。

4. Loss Function

损失函数由重构损失和对抗损失函数组成:
notion image
对于重构损失,L1 Loss能够表示补全视频和原视频之间的距离。
notion image
对抗损失函数中,采用判别器D,将真实的video 和 补全的video 输入D,输出一个值为0或1的标量,如果值为0,说明fake;值为1,说明为true。
总损失函数为:
notion image

三. Result

  1. 评估指标
      • PSNR和SSIM用于评估 inpainted video 的重构质量。
      • VFID用于评估 inpainted video 的时空连续性以及输入输出之间的感知相似度。
notion image
  1. 可视化结果
notion image
 
  1. 量化结果
    1. notion image
      SOTA没什么好说的。
       
  1. 用户调研
notion image
 
STTNCIRI
Hidragon
Hidragon
我唯一知道的是我一无所知
公告
type
status
date
slug
summary
tags
category
icon
password
追风赶月莫停留,平芜尽处是春山