STTN | zwz Blog

type

status

date

slug

summary

一. Abstract

以往video inpainting领域最好的方法就是使用注意力模型，从参考帧中搜索补全区域的内容用来恢复目标帧的hole。但是这些方法由于不连续的注意力结果，使得补全视频出现模糊和时序伪影的情况。

前人方法：①首先介绍3D卷积和RNN网络，他们能够从相邻的帧中找到相关的区域，并进行补全，缺点是感受野不够大导致出现时序层面的伪影，不能从距离比较远的帧里面提取有用的信息，②因此出现了使用注意力机制来处理video inpainting任务，一种是基于frame-wise的，另一种是基于pixel-wise的，能够抓取远距离帧的有用信息，但是这两种方法要么太依赖于帧与帧之间的对齐，使得处理复杂运动的视频时效果不好，要么就在时序表现上效果不好。

实验结果在PSNR和VFID上以2.4%和19.7%的优势暴揍SOTA。

STTN分为三个部分，frame-level encoder、multi-layer multi-head spatial-temporal transformer 和 frame-level decoder

Encoder和Decoder都是由多个2D卷积层构成

该模块运行分为三个流程，分别是Embedding-Matching-Attending

Embedding：视频帧经过Encoder之后得到的特征 $f_1^T = \{f_1,…,f_T\}$ ，其中 $f_i \in R^{h×w×c}$ ， $f_1^T$ 经过1×1卷积分别得到Q、K、V

Matching：在不同的head对Q、K、V进行不同尺度的分割，然后将分割出来的patch（尺寸为 $r_1×r_2×c$ ）进行reshape成一维，随后计算Q和K的相似度，并使用softmax进行归一化（仅对于hole之外的区域计算注意力）得到不同patch的权重 $\alpha_{i,j}$ （Q来自第i个patch，K来自第j个patch）

Attending：将不同patch的权重和对应的V相乘，得到注意力map，随后将不同head得到的attention map进行concate，丢进3×3卷积后做残差

随后就是下图所示经过norm然后输入到前馈神经网络模块中，对hole进行相应的补全

FuseFormer的loss function借鉴于此，也是重构损失函数和对抗损失函数，权重分别为1和0.01