type
status
date
slug
summary
tags
category
icon
password
一. Abstract
1. Motivation:
以往video inpainting领域最好的方法就是使用注意力模型,从参考帧中搜索补全区域的内容用来恢复目标帧的hole。但是这些方法由于不连续的注意力结果,使得补全视频出现模糊和时序伪影的情况。
2. Method:
- 前人方法:①首先介绍3D卷积和RNN网络,他们能够从相邻的帧中找到相关的区域,并进行补全,缺点是感受野不够大导致出现时序层面的伪影,不能从距离比较远的帧里面提取有用的信息,②因此出现了使用注意力机制来处理video inpainting任务,一种是基于frame-wise的,另一种是基于pixel-wise的,能够抓取远距离帧的有用信息,但是这两种方法要么太依赖于帧与帧之间的对齐,使得处理复杂运动的视频时效果不好,要么就在时序表现上效果不好。
- 本文的方法:采用生成式模型和对抗式训练,使得模型学习到空间和时间的信息 。
3. Result:
实验结果在PSNR和VFID上以2.4%和19.7%的优势暴揍SOTA。
二. Mothod
1. Network construction
STTN分为三个部分,frame-level encoder、multi-layer multi-head spatial-temporal transformer 和 frame-level decoder
2. Encoder 和 Decoder
Encoder和Decoder都是由多个2D卷积层构成
3. multi-layer multi-head spatial-temporal transformer
该模块运行分为三个流程,分别是Embedding-Matching-Attending
- Embedding:视频帧经过Encoder之后得到的特征,其中 ,经过1×1卷积分别得到Q、K、V
- Matching:在不同的head对Q、K、V进行不同尺度的分割,然后将分割出来的patch(尺寸为)进行reshape成一维,随后计算Q和K的相似度,并使用softmax进行归一化(仅对于hole之外的区域计算注意力)得到不同patch的权重(Q来自第i个patch,K来自第j个patch)
- Attending:将不同patch的权重和对应的V相乘,得到注意力map,随后将不同head得到的attention map进行concate,丢进3×3卷积后做残差
随后就是下图所示经过norm然后输入到前馈神经网络模块中,对hole进行相应的补全
4. loss函数
FuseFormer的loss function借鉴于此,也是重构损失函数和对抗损失函数,权重分别为1和0.01
- 作者:Hidragon
- 链接:https://www.zwzwoody.fun/article/4fbae724-7ccb-4f8a-b4e1-547224a7285a
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。