type
status
date
slug
summary
tags
category
icon
password

一. Abstract

1. Motivation:

以往video inpainting领域最好的方法就是使用注意力模型,从参考帧中搜索补全区域的内容用来恢复目标帧的hole。但是这些方法由于不连续的注意力结果,使得补全视频出现模糊和时序伪影的情况。

2. Method:

  • 前人方法:①首先介绍3D卷积和RNN网络,他们能够从相邻的帧中找到相关的区域,并进行补全,缺点是感受野不够大导致出现时序层面的伪影,不能从距离比较远的帧里面提取有用的信息,②因此出现了使用注意力机制来处理video inpainting任务,一种是基于frame-wise的,另一种是基于pixel-wise的,能够抓取远距离帧的有用信息,但是这两种方法要么太依赖于帧与帧之间的对齐,使得处理复杂运动的视频时效果不好,要么就在时序表现上效果不好。
  • 本文的方法:采用生成式模型和对抗式训练,使得模型学习到空间和时间的信息 。

3. Result:

实验结果在PSNR和VFID上以2.4%和19.7%的优势暴揍SOTA。

二. Mothod

1. Network construction

STTN分为三个部分,frame-level encoder、multi-layer multi-head spatial-temporal transformer 和 frame-level decoder

2. Encoder 和 Decoder

Encoder和Decoder都是由多个2D卷积层构成

3. multi-layer multi-head spatial-temporal transformer

该模块运行分为三个流程,分别是Embedding-Matching-Attending
notion image
  • Embedding:视频帧经过Encoder之后得到的特征f1T={f1,,fT}f_1^T = \{f_1,…,f_T\},其中fiRh×w×cf_i \in R^{h×w×c}f1Tf_1^T经过1×1卷积分别得到Q、K、V
  • Matching:在不同的head对Q、K、V进行不同尺度的分割,然后将分割出来的patch(尺寸为r1×r2×cr_1×r_2×c)进行reshape成一维,随后计算Q和K的相似度,并使用softmax进行归一化(仅对于hole之外的区域计算注意力)得到不同patch的权重αi,j\alpha_{i,j}(Q来自第i个patch,K来自第j个patch)
  • Attending:将不同patch的权重和对应的V相乘,得到注意力map,随后将不同head得到的attention map进行concate,丢进3×3卷积后做残差
注意力图的计算,i指的是第i个patch的注意力数值
注意力图的计算,i指的是第i个patch的注意力数值
随后就是下图所示经过norm然后输入到前馈神经网络模块中,对hole进行相应的补全
notion image

4. loss函数

FuseFormer的loss function借鉴于此,也是重构损失函数和对抗损失函数,权重分别为1和0.01
 
UMMAFormerFuseFormer
  1. 1 五月雨 高梨康治
  2. 2 面会菜 林生祥
  3. 3 Cornfield Chase Hans Zimmer
  4. 4 欢沁 林海
  5. 5 Bloom of Youth Key Sounds Label
  6. 6 城南花已开 三亩地
  7. 7 【FREE】lucky Salder4cash
  8. 8 Call of Silence 泽野弘之
  9. 9 第一章 アシタカせっ記 久石譲
  10. 10 アシタカせっ記 久石譲
  11. 11 母なる海 田中公平 / 浜口史郎
  12. 12 eye-water 泽野弘之
  13. 13 One Summer's Day (The Name of Life) 久石譲
  14. 14 我愛你 Ayasa绚沙
  15. 15 告白の夜 Ayasa绚沙
五月雨 - 高梨康治
00:00 / 00:00
An audio error has occurred, player will skip forward in 2 seconds.