type
status
date
slug
summary
tags
category
icon
password
一. Abstract
1. Motivation:
视频补全需要画面呈现细粒度,而其他方法由于使用hard patch splitting使得补全的视频边缘出现模糊。
本文对video inpainting做了一个比较好的解释:一个使用帧与帧之间像素的信息传播来补全空缺的视觉任务,补全后的视频呈现相当的可信度和时空连续性。应用的领域包括:擦除目标(如固定在画面的水印 or 运动中的物体)、损坏视频的修复
2. Method:
基于新的 soft split 和 soft composition 技术提出一种细粒度特征融合的方法。
- soft split 将特征图进行含有重叠区域地分割,而不是简单地一刀切。
- soft composition 将分割后的特征图进行缝合,重叠的区域进行相加。
- 将经典的Transformer Block中的Feed Forword Network替换为Fusion Feed Forward Network。
3. Result:
言简意赅、一言蔽之,该方法超越了当时的SOTA。
二. Mothod
1. Network construction
网络的整体流程如下:
- 首先输入图像经过Encoder得到,
- 随后对特征图做soft splitting(SS)处理得到patch(k×k),
- 经过线性层embedded为一维的tokens ,
- 经过Transformer blocks生成,
- 经过线性层和reshape操作还原为patch
- 再对patch 做 soft composition(SC)处理得到特征图 ,
- 经过Decoder输出补全的视频
完整的结构图如下所示:
2. Soft Split(SS) & Soft Composition(SC)
- SS:按照一定的重合区域进行分割,即相邻的两个patch之间必定有重合区域,随后将patch展开为一维的token。
- SC:在patch合成时,需要将patch之间重合的区域进行简单的累加。
优点:使得补全的视频帧在patch的边缘更加平滑;扩大感受野。
3. FuseFormer
FuseFormer与经典的Transformer差不多,只是将其中的Feed Forward(MLP) 结构改为 Fusion Feed Forward。
两个式子即可完整表示上面的FuseFormer结构图:
Fusion Feed Forward的结构包括两个MLP、SS和SC模块。首先token先经过,随后进行SC和SS操作分别得到feature map 和 token,最后将token输入。
目的:让网络学习如何从一维的token转化为二维结构;增强了sub-patch的特征融合能力。
4. Loss Function
损失函数由重构损失和对抗损失函数组成:
对于重构损失,L1 Loss能够表示补全视频和原视频之间的距离。
对抗损失函数中,采用判别器D,将真实的video 和 补全的video 输入D,输出一个值为0或1的标量,如果值为0,说明fake;值为1,说明为true。
总损失函数为:
三. Result
- 评估指标
- PSNR和SSIM用于评估 inpainted video 的重构质量。
- VFID用于评估 inpainted video 的时空连续性以及输入输出之间的感知相似度。
- 可视化结果
- 量化结果
SOTA没什么好说的。
- 用户调研
- 作者:Hidragon
- 链接:https://www.zwzwoody.fun/article/dcc0b0e3-fcc9-475c-a0cc-3d4c51eba2fe
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。