type
status
date
slug
summary
tags
category
icon
password
略读
一. Abstract
- motivation:
之前的视频inpainting研究一方面不能有效的利用视频帧中的语义信息,另一方面在复杂的场景中难以预测并生成正确且清晰的对象边缘。
- method:
- 新的transformer技术 → 利用语义信息+高质量重构
- mixture-of-experts scheme + train multiple experts → 解决复杂场景问题
- result:
在基准数据集YouTube-VOS 和 DAVIS中表现优异。
二. Introduction
- 现有工作:
- 卷积神经网络和transformer技术在视频inpainting方向应用效果比较出色。
- 问题与挑战:
- 过去的方法不能完全利用视频中的语义信息,以及不能区分具有不同语义的对象的类别特征。因此在对象结构、纹理和场景布局的恢复效果不尽如人意。
- 一些研究也提到使用语义信息可以得到更好的结果,但是这些研究并没有在整合semantic maps上做很多挖掘。
- 光流经常用于解决时序对齐的问题,但是计算光流的开销实在是太大。
- 作者提出的方法:
- 通过动态融合多种类别特征的experts来利用视频中的语义信息。
- 基于mixture-of-experts scheme,提出一种新的动态语义感知的视频inpainting的transformer方法。
- 引入一种语义感知的动态线性操作,以有效地利用局部语义线索。
- 方法优势:
- 能跟现有的SOTA掰掰手腕。
三. Related Work
- video inpainting先前的方法,包括基于3D卷积、基于光流、基于transformer的方法。其中,基于3D卷积的方法由于其时序上的感受野有限导致难以充分利用全局的信息;基于光流的方法首先在缺失区域估计光流,再利用恢复的光流去预测缺失的部分,然而这种方法高度依赖预训练好的光流复原模块并且通常需要手工操作。总之,3D卷积 和 光流的方法都是弟弟,还得看我transformer。
- transformer在捕捉长视频帧方面性能很好,后面基于ViT衍生了很多优秀的模型,如FuseFormer、Focal Transformer、Discrete latent transformer。
- 基于语义的inpainting技术,来自于image inpainting,通过估计的语义结果来补全图像的空缺,而基于语义的video inpainting没有人做。由于现有的语义分割数据集中仅有特定类别的标签信息(如车辆异常检测的数据集中仅仅分割人、汽车、单车、道路等),这对于一般的视频而言很难获取正确的标签信息,因此需要通过一个预训练好的语义分割模型去获取带有伪标签的语义图,然后将这些带有伪标签的语义图作为网络训练和推理中的一种输入。
- Dynamic filter:根据给定的输入图像/特征来调整模型的参数。作者根据token的特征和语义信息来调整transformer的参数。
- Mixture-of-experts:通过结合多个专家模型,网络能够提高其表达能力。受CondConv的启发,作者专家的参数进行融合后再进行特征计算。
四. 使用的方法
1. 准备语义数据
首先通过panoptic segmentation network获取估计的语义分割图,由于每一帧中语义分割的类别可能存在偏差,此时获得的语义分割图在时间上是不连续的,如图(a);然后将分割出来的类别做一个更高维度的分类(总共8类),如图(b),使得最后的语义分割图是时间连续的,如图(c)。
这种方法虽然牺牲了一定的语义细节信息,但其约束使得在时间上获得语义的一致性,这有助于训练semantic-aware inpainting网络。
2. Semantic-aware动态Transformer(SAFFN)
语义感知的动态transformer包含三个主要的模块:MoE scheme、token-wise的FC层、semantic 路由。
- MoE是中有8个专家(与super-category对应),每个专家由一个FC层构成,参数由对应super-category类别决定。下图绿色模块中的正方形方块。
- token-wise的FC层,以input token作为约束,每个专家乘上相应的weight再做sum得到parameter,随后输入进该层。下图中绿色模块中的Linear。
- semantic router作为路由,根据input token 进行权重的分配。下图中黄色模块。
SAFFN的公式如下所示:
3. 整体架构
参考FuseFormer网络结构,整个网络由encoder、decoder和多个transformer模块构成:
- 首先,concate N个视频帧及其对应的mask序列 和 相应的segment map 作为encoder的输入,输出output features。
- 其次,进入基于token的流程,在token内部进行自注意力,通过数个transformer模块(其中有一个SAFFN模块),提取出更强的features。
- 最后,将处理好的token排列成image-like的图像,输入进decoder生成inpainting后的N个视频帧。
SAFFN可以作为一个即插即用的模块与之前的基于transformer的方法进行结合,作者就是用FuseFormer作为backbone。
- Semantic-aware dynamic discriminator(SAD)语义感知动态判别器。为了让专家更好的学习到该类别的表示和纹理信息,因此引入SAD,判断inpainting后的图像的真假。其中,SAD的路由权重与SAFFN共享。
4. Loss function
- 作者:Hidragon
- 链接:https://www.zwzwoody.fun/article/b56af110-57f8-44ce-9e94-89005a2a88a7
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。