type
status
date
slug
summary
tags
category
icon
password
AI总结:
"MumPy"是一篇关于视频修复检测的论文。该论文提出了多视角时间金字塔变换器用于视频修复检测。论文提出了多时间视角编码器、可变形和基于窗口的信息传播和多金字塔解码器作为创新点。论文还详细介绍了整体框架和实验内容,包括评估性能、训练和测试数据集、对比实验和鲁棒性分析。
一. 重要概念二. 创新点三. 整体框架Ⅰ. Multilateral Temporal-view EncoderⅡ. Deformable Window-based Temporal-view InteractionⅢ. Multi-pyramid DecoderⅣ. Loss Function四. 实验内容(1)Evaluation Performance(2)Training & Testing Dataset(3)Video Inpainting Method(4)Result Comparation(5)Ablation Study & Robustness Analysis
一. 重要概念
- DCN:Deformable Convolution Network,具有可学习的偏置,将卷积核的固定采样加上学习到的偏置,使得卷积核能够根据图像的特定信息进行变形。最开始使用于目标检测领域,后来延伸到视频inpainting以及视频inpainting检测。
- 特征金字塔:在多尺度特征金字塔的基础上,多加一个特征融合(相加而非concat)操作
二. 创新点
- Multilateral Temporal-view Encoder:提供多个时间视角,即给模型输入不同长短的视频帧,并利用Swin Transformer的Encoder block提取其中的特征
- Deformable Window-based Temporal-view Interaction:通过 DCN 和 Cross-Attention (在小窗中计算)结合,将不同长度的视频特征进行融合(从短的往长的融合)
- Multi-pyramid Decoder:设计了一个多特征金字塔Decoder,将三种信息的金字塔进行融合
三. 整体框架
- 首先,将视频分成长度为 t 、尺寸为 h×w 的小窗视频段,其中长度为 t 的小窗视频有个。需要说明的是,上述的分段视频仅仅是一个时长的,本论文将一个视频分成了不同时长的小窗视频 k 种(k个view),因此一个视频就有个小窗视频。
- 其次,将分好的小窗视频段进行token化并且输入到 Swin Transformer Encoder Block 中,根据是否添加新的 Transformer Encoder Block 来进入下一个stage。不同view的最后一个stage的特征还需要输入到另一个全局的Transformer Encoder,以便得到更高维度的时序信息。
- 不同 view 之间还需要进行交互,这里使用DCN和Cross-attention(局部window),将短的小窗视频向长的小窗视频融合(类似于正向Propagation)。随后,不同 view 中同一个 stage 的特征通过TFF模块融合,得到一个特征金字塔 Temporal-view Pyramid。
- 从视频中间取一帧进行DCT变换,过滤出低频、中频、高频的DCT图像并进行IDCT变换,随后得到多尺度特征金字塔 Frequency-assistance Pyramid。
- 现在,我们手上既有 Temporal-view Pyramid ,也有 Frequency-assistance Pyramid,还有第二步中得到的更高维度的信息,将这三者送进MFF模块中进行信息融合,最后输出预测mask。
Ⅰ. Multilateral Temporal-view Encoder
这一部分就是针对不同长度的小窗视频进行不同stage的特征提取,这里以一个长度为 的小窗视频为例:
- Tokenization:
首先经过一个3D 卷积,卷积核尺寸为,得到 个token,表示为:,其中,0表示 Stage 1 的输入。
- Encoder:
Encoder 由 window-based multihead self-attention 模块和 shifted window-based multihead self-attention 模块交替组成,从而将token输入到不同深度的 Encoder模块得到不同 Stage 的特征信息。
- Global Encoder:
由于不同长度的小窗视频是不同的 view,而上述的 Encoder 只是针对特定长度的小窗视频进行特征提取,这仅仅在空间维度进行注意力计算,所以将上述 Encoder 得到的不同 view 的最后一层 stage 的特征送进一个全局的 Transformer Encoder 来计算全局的注意力信息,从而得到 时间+空间 的特征表示。
Ⅱ. Deformable Window-based Temporal-view Interaction
由于目前在每一个 view 中还没有信息交互,即不同长度的视频特征信息缺乏交互,因此需要通过一个模块来建立不同 view 之间的联系,这里作者提出 Deformable Window-based Temporal-view Interaction 模块。
Deformable Window-based Temporal-view Interaction 模块作用是正向的信息传播,即短的视频特征信息往长的视频特征信息传送,并且将 DCN 和 Cross-attention 思想结合。
看上图(b),长的视频特征提供 Query 和 DCN 偏置,短的视频特征通过 DCN 模块得到 Key 和 Value,然后通过 Q K V 进行Cross-attention计算,从而实现不同长度的视频特征之间的交互。
需要注意的是,这里的Cross-attention计算并不是全局的,而是 Window-based 的。
Ⅲ. Multi-pyramid Decoder
- Temporal-view Pyramid
不同 view 中同一个 stage 的特征通过TFF模块融合,TFF模块示意图如下所示:
由于不同长度的小窗视频各自的数量是不同的,因此选取最大的数量 v 作为参考,将数量少的视频个数扩充到 v ,然后在通道维度上进行concat,再 3D CNN、Group Normalization、ReLU激活三步走,得到一张特征图(此时数量全部被压缩)
- Frequency-assistance Pyramid
从视频中间取一帧进行DCT变换,过滤出低频、中频、高频三种DCT图像并进行IDCT变换,这就得到了不同频率的图像信息,在通道上做concat,随后得到多尺度特征金字塔 Frequency-assistance Pyramid
- Multi-source Feature Fusing Pyramid
现在我们手上既有来自 TFF 模块的 Temporal-view Pyramid ,也有来自频率的 Frequency-assistance Pyramid ,还有从 Global Encoder 来的高维度的时空信息,MFF 模块因此用来整合这三种信息:
- 首先,对于Temporal-view Pyramid,将更深 stage 特征上采样至当前 stage 特征的尺寸,然后将深的stage 特征concat,与当前 stage 特征做点乘
点乘而不是相加,目的是让模型更加关注更高 stage 重要的信息
- 然后再跟 Frequency Feature 做点乘,让模型更加关注频率信息中重要的内容
- 最后和高维度时空信息融合,这里使用相加,再 Upsample 传到金字塔下一层中
Ⅳ. Loss Function
这里使用的 loss 也比较常规,还是 IoU Loss 和 Focal Loss
四. 实验内容
(1)Evaluation Performance
- mIoU
- F1 score
(2)Training & Testing Dataset
这篇论文实验工作量还是蛮大的,用到了三种数据集,分别是DAVIS Video Inpainting dataset (DVI)、Free-from Video Inpainting dataset (FVI)、YouTubeVOS dataset(YTVI),其中 DVI 和 FVI 是为了配合前人工作的数据集,YTVI是自己提出的。
DVI、FVI、YTVI 数据集大小分别为150、100、3471个视频
(3)Video Inpainting Method
除此之外,用到的 Inpainting 方法包括之前人用的 Deep video inpainting(VI)、Onion-peel networks for deep video completion(OP)、Copy-and-paste networks for deep video inpainting(CP) 以及一些新的方法,如 FuseFormer、E2FGVI 和 Propainter。
(4)Result Comparation
对比的工作包括:
- 视频inpainting检测:VIDNet (BMVC’21)、FAST (ICCV’21)、DSTT (ICASSP’22)
- 图像inpainting检测:HPF (ICCV’19)、GSRNet (AAAI’20)、OSNet (CVPR’22)、HiFi-Net (CVPR’23)
结果比对的方式:
- 在 YTVI 数据集上训练和预测,使用 VI、OP、CP三种中的两种 Video Inpainting 方法排列组合进行训练:
- 在 DVI 数据集上训练和预测,使用 VI、OP、CP三种中的两种 Video Inpainting 方法排列组合进行训练:
- 在 YTVI 数据集上训练,DVI 数据集做测试,使用 VI、OP、CP三种中的两种 Video Inpainting 方法排列组合进行训练:
- 加大难度。在 YTVI 数据集上训练,YTVI 和 DVI 两个数据集做测试,使用 FuseFormer、E2FGVI 和 Propainter三种 Video Inpainting 方法进行训练,测试的方法增至七种:
- 在 DVI 数据集上训练,FVI 数据集做测试,使用 VI 和 OP两种 Video Inpainting 方法进行训练:
(5)Ablation Study & Robustness Analysis
- 消融实验分别测试 Decoder 中 temporal-view features、frequency features、MFF 以及 deformable window-based temporal-view interaction的作用。
- 鲁棒实验测试在JPEG压缩和高斯噪声扰动下模型的鲁棒性。
- 作者:Hidragon
- 链接:https://www.zwzwoody.fun/article/2a481315-9ffb-4aee-b503-cfa2b07e1d5d
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。