type
status
date
slug
summary
tags
category
icon
password
AI总结:
第一篇使用transformer的视频inpainting检测论文。该文档介绍了一篇名为《Frequency-Aware Spatiotemporal Transformers for Video Inpainting Detection》的论文,该论文提出了一种将Transformer引入视频inpainting检测的方法。论文使用DCT离散余弦变换对RGB图像进行编码,并将RGB图像与DCT图像相结合,使用Transformer Encoder和Decoder的框架进行视频inpainting检测。论文还介绍了具体的流程、Decoder阶段的特征融合方法以及使用的损失函数和评估指标。
一. 重要概念
DCT离散余弦变换
数据压缩分为无损压缩和有损压缩,而DCT技术是有损压缩的重要组成。
DCT图像由将一张RGB图像进行DCT变换而来,DCT图像的特点是低频主要集中在左上,高频主要集中在右下。优点是具有更好的频域能量聚集度,也就是能把图像更重要的信息聚集在一起,在图像压缩过程中,通常将DCT图像右下角的部分舍去,删除一部分高频信息并不影响人眼的视觉感受。
DCT仅能对灰度图像进行计算
二. 创新点
- 第一个将transformer引入视频inpainting检测的论文(方法创新)
- 模型框架为 “Transformer Encoder + Decoder” ,在解码的过程中将RGB图像和DCT图像相结合(方法创新)
三. 整体框架
整体的框架比较简单:Transformer Encoder + Decoder
具体流程
先使用 VIT 对RGB图像进行编码和注意力计算,得到潜在表征,随后还原为尺寸为(, , )的特征,然后逐步上采样,在上采样的过程中融合相应尺寸的频域特征。
Decoder
值得注意的是Decode阶段中,从Transformer Encoder出来的特征需要与频域特征相结合,其中,DCT图像提取后需要经过三个滤波器,低通、中通、高通后进行IDCT变换为RGB图像(下图),然后将三个不同频段的RGB图像在通道上concat,最后再与不同尺寸的Transformer模块输出的图像特征进行结合。
Loss Function
- 使用改进版交叉熵函数(CE):Focal loss
其中,y为ground truth,y hat为预测mask,α和γ为超参数
- IoU loss
四. 选用数据集
Davis Video Inpainting dataset (DVI) 和 Free-form Video Inpainting dataset (FVI)
其中使用Video Inpainting的方法包括:
- Deep video inpainting(CVPR 2019)
- Copy-and-paste networks for deep video inpainting(ICCV 2019)
- Onion-peel networks for deep video completion(ICCV 2019)
五. 评估指标
score 和 mIoU
- 作者:Hidragon
- 链接:https://www.zwzwoody.fun/article/29ef15ec-55f6-4478-9b07-878133458729
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。