type
status
date
slug
summary
tags
category
icon
password
AI总结:
UMMAFormer是一种视频伪造检测定位方法,其创新点包括在视频伪造定位中定位篡改内容的起始、结束帧,将inpainted的区域当作一个目标去识别,并在特征增强部分提出了TFAA和PCA-FPN两个模块。此外,还提供了一个新的视频inpainting数据集TVIL。UMMAFormer的整体框架源自于TAL的一篇ActionFormer,包括预训练的特征提取、特征增强和特征解码三个部分。
一. 重要概念:
- TFL:Temporal forgery localization,视频伪造检测定位
- TAL:Temporal action localization,视频动作定位
二. 创新点
- 在视频伪造定位中,对于一个完整的视频中可能包含多段伪造的内容,因此篡改过的视频中的篡改内容的起始、结束帧的定位是很重要的(落脚点创新)
- 把inpainted的区域当作一个目标去识别,借助TAL领域的方法应用到视频伪造检测中(出发点创新)
- 在TAL框架的基础上,针对于特征增强部分,提出两个模块:TFAA和PCA-FPN(方法创新)
1. TFAA的思想是构建一个Encoder-Decoder架构的模块,输入真实的多模态的特征并且重构它,让这个模块学会真实的视频的鲁棒表征,当有篡改的视频输入时,它的重构特征一定是与输入差别巨大的。然后通过交叉注意力计算找到差别巨大的内容,即是篡改内容。
2. FPN是何恺明提出的目标检测算法,能够有效增强微弱的特征,作者在此基础上改进并提出PCA-FPN,加入交叉注意力模块使得增强的特征误差降低
- 提供一个新的视频inpainting数据集TVIL,包含4453个篡改视频,可用于训练、验证和测试(新的数据集)
三.整体框架
UMMAFormer整体框架源自于TAL的一篇ActionFormer,框架包含三个组成部分:预训练的特征提取器、特征增强(创新)、特征解码器
1. 预训练的特征提取
输入是一个多模态的信息(视音频、仅视频、仅音频),将它们分别输入进预训练的视觉的听觉模块中抽取特征
使用的预训练模型分别为 Lav-DF 和 Psynd
2. 特征增强
特征增强包括两个模块:TFAA 和 PCA-FPN
TFAA由 Encoder-Decoder 模块(DCAE)和 Transformer 模块(CRATrans)共同组成。DCAE就是一个重构器,学会了真实视频的鲁棒表示;CRATrans就是一个简单的Transformer Encoder,将重构的特征与输入特征做交叉注意力计算,从而找到差别大的区域即是篡改区域。
TFAA包含了两个损失函数: 一个是重构器的loss,另一个是特征经过重构器的Encoder得到的潜在表征的二分类loss
PCA-FPN模块通过一系列包含交叉注意力计算的上采样和下采样操作,得到五种尺度的特征
3. 特征解码器
将PCA-FPN输出的五个尺度的特征进行分类和回归处理,随后进行后处理,最后进行伪造定位。
分类和回归处理部分分别还提供两个损失函数,与特征增强的两个共同构成模型的损失函数
其余部分本文没有详细介绍,直接使用ActionFormer的特征解码器模块即可。
四. 视频inpainting数据集TVIL
基于YouTubeVOS数据集,使用四种视频inpainting方法(STTN, FuseFormer, E2FGVI, FGT)和一种分割mask算法(XMEM)分别用于制作视频inpainting样本和打标签(静态mask和动态mask)。
- 作者:Hidragon
- 链接:https://www.zwzwoody.fun/article/f11b288f-eb02-4745-b53f-55fbe1bbc2fb
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。