CN114758272A

CN114758272A - 基于频域自注意力的伪造视频检测方法

Info

Publication number: CN114758272A
Application number: CN202210334683.9A
Authority: CN
Inventors: 李邵梅; 吉立新; 黄瑞阳; 马欣; 杨帆; 高超; 张建朋
Original assignee: Information Engineering University of PLA Strategic Support Force
Current assignee: Information Engineering University of PLA Strategic Support Force
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2022-07-15

Abstract

本发明提供一种基于频域自注意力的伪造视频检测方法。该方法包括：将待检测视频分为若干个视频帧；判断每个视频帧是否伪造视频帧，具体包括：提取当前视频帧中的人脸图像，记作原始人脸图像；提取所述原始人脸图像的相位谱，并基于相位谱对原始人脸图像进行重构，将重构得到的人脸图像记作重构人脸图像；将所述重构人脸图像拆分成若干个相同大小的图像块，并将若干个所述图像块转换成序列数据；将所述序列数据输入至训练好的Transformer模型中提取得到特征向量，将所述特征向量输入至多层感知机，判断所述特征向量对应的视频帧是否为伪造视频帧；统计伪造视频帧的数量与真实视频帧的数量，若前者大于后者，则认为待检测视频为伪造视频，反之为真实视频。

Description

基于频域自注意力的伪造视频检测方法

技术领域

本发明涉及视频处理、网络空间安全技术领域，尤其涉及一种基于频域自注意力的伪造视频检测方法。

背景技术

传统的伪造视频人脸检测方法主要是基于CNN(卷积神经网络)做的，这两年的研究发现基于Transformer的注意力模型在伪造视频检测中能得到更佳的性能，但是现有的基于Transformer的伪造视频检测模型只从原始的图像像素和基于CNN的特征图中进行伪造特征学习，没有考虑基于频域变换的相位谱特征，检测精度有进一步提升的空间。

发明内容

针对现有伪造视频检测方法存在检测精度不高的问题，本发明提供一种基于频域自注意力的伪造视频检测方法，根据伪造视频的视频帧相位谱可能包含伪造伪影信息的线索，利用Transformer模型对特征的自学习能力，采用Transformer模型从伪造视频视频帧的相位谱中自动学习伪造的伪影特征，实现对视频中每个视频帧的真伪检测，进而实现对整个伪造视频的检测。

本发明提供一种基于频域自注意力的伪造视频检测方法，包括：

步骤1：将待检测视频分为若干个视频帧；

步骤2：判断每个视频帧是否伪造视频帧，具体包括：

步骤2.1：提取当前视频帧中的人脸图像，记作原始人脸图像；提取所述原始人脸图像的相位谱，并基于相位谱对原始人脸图像进行重构，将重构得到的人脸图像记作重构人脸图像；

步骤2.2：将所述重构人脸图像拆分成若干个相同大小的图像块，并将若干个所述图像块转换成序列数据；

步骤2.3：将所述序列数据输入至训练好的Transformer模型中提取得到特征向量，将所述特征向量输入至多层感知机，判断所述特征向量对应的视频帧是否为伪造视频帧；

步骤3：统计伪造视频帧的数量与真实视频帧的数量，若前者大于后者，则认为待检测视频为伪造视频，反之为真实视频。

进一步地，步骤2.1具体包括：

将所述原始人脸图像I(x,y)转换成灰度图像I_g(x,y)，对所述灰度图像I_g(x,y)按照公式(1)进行快速傅里叶变换，得到图像F(x,y)；然后按照公式(2)计算得到相位谱S(x,y)；最后按照公式(3)得到重构人脸图像P(x,y)；

F(x,y)＝FFT(I_g(x,y)) (1)

S(x,y)＝p(F(x,y)) (2)

P(x,y)＝IFFT([e^i·S(x,y)]) (3)

其中，FFT(·)和IFFT(·)分别表示快速傅里叶变换和快速傅里叶反变换，p(·)是求相角的函数。

进一步地，步骤2.2具体包括：

设定重构人脸图像的大小为H×W，图像块的大小为P×P，则得到N个图像块，其中，N＝(H×W)/P²；

按照公式(4)将N个所述图像块转换为序列数据z₀：

其中，x_class表示D维可学习的跟类别相关的变量，

代表N个大小为P×P的像素矩阵，E代表将图像块转换到D维嵌入的线性映射矩阵，E_pos表示将位置进行嵌入的矩阵。

进一步地，步骤2.3具体包括：

采用公式(5)至(6)表示Transformer模型的特征提取过程，采用公式(7)表示多层感知机的判决过程：

z'_l＝MHA(LN(z_l-1))+(z_l-1), l＝1...L (5)

z_l＝MLP(LN(z'_l))+(z'_l), l＝1...L (6)

其中，MHA(·)表示多头注意力机制；LN(·)表示层归一化；MLP(·)表示多层感知机；将所述公式(6)中对应的多层感知机记作第一多层感知机，将所述公式(7)中对应的多层感知机记作第二多层感知机；L表示Transformer的总层数，l表示是第l层，z_l代表第l层MLP的输出，z'_l代表第l层MHA的输出，

表示z_l第1维的数据。

进一步地，所述第一多层感知机由两个隐藏层组成；第一个隐藏层具有H₁个节点，第二个隐藏层具有H₂个节点；其中，H₁＝D，H₂的取值等于所述多层感知机的输出维度；

所述第一个隐藏层的计算公式如公式(10)所示，所述第二个隐藏层的计算公式如公式(11)所示：

其中，

分别表示第一个隐藏层和第二个隐藏层可学习的权重，g(·)表示激活函数，

表示MLP的第一个隐藏层的第i个隐藏节点的中间临时值，

表示MLP的第二个隐藏层的第i个隐藏节点的中间临时值，

表示MLP的第一个隐藏层的第i个隐藏节点的输出；

表示MLP的第二个隐藏层的第i个隐藏节点的输出；x_j是第j维的输入。

进一步地，所述第二多层感知机具有一个隐藏层，所述隐藏层具有两个节点，将第一个节点的值作为视频帧是真实视频帧的概率，将第二个节点的值作为视频帧是伪造视频帧的概率。

本发明的有益效果：

本发明通过将Transformer模型与频域的相位谱特征进行结合，相比于传统基于CNN的特征提取网络，Transformer模型具有更好的伪造视频特征提取性能，相比于传统的基于Transformer模型的伪造视频检测方法，本发明考虑到相位谱特征对伪造视频的影响，可以进一步提高伪造视频的检测精度。

附图说明

图1为本发明实施例提供的基于频域自注意力的伪造视频检测方法的流程示意图；

图2为本发明实施例提供的基于相位谱重构人脸图像的效果图；

图3为本发明实施例提供的判断当前视频帧是否为伪造视频帧的流程示意图；

图4为现有技术提供的Transformer模型的结构图；

图5为本发明实施例提供的待学习的类别嵌入、位置嵌入到输入嵌入的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供一种基于频域自注意力的伪造视频检测方法，包括以下步骤：

S101：将待检测视频分为若干个视频帧；

S102：判断每个视频帧是否伪造视频帧，具体包括：

S1021：如图2所示，提取当前视频帧中的人脸图像，记作原始人脸图像；提取所述原始人脸图像的相位谱，并基于相位谱对原始人脸图像进行重构，将重构得到的人脸图像记作重构人脸图像；

具体地，可以采用经典的RetinaFace模型从视频帧中提取出人脸图像。因为相位信息不需要关注图像的颜色，将所述原始人脸图像I(x,y)转换成灰度图像I_g(x,y)，对所述灰度图像I_g(x,y)按照公式(1)进行快速傅里叶变换，得到图像F(x,y)；然后按照公式(2)计算得到相位谱S(x,y)；最后按照公式(3)得到重构人脸图像P(x,y)；

F(x,y)＝FFT(I_g(x,y)) (1)

S(x,y)＝p(F(x,y)) (2)

P(x,y)＝IFFT([e^i·S(x,y)]) (3)

其中，FFT(·)和IFFT(·)分别表示快速傅里叶变换和快速傅里叶反变换，p(·)是求相角的函数；

S1022：如图3所示，将所述重构人脸图像拆分成若干个相同大小的图像块，并将若干个所述图像块转换成序列数据；

具体地，设定重构人脸图像的大小为H×W，图像块的大小为P×P，则得到N个图像块，其中，N＝(H×W)/P²；

按照公式(4)将N个所述图像块转换为序列数据z₀：

其中，x_class表示D维可学习的跟类别相关的变量，

S1023：如图3所示，将所述序列数据输入至训练好的Transformer模型中提取得到特征向量，将所述特征向量输入至多层感知机，判断所述特征向量对应的视频帧是否为伪造视频帧；

具体地，采用公式(5)至(6)表示特征提取过程，采用公式(7)表示多层感知机的判决过程：

z'_l＝MHA(LN(z_l-1))+(z_l-1), l＝1...L (5)

z_l＝MLP(LN(z'_l))+(z'_l), l＝1...L (6)

其中，MHA(·)表示多头注意力机制；LN(·)表示层归一化；MLP(·)表示多层感知机；为便于区分和描述，将所述公式(6)中对应的多层感知机记作第一多层感知机，将所述公式(7)中对应的多层感知机记作第二多层感知机；L表示Transformer的总层数，每一层l表示是第l层，z_l代表第l层MLP的输出，z'_l代表第l层MHA的输出，

表示z_l第1维的数据。

需要说明的是，LN(·)用于对输入中的某一维或某几维做归一化，例如对输入X的某一维数据x＝{x₁,x₂,…x_n}进行归一化，则LN(·)的计算公式为：

其中，E(x)为x的均值，

Var[x]为x的方差，

ε是为了防止分母为0而加的一个很小的值，一般取值为1e-05。

MHA(·)的计算过程如下：

其中，W_Q、W_K、W_V是可学习的参数矩阵，d是K^T·Q的维数，假定K表示神经网络的输出类别数，v为输出向量，v_j为v中第j个输出类别的值，i表示当前需要计算的类别，计算结果在0到1之间，且所有类别的softmax值求和为1。softmax(·)的计算公式为：

本实施例中，所述第一多层感知机由两个隐藏层组成；所述第一多层感知机的第一个隐藏层具有H₁个节点，第二个隐藏层具有H₂个节点；其中，H₁＝D，H₂的取值等于所述多层感知机的输出维度；

其中，

表示MLP的第一个隐藏层的第i个隐藏节点的中间临时值，

表示MLP的第二个隐藏层的第i个隐藏节点的中间临时值，

表示MLP的第一个隐藏层的第i个隐藏节点的输出，由公式(10)可以看出，其是经由

送入激活函数得到；

表示MLP的第二个隐藏层的第i个隐藏节点的输出，由公式(11)可以看出，其是经由

送入激活函数得到；x_j是第j维的输入。

本实施例中，采用ReLU函数作为激活函数，其计算公式为：

本实施例中，所述第二多层感知机具有一个隐藏层，所述隐藏层具有两个节点，将第一个节点的值作为视频帧是真实视频帧的概率，将第二个节点的值作为视频帧是伪造视频帧的概率。若第一个节点的值大于第二个节点的值，则认为当前视频帧为真实视频帧，反之认为当前视频帧为伪造视频帧。

作为一种可实施方式，Transformer模型的训练过程如下：

首先，收集M个真实人脸图像和M个基于深度伪造生成的伪造人脸图像；然后，采用RetinaFace模型分别对M个真实人脸图像和M个伪造人脸图像中的人脸区域进行定位并将该人脸区域进行裁剪提取出来；接着，分别基于相位谱对裁剪提取出来的真实人脸图像和伪造人脸图像进行重构，重构得到的M个真实人脸图像组成正向样本集p＝{p₁,p₂,…,p_M}，重构得到的M个伪造人脸图像组成负向n＝{n₁,n₂,…,n_M}；将正向样本集中每个样本的标签设置为1，负向样本集中每个样本的标签设置为0；最后，将p和n输入到图4所示的网络中进行训练。优选地，M＝100。

S103：统计伪造视频帧的数量与真实视频帧的数量，若前者大于后者，则认为待检测视频为伪造视频，反之为真实视频。

实施例2

下面以对一个视频帧的检测为例来对处理流程进行说明。首先从视频帧中采用RetinaFace模型提取人脸区域，然后采用公式(1)-(3)，得到相位谱重构后的人脸图像。

对于每个相位谱重构后的灰度人脸图像，首先调整到256×256的大小，然后切分成32×32大小的图像块，得到64个图像块，每个图像块通过线性映射，映射到32×32＝1024维。这64个图像块的嵌入和1×1024维的可学习分类嵌入(图3中最左侧的带*所示的向量)组成一个65×1024维的嵌入。考虑到图像块之间的位置关系对理解图像的内容有意义，所以在上述嵌入的基础上再加上65×1024维的可学习位置嵌入，得到最终的65×1024维的嵌入作为Transformer模型的输入。

上述65×1024维的嵌入I₁送入Transformer模型中提取特征，Transformer模型由6个(即L＝6)图4所示的网络结构组成，其中多头注意力机制的注意力头数是16，多层感知机的第1个隐藏层的节点数H₁是2048，第2个隐藏层的节点数H₂是1024。经过Transformer编码后，输出新的65×1024维的图像表征I₂。

从I₂中提取第1行1024维向量，作为学习到的类别向量，输入到图3最上层的多层感知机中，这个感知机只有1个隐藏层，2个节点，用于把1024维的输入向量转换成2维的类别向量，为{0.03,0.4}，因为0.03<0.4，所以判定该视频帧为伪造视频帧。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。