CN109285538A

CN109285538A - 一种基于常q变换域的加性噪声环境下手机来源识别方法

Info

Publication number: CN109285538A
Application number: CN201811090798.8A
Authority: CN
Inventors: 王让定; 秦天芸; 严迪群
Original assignee: Ningbo University
Current assignee: Huzhou Chuangguan Technology Co ltd
Priority date: 2018-09-19
Filing date: 2018-09-19
Publication date: 2019-01-29
Anticipated expiration: 2038-09-19
Also published as: CN109285538B

Abstract

本发明公开了一种基于常Q变换域的加性噪声环境下手机来源识别方法，其利用常Q变换获取常Q变换域的频谱分布特征向量，常Q变换在低频具有更高的频率分辨率，在高频具有更高的时间分辨率，更适合于手机来源识别；其在训练阶段采用了多场景训练的方式，训练集中不仅有未添加场景噪声的干净的语音样本，还有含有不同场景噪声类型和噪声强度的含噪语音样本，训练得到的M分类模型具有通用性，并且对已知噪声场景和未知噪声场景的语音样本都能进行有效的手机来源识别；其使用深度学习的CNN模型来建立M分类模型，CNN模型不仅提升了对未添加场景噪声的干净的语音样本的来源识别准确性，而且大幅度提升了含噪语音样本的手机来源识别效果，噪声鲁棒性强。

Description

一种基于常Q变换域的加性噪声环境下手机来源识别方法

技术领域

本发明涉及一种手机来源识别技术，尤其是涉及一种基于常Q变换域的加性噪声环境下手机来源识别方法。

背景技术

随着数字多媒体和互联网技术的不断发展和进步，各种功能强大且易于操作的数字媒体编辑软件应运而生，给采集数据的可用性带来了新的问题和挑战——多媒体的安全问题。作为一种检测多媒体数据独创性、真实性、完整性的技术，多媒体取证技术是信息安全领域的热点研究问题。录音设备来源识别作为多媒体取证技术的一个分支具有重大研究意义，相比于录音笔、相机、DV等设备，手机更加普及与便捷，越来越多的人开始使用手机来采集听到的情景，甚至会将手机录音作为证据，提供给法院或其他执法机构，因此，手机来源识别这一研究方向是许多取证研究者关注的一个热点。

近些年来，手机录音设备来源识别已经取得了一定的研究成果。C.Hanilci等人从录音文件中提取梅尔频率倒谱系数(MFCC)作为手机区分性特征，比较SVM(Support VectorMachine)支持向量机)和VQ(向量量化)这两种分类器对手机的来源识别情况，它们对14款不同型号的手机来源识别的闭集识别率分别为96.42％和92.56％，从结果可以看出SVM的分类效果突出。随后C.Hanilci等人采用SVM比较了梅尔频率倒谱系数(MFCC)、线性频率倒谱系数(LFCC)、Bark频率倒谱系数(BFCC)和线性预测倒谱系数(LPCC)这四种声学特征在手机来源识别中性能的优劣，从结果可以看出梅尔频率倒谱系数(MFCC)的分类效果较好，识别率达到了98％。C.Kotropoulos等人提出了一种新的设备识别算法，此算法将频谱轮廓特征作为设备指纹，使用稀疏表示分类器对7个不同品牌的21款手机进行来源识别，闭集识别率为95％。之后，C.Kotropoulos等人从录音文件中提取出梅尔频率倒谱系数(MFCC)，将低维的梅尔频率倒谱系数(MFCC)用GMM(Gaussian Mixture Model，高斯混合模型)映射成高维的特征向量—高斯超矢量(GSVs)来表征设备的信息，使用具有径向基函数(RBF)内核的神经网络进行来源识别，识别准确率提升为97.6％。随后，邹领等人使用GMM-UBM(GaussianMixture Model-Universal Background Model，高斯混合模型-通用背景模型)分类器，比较了梅尔频率倒谱系数(MFCC)和功率归一化倒谱系数(PNCC)对手机来源识别性能的影响，实验表明梅尔频率倒谱系数(MFCC)在手机来源识别中比功率归一化倒谱系数(PNCC)更有效，在两种语音库上识别率分别达到了92.86％和97.71％。最近，LUO等人提出了一种新特征，子带能量差异特征，此特征通过对语音文件傅里叶变换后的功率值进行差值处理而得，计算复杂度低并且对不同手机设备区分性强，在SVM下对31款手机进行来源识别，闭集识别率为96％。

以上手机来源识别算法都是直接对原始语音录音文件进行处理的，而原始语音信号中既含有录音设备有关的信息，也含有很多与录音设备识别无关的信息，如语音内容信息、说话人信息、说话人情感信息等等，这些信息或多或少都会对录音设备的来源识别形成干扰。由于静音段包含了与正常语音一样的录音设备信息，并且不受说话人情感、语音、语调及说话内容等因素的影响，因此一些研究者开始从静音段中提取表征录音设备的特征。如：王志峰等人从静音段提取一种改进的功率归一化倒谱系数(PNCC)特征，利用长时帧分析去除背景噪声对设备信息的影响，以GMM-UBM为基础模型，通过两步区分性训练集内设备模型和通用设备模型，训练集内平均识别率为96.65％。又如：C.Hanilci等人从静音段提取梅尔频率倒谱系数(MFCC)和线性频率倒谱系数(LFCC)特征，采用GMM-ML(GMM trainedboth with maximum likelihood criteria，最大似然标准进行训练的高斯混合模型)、GMM-MMI(GMM trained both with maximum mutual information criteria，最大互信息标准进行训练的高斯混合模型)、SVM分类器进行识别，结果表明，梅尔频率倒谱系数(MFCC)特征在SVM下识别率最高，在两种语音库上的识别率分别为98.39％和97.03％。

虽然静音段主要是表征设备信息的设备噪声，但是受录制环境影响，依然会混杂着影响设备识别的背景噪声。金超等人提出了一种从静音段中提取录音设备的设备噪声的方法，并将设备噪声作为提取表征录音设备之间区分性信息的载体，用来区别手机品牌和型号，从设备噪声中提取频谱形状特征和频谱分布特征，使用SVM分类器对两个语音库中24款不同的手机进行识别，两种特征组合后得到的特征表现最佳，识别率分别为89.23％和94.53％。Simeng Qi等人则是对原始语音文件进行去噪处理得到纯语音文件，对原始语音文件和纯语音文件使用谱减法得到噪声信号，将噪声信号的傅里叶直方图系数作为深度模型的输入，比较三种不同的深度学习分类算法Softmax、MLP(Multilayer perceptron，多层感知机)、CNN(convolutional neural network，卷积神经网络)的识别效果，CNN表现较好，并且采用投票模型融合多个分类器效果最好，识别率达到99％。

尽管现在大多数手机录音设备识别算法对设备的识别有着不错的准确性，但是仍存在一定的局限性，很少有研究会考虑噪声攻击情况下算法的鲁棒性。然而在实际生活中，需要鉴别的录音文件通常是在不同噪声环境下录制的，噪声环境下的手机录音来源识别更具有现实意义和挑战性。

发明内容

本发明所要解决的技术问题是提供一种基于常Q变换域的加性噪声环境下手机来源识别方法，其准确性高，计算复杂度低，噪声鲁棒性强。

本发明解决上述技术问题所采用的技术方案为：一种基于常Q变换域的加性噪声环境下手机来源识别方法，其特征在于包括以下步骤：

步骤一：选取M个不同主流品牌不同型号的手机；然后使用每个手机获取N个人各自对应的P个语音样本，每个手机对应的语音样本共有N×P个；再将每个手机对应的所有语音样本构成一个子集，将M个子集共M×N×P个语音样本构成基础语音库；其中，M≥10，N≥10，P≥10；

步骤二：选取不同噪声类型不同噪声强度的场景噪声共X×Y种，噪声类型共X种，噪声强度共Y种；然后采用噪声添加工具在基础语音库中的每个子集中的所有语音样本中添加每种场景噪声，将基础语音库中的每个子集中的所有语音样本添加一种场景噪声后得到的含噪语音样本构成一个含噪子集，将针对添加一种场景噪声得到的M个含噪子集共M×N×P个含噪语音样本构成一个含噪语音库，针对X×Y种场景噪声共得到X×Y个含噪语音库；其中，X≥2，Y≥2；

步骤三：对基础语音库中的每个子集中的每个语音样本进行常Q变换，将基础语音库中的每个子集中的每个语音样本变换到频域，将基础语音库中的第m个子集中的第n个语音样本对应的第k个频率点的频率值记为F_m,n(k)，然后计算基础语音库中的每个子集中的每个语音样本对应的每个频率点的频率值的幅值，将F_m,n(k)的幅值记为H_m,n(k)，接着计算基础语音库中的每个子集中的每个语音样本对应的每个频率点的频谱分布特征值，将基础语音库中的第m个子集中的第n个语音样本对应的第k个频率点的频谱分布特征值记为SSF_m,n(k)，再将基础语音库中的每个子集中的每个语音样本对应的K个频率点的频谱分布特征值构成频谱分布特征向量，将基础语音库中的第m个子集中的第n个语音样本对应的频谱分布特征向量记为SSF_m,n，SSF_m,n＝[SSF_m,n(1),…,SSF_m,n(k),…,SSF_m,n(K)]；其中，m为正整数，1≤m≤M，n为正整数，1≤n≤N×P，k为正整数，1≤k≤K，K表示常Q变换的频率点的总点数，K≥9，g_k为正整数，1≤g_k≤G_k，G_k表示常Q变换的过程中分帧的窗口长度，z_m,n(g_k)表示基础语音库中的第m个子集中的第n个语音样本，w(g_k)表示常Q变换的过程中采用的窗函数，e为自然基数，j为虚数单位，f_k表示常Q变换的过程中采用的滤波器的中心频率，表示第m个手机的采样率，为F_m,n(k)的共扼，T_k表示基础语音库中的每个子集中的每个语音样本在第k个频率点处的总帧数，t_k为正整数，1≤t_k≤T_k，c为一个随机正数，SSF_m,n的维数为1×K，符号“[]”为向量表示符号，SSF_m,n(1)表示基础语音库中的第m个子集中的第n个语音样本对应的第1个频率点的频谱分布特征值，SSF_m,n(K)表示基础语音库中的第m个子集中的第n个语音样本对应的第K个频率点的频谱分布特征值；

采用相同的操作方式对每个含噪语音库中的每个含噪子集中的每个含噪语音样本进行处理，获得每个含噪语音库中的每个含噪子集中的每个含噪语音样本对应的各个频率点的频率值、各个频率点的频率值的幅值、各个频率点的频谱分布特征值、频谱分布特征向量，将第i个含噪语音库中的第m个含噪子集中的第n个含噪语音样本对应的第k个频率点的频率值记为F_i,m,n(k)，将第i个含噪语音库中的第m个含噪子集中的第n个含噪语音样本对应的第k个频率点的频率值的幅值记为H_i,m,n(k)，将第i个含噪语音库中的第m个含噪子集中的第n个含噪语音样本对应的第k个频率点的频谱分布特征值记为SSF_i,m,n(k)，将第i个含噪语音库中的第m个含噪子集中的第n个含噪语音样本对应的频谱分布特征向量记为SSF_i,m,n；其中，i为正整数，1≤i≤X×Y，SSF_i,m,n的维数为1×K；

步骤四：对基础语音库中的每个子集中的每个语音样本对应的频谱分布特征向量及每个含噪语音库中的每个含噪子集中的每个含噪语音样本对应的频谱分布特征向量进行类别标记，将基础语音库中的第m个子集中的所有语音样本对应的频谱分布特征向量及所有含噪语音库中的第m个含噪子集中的所有含噪语音样本对应的频谱分布特征向量标记为第m种类别；然后将基础语音库中的所有子集中的语音样本对应的频谱分布特征向量及所有含噪语音库中的含噪子集中的含噪语音样本对应的频谱分布特征向量作为输入特征，输入到CNN模型中进行训练，训练得到M分类模型，M分类模型的输出端用于输出类别，输出的类别为M种，与选取的M个手机一一对应；

步骤五：取一个待识别的语音，记为V_test；然后按照步骤三的过程，以相同的操作方式获得V_test对应的频谱分布特征向量，记为SSF_test；再将SSF_test输入到训练得到的M分类模型中进行分类别，M分类模型的输出端输出SSF_test的类别，即得到SSF_test的手机来源；其中，SSF_test的维数为1×K。

所述的步骤一中，使用每个手机获取N个人各自对应的P个语音样本的具体过程为：选取N个不同年龄不同性别的人，使用M个手机在安静办公室环境下同时采集每个人用正常的语速朗读固定内容的语音，每个手机共采集到N个语音，M个手机共采集到M×N个语音，要求每个语音的时长至少为3分钟；然后将每个手机采集到的每个语音转换成wav格式语音；接着将每个手机对应的每个wav格式语音分割成多个时长为3～10秒的语音片段；再从每个手机对应的每个wav格式语音的所有语音片段中随机选取P个语音片段作为语音样本。

所述的步骤一中，使用每个手机获取N个人各自对应的P个语音样本的具体过程为：使用M个手机在安静办公室环境下同时采集由高保真音箱回放的N个人各自对应的P个时长为3秒的语句；然后将每个手机采集到的每个语句转换成wav格式语音；再将每个手机对应的每个wav格式语音作为语音样本。

所述的步骤三中，其中，f_min表示常Q变换的过程中采用的滤波器的最低中心频率，f_max表示常Q变换的过程中采用的滤波器的最高中心频率，B表示常Q变换每倍程的频率点的点数，符号为向下取整符号；其中，Q表示常Q变换的Q因子，

所述的步骤四中，CNN模型的网络框架包括输入层、第一卷积层、第一非线性激活层、第二卷积层、第二非线性激活层、最大池化层、全连接层、第三非线性激活层、输出层，输入层的输入端输入的输入特征的维数为1×K，第一卷积层有72个卷积核、卷积核的大小为1×3、卷积核的移动步长为1，第二卷积层有72个卷积核、卷积核的大小为1×2、卷积核的移动步长为1，最大池化层的核的大小为1×26、核的移动步长为1，全连接层有64个神经元，输出层的输出端输出类别，第一非线性激活层、第二非线性激活层、第三非线性激活层均采用ReLU函数，CNN模型中的Dropout损失函数的值为0.25，CNN模型中的分类器为Softmax。

与现有技术相比，本发明的优点在于：

1)本发明方法通过充分分析使用不同手机设备录制的语音的傅里叶变换域的频谱特性，发现不同品牌的手机差异主要分布在中高频并且差异较大，而相同品牌不同型号的手机差异主要在中低频并且差异很小，因此对手机设备的识别关键在于对同品牌不同型号的手机设备的区分，也就是说，手机设备识别的好坏取决于是否能够对手机设备中低频的细微差异进行很好的区分，基于该分析，本发明方法利用常Q变换获取常Q变换域的频谱分布特征向量，相比于具有固定时间-频率分辨率的短时傅里叶变换，常Q变换在低频具有更高的频率分辨率，在高频具有更高的时间分辨率，更适合于手机来源识别。

2)本发明方法在训练阶段采用了多场景训练的方式，训练集中不仅有未添加场景噪声的干净的语音样本，还有含有不同场景噪声类型和噪声强度的含噪语音样本，训练得到的M分类模型具有通用性，并且对已知噪声场景和未知噪声场景的语音样本都能进行有效的手机来源识别。

3)本发明方法使用深度学习的CNN模型来建立M分类模型，相比于传统的分类器，CNN模型不仅提升了对未添加场景噪声的干净的语音样本的来源识别准确性，而且还大幅度提升了含噪语音样本的手机来源识别效果，噪声鲁棒性强。

4)本发明方法获取常Q变换域的频谱分布特征向量的过程简单，计算复杂度低。

附图说明

图1为本发明方法的总体实现框图；

图2为MFCC、LFCC、SSF^STFT及本发明方法提出的常Q变换域的频谱分布特征向量分别在SVM分类器下的分类结果；

图3为本发明方法提出的常Q变换域的频谱分布特征向量分别在SVM、RF、CNN、RNN四种分类器下的分类结果。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提出的一种基于常Q变换域的加性噪声环境下手机来源识别方法，其总体实现框图如图1所示，其包括以下步骤：

步骤一：选取M个不同主流品牌不同型号的手机；然后使用每个手机获取N个人各自对应的P个语音样本，每个手机对应的语音样本共有N×P个；再将每个手机对应的所有语音样本构成一个子集，将M个子集共M×N×P个语音样本构成基础语音库；其中，M≥10，在本实施例中取M＝24，N≥10，在本实施例中取N＝12，P≥10，在本实施例中取P＝50。

在本实施例中，在步骤一中使用每个手机获取N个人各自对应的P个语音样本的方式有两种。第一种为：使用每个手机获取N个人各自对应的P个语音样本的具体过程为：选取N个不同年龄不同性别的人，如选取6个不同年龄的男性参与者和6个不同年龄的女性参与者，使用M个手机在安静办公室环境下同时采集每个人用正常的语速朗读固定内容的语音，每个手机共采集到N个语音，M个手机共采集到M×N个语音，要求每个语音的时长至少为3分钟；然后将每个手机采集到的每个语音转换成wav格式语音；接着将每个手机对应的每个wav格式语音分割成多个时长为3～10秒的语音片段；再从每个手机对应的每个wav格式语音的所有语音片段中随机选取P个语音片段作为语音样本，将利用这种方式构成的基础语音库记为CKC-SD。第二种为：使用每个手机获取N个人各自对应的P个语音样本的具体过程为：使用M个手机在安静办公室环境下同时采集由高保真音箱回放的TIMIT库中的N个人各自对应的P个时长为3秒的语句；然后将每个手机采集到的每个语句转换成wav格式语音；再将每个手机对应的每个wav格式语音作为语音样本，将利用这种方式构成的基础语音库记为TIMIT-RD。

表1给出了获取基础语音库CKC-SD和基础语音库TIMIT-RD使用的M个手机的主流品牌和型号的信息。

表1获取基础语音库CKC-SD和基础语音库TIMIT-RD使用的M个手机的主流品牌和型号的信息表

步骤二：选取不同噪声类型不同噪声强度的场景噪声共X×Y种，噪声类型共X种，噪声强度共Y种；然后采用噪声添加工具在基础语音库中的每个子集中的所有语音样本中添加每种场景噪声，将基础语音库中的每个子集中的所有语音样本添加一种场景噪声后得到的含噪语音样本构成一个含噪子集，将针对添加一种场景噪声得到的M个含噪子集共M×N×P个含噪语音样本构成一个含噪语音库，针对X×Y种场景噪声共得到X×Y个含噪语音库；其中，X≥2，在本实施例中取X＝5，Y≥2，在本实施例中取Y＝3。

在本实施例中，选取来自NOISEX-92噪声数据库中的白噪声(white noise)、嘈杂噪声(babble noise)、街道噪声(street noise)、餐厅噪声(cafe noise)和汽车噪声(volvo noise)这五种噪声类型，并且对于每种噪声类型，考虑3个信噪比(SNR)等级(即噪声强度)，即0dB、10dB和20dB；噪声添加工具选用遵循国际电联有关噪声添加和滤波的开源工具FaNT；针对基础语音库CKC-SD，对应有15个含噪语音库；针对基础语音库TIMIT-RD，也对应有15个含噪语音库。

步骤三：对基础语音库中的每个子集中的每个语音样本进行常Q变换，将基础语音库中的每个子集中的每个语音样本变换到频域，将基础语音库中的第m个子集中的第n个语音样本对应的第k个频率点的频率值记为F_m,n(k)，然后计算基础语音库中的每个子集中的每个语音样本对应的每个频率点的频率值的幅值，将F_m,n(k)的幅值记为H_m,n(k)，接着计算基础语音库中的每个子集中的每个语音样本对应的每个频率点的频谱分布特征值，将基础语音库中的第m个子集中的第n个语音样本对应的第k个频率点的频谱分布特征值记为SSF_m,n(k)，再将基础语音库中的每个子集中的每个语音样本对应的K个频率点的频谱分布特征值构成频谱分布特征向量，将基础语音库中的第m个子集中的第n个语音样本对应的频谱分布特征向量记为SSF_m,n，SSF_m,n＝[SSF_m,n(1),…,SSF_m,n(k),…,SSF_m,n(K)]；其中，m为正整数，1≤m≤M，n为正整数，1≤n≤N×P，k为正整数，1≤k≤K，K表示常Q变换的频率点的总点数，K≥9，在本实施例中取K＝420，g_k为正整数，1≤g_k≤G_k，G_k表示常Q变换的过程中分帧的窗口长度，z_m,n(g_k)表示基础语音库中的第m个子集中的第n个语音样本，w(g_k)表示常Q变换的过程中采用的窗函数，在本实施例中采用汉宁窗，e为自然基数，j为虚数单位，f_k表示常Q变换的过程中采用的滤波器的中心频率，表示第m个手机的采样率，为F_m,n(k)的共扼，T_k表示基础语音库中的每个子集中的每个语音样本在第k个频率点处的总帧数，t_k为正整数，1≤t_k≤T_k，c为一个随机正数，SSF_m,n的维数为1×K，符号“[]”为向量表示符号，SSF_m,n(1)表示基础语音库中的第m个子集中的第n个语音样本对应的第1个频率点的频谱分布特征值，SSF_m,n(K)表示基础语音库中的第m个子集中的第n个语音样本对应的第K个频率点的频谱分布特征值。

采用相同的操作方式对每个含噪语音库中的每个含噪子集中的每个含噪语音样本进行处理，获得每个含噪语音库中的每个含噪子集中的每个含噪语音样本对应的各个频率点的频率值、各个频率点的频率值的幅值、各个频率点的频谱分布特征值、频谱分布特征向量，将第i个含噪语音库中的第m个含噪子集中的第n个含噪语音样本对应的第k个频率点的频率值记为F_i,m,n(k)，将第i个含噪语音库中的第m个含噪子集中的第n个含噪语音样本对应的第k个频率点的频率值的幅值记为H_i,m,n(k)，将第i个含噪语音库中的第m个含噪子集中的第n个含噪语音样本对应的第k个频率点的频谱分布特征值记为SSF_i,m,n(k)，将第i个含噪语音库中的第m个含噪子集中的第n个含噪语音样本对应的频谱分布特征向量记为SSF_i,m,n；其中，i为正整数，1≤i≤X×Y，SSF_i,m,n的维数为1×K。

在本实施例中，步骤三中，其中，f_min表示常Q变换的过程中采用的滤波器的最低中心频率，f_max表示常Q变换的过程中采用的滤波器的最高中心频率，B表示常Q变换每倍程的频率点的点数，符号为向下取整符号，在本实施例中K＝420时的值为7，B的值为60；其中，Q表示常Q变换的Q因子，

步骤四：对基础语音库中的每个子集中的每个语音样本对应的频谱分布特征向量及每个含噪语音库中的每个含噪子集中的每个含噪语音样本对应的频谱分布特征向量进行类别标记，将基础语音库中的第m个子集中的所有语音样本对应的频谱分布特征向量及所有含噪语音库中的第m个含噪子集中的所有含噪语音样本对应的频谱分布特征向量标记为第m种类别；然后将基础语音库中的所有子集中的语音样本对应的频谱分布特征向量及所有含噪语音库中的含噪子集中的含噪语音样本对应的频谱分布特征向量作为输入特征，输入到CNN模型中进行训练，训练得到M分类模型，M分类模型的输出端用于输出类别，输出的类别为M种，与选取的M个手机一一对应。

在本实施例中，步骤四中，CNN模型的网络框架包括输入层、第一卷积层、第一非线性激活层、第二卷积层、第二非线性激活层、最大池化层、全连接层、第三非线性激活层、输出层，输入层的输入端输入的输入特征的维数为1×K，第一卷积层有72个卷积核、卷积核的大小为1×3、卷积核的移动步长为1，第二卷积层有72个卷积核、卷积核的大小为1×2、卷积核的移动步长为1，最大池化层的核的大小为1×26、核的移动步长为1，全连接层有64个神经元，输出层的输出端输出类别，第一非线性激活层、第二非线性激活层、第三非线性激活层均采用ReLU函数，CNN模型中的Dropout损失函数的值为0.25，CNN模型中的分类器为Softmax。

为了验证本发明方法的可行性和有效性，对本发明方法进行实验。

将基础语音库CKC-SD中的每个子集中的一半数量的语音样本及基础语音库CKC-SD对应的9个含噪语音库(包括添加白噪声且信噪比为20dB的含噪语音库、添加白噪声且信噪比为10dB的含噪语音库、添加白噪声且信噪比为0dB的含噪语音库、添加嘈杂噪声且信噪比为20dB的含噪语音库、添加嘈杂噪声且信噪比为10dB的含噪语音库、添加嘈杂噪声且信噪比为0dB的含噪语音库、添加街道噪声且信噪比为20dB的含噪语音库、添加街道噪声且信噪比为10dB的含噪语音库、添加街道噪声且信噪比为0dB的含噪语音库)中的每个含噪子集中的一半数量的含噪语音样本构成训练集，提取训练集中的所有语音样本的频谱分布特征向量用于训练CNN模型；而将基础语音库CKC-SD中的所有子集中的剩余一半数量的语音样本构成一个测试集，并将基础语音库CKC-SD对应的每个含噪语音库中的所有含噪子集中的剩余一半数量的含噪语音样本构成一个测试集，共有16个测试集；同样，将基础语音库TIMIT-RD中的每个子集中的一半数量的语音样本及基础语音库TIMIT-RD对应的9个含噪语音库中的每个含噪子集中的一半数量的含噪语音样本构成训练集，提取训练集中的所有语音样本的频谱分布特征向量用于训练CNN模型；而将基础语音库TIMIT-RD中的所有子集中的剩余一半数量的语音样本构成一个测试集，并将基础语音库TIMIT-RD对应的每个含噪语音库中的所有含噪子集中的剩余一半数量的含噪语音样本构成一个测试集，共有16个测试集。

一、常Q变换域的频谱分布特征向量的识别性能

为验证本发明方法提出的常Q变换域的频谱分布特征向量的识别性能，对传统的三个特征MFCC(梅尔频率倒谱系数)、LFCC(线性频率倒谱系数)、SSF^STFT(傅里叶变换域的频谱分布特征)及本发明方法提出的常Q变换域的频谱分布特征向量分别在基础语音库CKC-SD对应的训练集下进行训练，并使用基础语音库CKC-SD对应的16个测试集进行测试，识别结果如图2所示。图2中SSF(STFT)表示SSF^STFT特征、SSF(CQT)表示本发明方法提出的常Q变换域的频谱分布特征向量，横坐标表示不同的测试集，其中，clean表示基础语音库CKC-SD中的所有子集中的剩余一半数量的语音样本构成的测试集，white-20dB表示基础语音库CKC-SD对应的添加白噪声且信噪比为20dB的含噪语音库中的所有含噪子集中的剩余一半数量的含噪语音样本构成的测试集，white-10dB表示基础语音库CKC-SD对应的添加白噪声且信噪比为10dB的含噪语音库中的所有含噪子集中的剩余一半数量的含噪语音样本构成的测试集，white-0dB表示基础语音库CKC-SD对应的添加白噪声且信噪比为0dB的含噪语音库中的所有含噪子集中的剩余一半数量的含噪语音样本构成的测试集，babble-20dB表示基础语音库CKC-SD对应的添加嘈杂噪声且信噪比为20dB的含噪语音库中的所有含噪子集中的剩余一半数量的含噪语音样本构成的测试集，babble-10dB表示基础语音库CKC-SD对应的添加嘈杂噪声且信噪比为10dB的含噪语音库中的所有含噪子集中的剩余一半数量的含噪语音样本构成的测试集，babble-0dB表示基础语音库CKC-SD对应的添加嘈杂噪声且信噪比为0dB的含噪语音库中的所有含噪子集中的剩余一半数量的含噪语音样本构成的测试集，street-20dB表示基础语音库CKC-SD对应的添加街道噪声且信噪比为20dB的含噪语音库中的所有含噪子集中的剩余一半数量的含噪语音样本构成的测试集，street-10dB表示基础语音库CKC-SD对应的添加街道噪声且信噪比为10dB的含噪语音库中的所有含噪子集中的剩余一半数量的含噪语音样本构成的测试集，street-0dB表示基础语音库CKC-SD对应的添加街道噪声且信噪比为0dB的含噪语音库中的所有含噪子集中的剩余一半数量的含噪语音样本构成的测试集，cafe-20dB表示基础语音库CKC-SD对应的添加餐厅噪声且信噪比为20dB的含噪语音库中的所有含噪子集中的剩余一半数量的含噪语音样本构成的测试集，cafe-10dB表示基础语音库CKC-SD对应的添加餐厅噪声且信噪比为10dB的含噪语音库中的所有含噪子集中的剩余一半数量的含噪语音样本构成的测试集，cafe-0dB表示基础语音库CKC-SD对应的添加餐厅噪声且信噪比为0dB的含噪语音库中的所有含噪子集中的剩余一半数量的含噪语音样本构成的测试集，volvo-20dB表示基础语音库CKC-SD对应的添加汽车噪声且信噪比为20dB的含噪语音库中的所有含噪子集中的剩余一半数量的含噪语音样本构成的测试集，volvo-10dB表示基础语音库CKC-SD对应的添加汽车噪声且信噪比为10dB的含噪语音库中的所有含噪子集中的剩余一半数量的含噪语音样本构成的测试集，volvo-0dB表示基础语音库CKC-SD对应的添加汽车噪声且信噪比为0dB的含噪语音库中的所有含噪子集中的剩余一半数量的含噪语音样本构成的测试集。从图2中可以看出，首先，四种特征对于clean测试集都有着不错的识别效果，但随着场景噪声的加入，识别率下降，并且噪声强度越大识别效果越差；其次，在相同噪声强度情景下，对已知噪声类型的含噪语音样本的识别明显优于未知噪声类型的含噪语音样本的识别，已知噪声类型为在训练时含噪语音样本的噪声类型，已知噪声类型有白噪声、嘈杂噪声、街道噪声，未知噪声类型为在训练时不含有的噪声类型，未知噪声类型有餐厅噪声、汽车噪声。图2中，传统的特征MFCC和LFCC，对含噪语音样本的识别率随着噪声强度增强急剧下降，尤其是未知噪声类型的语音样本，因此传统的特征的噪声鲁棒性差；SSF^STFT特征在不同的测试集上的识别效果总体差于传统的特征，但在噪声强度很强的情景下在不同的测试集上的识别效果优于传统的特征；本发明方法提出的常Q变换域的频谱分布特征向量的噪声鲁棒性强于其它特征，对于clean测试集中的未含场景噪声的干净的语音样本和已知噪声类型的含噪语音样本的识别效果都明显优于传统的三种特征，识别率都高于70％，但对于未知噪声类型的含噪语音样本的识别效果与其它特征相比并未有明显变化，总的来说，本发明方法提出的常Q变换域的频谱分布特征向量的识别效果明显优于其它特征。

MFCC、LFCC、SSF^STFT都是从短时傅里叶变换频域提取的特征，而本发明方法提出的常Q变换域的频谱分布特征向量则是从常Q变换频域提取的特征，所以语音信号采用不同的时频变换方法得到的频域信息是不同的，反映的设备区分性信息不同，识别效果差异很大，并且常Q变换比短时傅里叶变换更适合于录音设备识别。

表2给出了MFCC特征在clean测试集上分类结果，表3给出了本发明方法提出的常Q变换域的频谱分布特征向量在clean测试集上的分类结果。表2和表3中的AL表示语音样本被录制的实际设备型号，PL表示被预测的设备型号。由表2可知，MFCC特征对24款手机设备的平均正确检测率为92％，整体达到了还不错的分类性能，但是对于不同的手机设备，识别率差异很大，其中，魅族和小米手机的识别率几乎都为100％；HTC的两款型号手机D610t、D820t的识别率最低，分别为56％和79％，HTC中三款手机的错分都是是品牌内误判；与HTC一样，华为和苹果手机的错分也都是品牌内误判；小米和三星的错分主要为品牌内误判，但还包括品牌外错分。由表3可知，本发明方法提出的常Q变换域的频谱分布特征向量特征对24款手机设备的平均正确检测率为98％，比MFCC提高了6个百分点，该特征对魅族、小米、OPPO、三星品牌的识别几乎达到了完美效果，对HTC、华为、苹果的错分都是品牌内误判并且相比于MFCC，识别率都有所提升。

表2 MFCC特征在clean测试集上的分类准确性(％)

表3本发明方法提出的常Q变换域的频谱分布特征向量在clean测试集上的分类准确性(％)

二、CNN的识别性能

在四种特征的实验中，本发明方法提出的常Q变换域的频谱分布特征向量在未含场景噪声的干净的语音样本和含噪语音样本均表现出了良好的性能，为进一步验证CNN的识别能力，图3给出了本发明方法提出的常Q变换域的频谱分布特征向量在SVM、Randomforest(RF)、CNN、RNN四种分类器下对基础语音库CKC-SD对应的16个不同的测试集的识别结果。

从图3中可以看出，传统的SVM、RF分类器在clean测试集中的未含场景噪声的干净的语音样本下的识别效果相当，但对含噪语音样本的识别略有差异，已知噪声类型的含噪语音样本在SVM分类器的分类效果明显优于RF分类器，但对于未知噪声类型的含噪语音样本，SVM分类器的分类效果稍逊色于RF分类器；RNN分类器在clean测试集、添加白噪声的测试集、添加嘈杂噪声的测试集、添加街道噪声的测试集上的分类效果明显差于传统的SVM、RF分类器，但在未知噪声类型的含噪语音样本中的识别效果优于传统的SVM、RF分类器，尤其是汽车噪声，识别率最高能提升20％左右；CNN在16个测试集上的识别率都高于其他三种分类器，特别是对于未知噪声类型的测试集，识别率大幅提升，不同噪声强度的餐厅和汽车噪声类型的含噪语音样本中，大部分识别率都高于90％，最低识别率也大于70％，所以，通过训练深度学习的CNN模型得到的M分类模型分类效果十分突出，不仅对干净的语音样本保持了很好的识别效果，而且对15种含噪的测试集也有不错的识别效果，即使训练集中不含餐厅噪声和汽车噪声，CNN还是能将含有这两种噪声类型的含噪语音样本的录音设备区分开来，并且能达到和已知噪声类型的含噪语音样本相当的识别率，CNN更适用于噪声环境下的来源识别。

三、多场景训练的识别结果

为了研究多场景训练方法(训练集中不仅有干净的语音样本还有不同噪声类型的含噪语音样本)和传统的单场景训练方法(训练集中只有干净的语音样本)识别性能的优劣，表4给出了在基础语音库CKC-SD对应的16个测试集上和在基础语音库TIMIT-RD对应的16个测试集上比较了单场景和多场景训练方法的识别率，其中特征采用本发明方法提出的常Q变换域的频谱分布特征向量，分类器采用CNN。从表4中可以看出，当测试语音为干净的语音样本时，多场景训练方法的识别率在两个基础语音库对应的测试集上都比单场景训练方法高，说明若训练集中加入含噪语音样本，会提升识别效果；其次，当测试语音为含噪语音样本时，多场景训练方法的识别率在两个基础语音库对应的测试集上都比单场景训练方法有大幅度提升，尤其对于高噪声强度的含噪语音样本，识别率提升有时能高达60％。本发明通过训练CNN模型得到的M分类模型，多场景训练方法不仅在已知噪声类型的含噪语音样本中取得了很好的识别率，而且在未知噪声类型的含噪语音样本中也有相当的识别效果，因此，采用多场景训练方法来训练模型，能够很好的解决单场景训练方法的载体失配问题。

表4单场景和多场景训练方法的识别率比较

Claims

1.一种基于常Q变换域的加性噪声环境下手机来源识别方法，其特征在于包括以下步骤：

2.根据权利要求1所述的一种基于常Q变换域的加性噪声环境下手机来源识别方法，其特征在于所述的步骤一中，使用每个手机获取N个人各自对应的P个语音样本的具体过程为：选取N个不同年龄不同性别的人，使用M个手机在安静办公室环境下同时采集每个人用正常的语速朗读固定内容的语音，每个手机共采集到N个语音，M个手机共采集到M×N个语音，要求每个语音的时长至少为3分钟；然后将每个手机采集到的每个语音转换成wav格式语音；接着将每个手机对应的每个wav格式语音分割成多个时长为3～10秒的语音片段；再从每个手机对应的每个wav格式语音的所有语音片段中随机选取P个语音片段作为语音样本。

3.根据权利要求1所述的一种基于常Q变换域的加性噪声环境下手机来源识别方法，其特征在于所述的步骤一中，使用每个手机获取N个人各自对应的P个语音样本的具体过程为：使用M个手机在安静办公室环境下同时采集由高保真音箱回放的N个人各自对应的P个时长为3秒的语句；然后将每个手机采集到的每个语句转换成wav格式语音；再将每个手机对应的每个wav格式语音作为语音样本。

4.根据权利要求1至3中任一项所述的一种基于常Q变换域的加性噪声环境下手机来源识别方法，其特征在于所述的步骤三中，其中，f_min表示常Q变换的过程中采用的滤波器的最低中心频率，f_max表示常Q变换的过程中采用的滤波器的最高中心频率，B表示常Q变换每倍程的频率点的点数，符号为向下取整符号；其中，Q表示常Q变换的Q因子，

5.根据权利要求4所述的一种基于常Q变换域的加性噪声环境下手机来源识别方法，其特征在于所述的步骤四中，CNN模型的网络框架包括输入层、第一卷积层、第一非线性激活层、第二卷积层、第二非线性激活层、最大池化层、全连接层、第三非线性激活层、输出层，输入层的输入端输入的输入特征的维数为1×K，第一卷积层有72个卷积核、卷积核的大小为1×3、卷积核的移动步长为1，第二卷积层有72个卷积核、卷积核的大小为1×2、卷积核的移动步长为1，最大池化层的核的大小为1×26、核的移动步长为1，全连接层有64个神经元，输出层的输出端输出类别，第一非线性激活层、第二非线性激活层、第三非线性激活层均采用ReLU函数，CNN模型中的Dropout损失函数的值为0.25，CNN模型中的分类器为Softmax。