实际噪声下基于时序卷积网络的手机来源识别

时间：分类：科学技术论文浏览次数：

摘要：针对实际环境噪声下的手机来源识别问题，提出一种基于线性判别分析和时序卷积网络的手机来源识别方法。首先，通过分析不同手机语音特征在实际环境噪声下的分类性能，基于带能量描述符、常数变换域和线性判别分析得到一种新的手机语音混合特征。然后以

　　摘要：针对实际环境噪声下的手机来源识别问题，提出一种基于线性判别分析和时序卷积网络的手机来源识别方法。首先，通过分析不同手机语音特征在实际环境噪声下的分类性能，基于带能量描述符、常数变换域和线性判别分析得到一种新的手机语音混合特征。然后以此混合特征为输入，基于时序卷积网络进行训练和分类。最后，在10个品牌、47种手机型号、32,900个语音样本的实际环境噪声语音库上的测试结果显示，本文所提方法的平均识别准确率达到99.82%。此外，与经典的基于带能量描述符和支持向量机的方法，以及基于常数变换域和卷积神经网络的方法相比，平均识别准确率分别提高了0.44和0.54个百分点，平均召回率分别提高了0.45和0.55个百分点，平均精确率分别提高了0.41和0.57个百分点，平均F1分数分别提高了0.49和0.55个百分点。实验结果表明，本文所提方法具有更优的综合识别性能。

　　关键词：手机来源识别;实际环境噪声;混合特征;线性判别分析;时序卷积网络

手机来源识别

　　1.引言

　　随着视频、图片、音频等各种编辑软件的普及以及操作的智能化，对多媒体数据进行编辑和修改显得越来越轻而易举。用户可能对信息进行恶意剪切或篡改，在不尊重事实和他人的基础上谋取私人利益，从而带来潜在的不利因素和恶劣影响。为此，多媒体取证技术[1]旨在能够鉴别多媒体数据是否经过编辑、篡改以及识别和验证多媒体数据来源。与视频和图像相比，音频取证隐蔽性更强，且更容易操作。

　　移动互联网论文：中国智能手机的大变局时代

　　越来越多的人在交流、交易协商时会选择使用语音聊天记录或手机录音取证方式固定曾经发生的客观事实，以期在出现法律纠纷时作为证据进行使用。但是，手机语音是否可以作为有效证据被法庭采纳的一个先决条件是需要确定其真伪，而对手机语音的来源设备识别是语音证据鉴真和形成完备证据链的一个根本前提，已成为近年来多媒体取证领域中的一个研究热点[1]。

　　2.相关工作

　　近年来，手机来源识别研究取得了丰硕成果，从对语音信号处理对象的角度，可以分为整体语音和非语音部分两大类。有观点认为，利用语音信号的非语音部分可以降低计算复杂度，且能够排除语音部分的干扰，从而挖掘手机设备的本质特征。在这方面，Hanilci和Kinnunen[2]采用信息论的方法提取非语音部分的特征，利用最大互信息训练的高斯混合模型来表示特定设备的特征。

　　Aggarwal等[3]从噪声估计样本中提取梅尔频率倒谱系数(MelFrequencyCepstralCoefficient,MFCC)。Qi等[4]从背景噪声中提取语音特征，并对比分析了在不同深度学习分类器下的识别性能。Jin等[5]提取自噪声的光谱形状特征和光谱分布特征用于手机来源识别。裴安山等[6]将本底噪声作为手机的指纹，提出了一种基于本底噪声的手机来源识别方法。在他们的后续研究中[7]，通过使用自适应端点检测算法得到语音的静音段，然后将静音段的梅尔频谱系数的均值作为分类特征。

　　Baldini等[8]在不同频率下用非语音声音刺激内置麦克风，利用手机内置麦克风的固有物理特性构建卷积神经网络对智能手机进行识别和认证。上述针对非语音部分的研究可以有效降低计算开销，但完全无视语音部分，可能会丢失语音部分包含的一些关键设备特征，从而影响识别效果。因此，主流的研究大都致力于从整体语音信号上提取特征。特别是最近，Luo等[9]提出了一种新的带能量描述符(BandEnergyDescriptor,BED)特征，并使用支持向量机(SupportVectorMachine，SVM)进行设备识别。BED主要利用不同生产商在音频采集管道上不尽相同，从而产生可用于音频取证的微小差异。

　　Qin等[10]提出了一种常数变换域(ConstantQTransform,CQT)的语音特征，并使用卷积神经网络(ConvolutionalNeuralNetworks,CNN)进行训练。在更早期，Hanilci等[11]提取MFCC作为设备特征，并利用SVM作为分类器。紧接着，Hanilci和Ertas[12]提出MFCC、线性频率倒谱系数、巴克频率倒谱系数和线性预测倒谱系数四种不同的声学特征，并采用倒谱平均归一化、倒谱方差归一化、倒谱均值和方差归一化三种不同的归一化技术分别处理。Zou等[13]利用高斯混合模型通用背景模型设计一种基于MFCC和功率归一化倒谱系数的识别方法。裴安山等人[14]指出不同手机的语音频谱特征是不同的，将语音的频谱信息量、对数谱和相位谱特征串联构成原始融合特征。

　　上述已有方法均是从整体语音信号上提取特征，从而可以充分挖掘语音信号中的关键设备信息，均在手机来源识别上取得了较好的识别效果，但计算开销稍大。总的来说，虽然BED+SVM[9]和CQT+CN[10]等方法在手机来源识别上取得了不错的效果，但是一个突出的问题是，现有研究大都基于理想而又安静的实验室环境，利用纯净语音或添加人工噪声语音来进行测试分析，而对实际环境噪声语音却鲜有涉及。在音频取证中，充当证据的手机语音信号通常产生于人们交流和交易协商的生活和工作环境，包含了各种自然环境背景噪声。

　　特别的，自然环境背景噪声复杂多变，在不同天气、地点，背景噪声信号对手机语音信号产生的影响也不同。有时候，强自然环境背景噪声甚至可能会完全掩盖设备本身的噪声。在对这些手机语音进行特征提取时，如何降低自然环境背景噪声对手机设备本身噪声的干扰是一个难点问题。当自然环境背景噪声较小或人工背景噪声具有一定先验知识时，传统的方法，如MFCC、BED、CQT等都可以较好的提取出设备噪声特征。

　　但当背景噪声较大且较复杂的时候，传统的特征提取方法不能有效抵抗背景噪声的干扰，无法满足司法领域的实际需求，必然导致识别准确率的下降。因此，如何在实际环境噪声干扰下提取出设备关键特征，是我们需要解决的第一个难点问题。此外，SVM和CNN这些分类器没有充分利用音频信号的时序特征，在串行信号的处理上，例如在一个关键性质“记忆力”上很难充分发挥价值，因此，选取一个契合时序信号的分类器、充分挖掘语音时序特征是我们需要解决的第二个问题。

　　基于上述分析，为了满足司法领域音频证据的鉴真需求，提高实际环境噪声下手机来源识别的准确率，本文首先利用线性判别分析(LinearDiscriminantAnalysis,LDA)[15]优化一个语音混合特征，并以此混合特征为输入，基于时序卷积网络(TemporalConvolutionalNetwork,TCN)[16]进行训练和分类，提出一种基于LDA和TCN的手机来源识别方法，最后基于各种实际环境噪声语音库对所提方法进行了大量测试和验证。

　　3.基于LDA和TCN的手机来源识别

　　3.1基于LDA的混合语音特征

　　提取语音信号的不同特征能从不同侧面反应语音的不同信息，因此可以使用融合特征来更加全面的表达语音信号。本文在已有工作基础上，通过大量测试和分析，选取并尝试将BED和CQT这两个特征结合起来，利用LDA[15]优化从混合特征中降维出LQBED(LDABasedCQTandBED)，以获得更全面的语音特征信息，从而在整体上提高特征的分辨力。

　　假设BED特征维数为，CQT的特征维数为，则组合后的特征维数为nm。虽然组合特征能更全面地反映语音特征，但特征值维数较大，其中可能包含很多对设备特征没有贡献或者贡献较小的特征值，即存在一定相关性或冗余性，会带来巨大的计算开销。因此，我们需要对这个混合特征进行降维，去除其中的冗余信息。在机器学习中，LDA[15]是一种典型的模式识别和降维算法。

　　其基本思想是将高维模式样本投影到最优判别向量空间中，以提取分类信息并压缩特征空间的维数。投影后，保证样本有最大的类间距离和最小的类内距离，使得同一类数据尽可能的紧凑，不同类的数据尽可能分散。LDA可以充分利用先验知识，计算速度快。特别的，当数据满足高斯分布时，LDA的降维效果非常显著，而基于语音信号的手机来源识别主要是根据语音信号当中含有的设备元器件(主要是麦克风)自身噪声的微小差异来进行识别。通常，电路各元器件自身噪声和相互作用产生的影响主要就是高斯噪声。因此，本文选择LDA对混合特征进行降维提取出LQBED特征。

　　4.实验结果与分析

　　4.1实际噪声语音库的建立

　　为了测试本文所提方法在自然环境噪声下的鲁棒性，我们首先构建了一个具有实际环境噪声的语音数据库。该语音数据库由来自表所示的10个品牌、47种型号手机设备的MP3格式的音频信号组成，采样率为44100Hz或48000Hz，比特率为64kbps或128kbps。每种型号下的手机语音信号均收录于不同性别的人在不同生活噪音环境下的语音(包括日常对话、电影对话、无线电广播等)。

　　本文将每种型号收录到的语音信号平均分割成秒，最终每种手机共收集700条语音片段，其中600条用于训练，其余100条用于测试，从而构建了一个包含32,900个语音样本的语音数据库。其中，训练库有28,200条语音，测试库包括4,700条语音。本文涉及到的相关实验均是基于以上语音数据库进行测试和分析。

　　4.2参数设置和评价指标

　　对于TCN，训练周期是一个关键参数。本文经过大量的测试，发现当训练周期达到30时TCN的精度和损失基本不变。因此，为了保证充分的学习，本文最终将训练周期设定为30，网络学习率设置为0.01，损失函数为CategoricalCrossentropy。其他的一些参数已在图的网络结构中给出。为了充分评估所提方法的性能，本文引入如下四种在机器学习中常用性能指标[6]：准确率(Accuracy)：是使用的最普遍的，也是最直观的性能指标，表示预测正确的样本占所有样本的比例，表示了一个分类器的区分能力。召回率(Recall)：是指在所有实际为正例的样本中，被预测为正例的样本比例。精确率(Precision)：是指在所有被分类为正例的样本中，真正是正例的比例。F1分数(F1score)：为精确率和召回率的调和平均数。

　　5.结束语

　　为解决司法领域中实际环境噪声下的手机来源识别问题，本文首先提取含有实际环境噪声的语音混合特征，然后基于LDA对混合特征进行降维得到LQBED特征，最后选择并设计TCN进一步学习语音深度特征并进行分类，提出一种基于LDA和TCN的实际环境噪声下的手机来源识别方法LQBED+TCN。根据10个品牌、47种型号的手机设备，本文构建了一个包含32,900个语音样本的实际环境噪声下的语音数据库。

　　在该语音库上的测试结果显示，本文所提LQBED+TCN对实际环境噪声具有较好的综合识别性能，平均识别率达到了99.82%，且在召回率、精确率和F1分数值上也优于已有方法，进一步降低了错判率，对司法领域中语音证据的鉴真具有一定的实际价值。但是，本文工作只是针对司法领域实际需求，利用TCN在手机来源识别上的一个从初步尝试，仍有许多工作需要进一步深入研究。

　　首先，由于实验条件的限制，本文收录的手机型号覆盖范围还不够广泛，因此，语音库仍需要进一步的扩充;其次，本文创建的语音数据库均是MP3格式，还需要考虑其它的手机语音格式;而且，还需要考虑语音信号受到信号处理攻击下的鲁棒性;最后，还将进一步考虑改善和挖掘TCN的优势。

　　参考文献：

　　[1]YangRui,LuoWeii,HuangJi.Multimediaforensics[J].ScientiaSinicaInformation,2013,43(12):16541672.(inChinese)

　　[2]HanilciC,KinnunenT.Sourcecellphonerecognitionfromrecordedspeechusingnonspeechsegments[J].DigitalSignalProcessing,2014,35:7585.

　　[3]AggarwalR,SinghS,RoulAK,etal.Cellphoneidentificationusingnoiseestimatesfromrecordedaudio[C]//ProcoftheInternationalConferenceonCommunicationsandSignalProcessing,2014:12181222.

　　[4]QiS,HuangZ,LiY,etal.Audiorecordingdeviceidentificationbasedondeeplearning[C]//ProcoftheIEEEInternationalConferenceonSignalandImageProcessing,2016:426431.

　　作者：吴张倩，苏兆品,2,,，武钦芳，张国富,2,,

上一篇：论城市集中供暖的节能技术下一篇：浅析机电工程施工安装质量管理