基于音频特征MFCC的零水印算法

2016-11-08 08:35田丽华
计算机应用与软件 2016年10期
关键词:二值鲁棒性音频

宋 慧 李 晨 田丽华

(西安交通大学软件学院 陕西 西安 710049)



基于音频特征MFCC的零水印算法

宋慧李晨田丽华*

(西安交通大学软件学院陕西 西安 710049)

利用小波域的低频部分的奇异值具有比较稳定的性能,设计一种以音频特征为基础的零水印方案。该方案利用原始音频特征——Mel频率倒谱系数(MFCC),一方面来构造水印,另一方面还被用于音频内容认证。先将原始音频做分段操作,取各分段进行DWT变换;选取小波域的低频部分,并做SVD操作;最后利用奇异值平均值实现水印的“嵌入”,获得一个位置索引向量并据此提取水印信息。仿真实验显示,该方案在完全不影响音频听觉质量的前提下,在抵抗常见音频攻击时有很强的鲁棒性,并能进行恶意篡改定位。

MFCC零水印奇异值分解篡改定位

0 引 言

近年来,由于计算机技术和因特网技术的飞速发展,促使图像、视频和音频等各种各样形式的多媒体的产生、保存及传输都变得越来越容易。但由此带来的安全问题,如非法复制和盗版问题日益突出。在这种背景下,能够很好解决版权问题的数字水印被提出,已经变成当前的研究热点之一[1]。

目前提出的算法,多数是通过修改原始音频的时域或变换域的信息来嵌入水印,虽可实现版权保护,但都是以牺牲音频的质量为代价的。为了不影响音频音质,即实现水印的透明性,在这种应用背景下,零水印技术首次被提出。零水印算法[2,3]是无需改变原来音频的任意数值的算法,因此能够很好地处理数字水印的透明性及稳健性之间的关系。

国内已有一些学者针对零水印展开了相关研究。文献[4]所提出的算法是将音频的小波域特征提取出并对其通过Hash变换转为一组二值序列,将其“嵌入”到原来的音频中。虽然能够实现数字音频的验证,但嵌入的数字签名是无意义的,这样就不能直观给出能够代表版权的信息。文献[2]提出了一种基于DWT和SVD的零水印算法,该算法的思路是先将音频分帧,计算每帧的短时能量和过零率;然后通过预先设定的阈值筛选出特征显著的音频帧,并对选定的每帧进行DWT变换,取DWT变换的低频部分再进行SVD;最后通过分解后得到的最大奇异值来生成水印信息。该算法虽然对常见音频攻击具有一定的鲁棒性,但是由于需要事先确定出短时能量和过零率的阈值,这两个阈值的选取对算法效果影响显著,算法稳定性欠佳。文献[5,6]提出了基于音频特征MFCC的水印方法,虽都可对音频版权和内容进行认证,但嵌入水印过程需将原始音频内容进行适当修改,这样必然损害音频的音质,对水印的不可感知性带来挑战。对于前面提出的难题,参考文献[4-6]中提出的方法,将小波变换、音频信号特征及奇异值分解(SVD)[7-10]的特点相结合,根据小波域低频系数奇异值的优良特性,本文设计了音频自身特性为基础的零水印算法。该算法提取音频特征MFCC参数,一方面和代表版权信息的二值图像做异或运算,作为最终的水印“嵌入”原始音频中,得到一个位置索引向量并据此提取水印;另一方面,MFCC还被用在音频内容的认证。该算法不用更改原来音频的任何数据,使其有很强的透明性。仿真实验显示,该方案在完全不影响音频听觉质量的前提下,在抵抗常见音频攻击时有很强的鲁棒性,并能进行恶意篡改定位。

1 理论基础

1.1奇异值分解

奇异值分解(SVD)经常被用在线性代数里,是特别有效的运算工具,可以将矩阵进行对角化操作[11]。B是一个矩阵,那么对其进行SVD操作,计算公式如下:

(1)

将S中对角线的值叫做奇异值,具有以下特点:(1) 稳定性很好,对各种常见的信号处理,对角矩阵不会明显改变;(2)S体现出来的特点为矩阵序列具有的专有固性;(3)S中的第一个数是S中最大的数,而且它对矩阵的作用最大。基于SVD的以上突出特点,对SVD的研究成为现在的国内外研究热点。SVD首先在图像水印中被使用,最近几年用在音频水印上的研究也比较多。

1.2MFCC特征参数提取

MFCC是基于人耳的听觉机理,并将其与言语的生成机制结合起来,利用一种非线性的频率单位(Mel频率)来模拟人耳的听觉系统,能很好反映出人耳的感知特性,当前普遍用于音频剖析、辨别及音频数字信号的建模。MFCC的提取步骤[12]如图1所示。

图1 MFCC特征提取流程图

1) 取音频X(n),先做预加重操作,再做分帧处理。其次对每帧进行加窗操作,便可以获得预处理操作的音频。

2) 对处理后的每一帧音频做快速傅里叶操作,则时域数据转为频域数据,进而计算得到功率谱。

3) 设计若干带通滤波器(一般值取24,用M表示),将得到各帧的功率谱经过滤波器,得到每一个所对应的对数能量谱S(m)。

(2)

S(m)=ln(e(m))0

(3)

式中,X(k)是原始音频做快速傅里叶操作后的频域数据,Hm(k)为三角滤波器。

4) 将S(m)进行离散余弦操作,最终便可以获得MFCC参数C(n):

(4)

每一个音频帧将对应几个MFCC参数,比较重要的音频信息处于MFCC的C1至C12的参数内[13]。通常,前面阶数的MFCC包含更多有用的内容,一般选择前面几阶。在综合计算量及水印嵌入量的情况下,本文选择第一阶MFCC。

2 水印生成

2.1MFCC特征选取

为了能够在水印体系里比较充分地使用音频的自身特性,本文由提取得到的MFCC来生成二值特征序列。该算法中,MFCC参数,一方面与具有实际版权意义的二值图像进行异或运算,作为水印“嵌入”到原始音频中;另一方面还被用于音频内容的认证。为了更好地证明第一阶MFCC针对原始音频攻击非常敏感,对其进行以下攻击操作,如图2所示。可以得出,对音频的多项处理,MFCC的一阶参数都非常敏感。

图2 音频处理后一阶MFCC的变化

2.2水印信号生成

二值特征序列可以看作验证音频文件的“条形码”。为了能够让此“条形码”比较直观地进行表现,对二值特征序列和Arnold置乱处理的有意义二值图像序列做异或操作,便能获得一个既含有音频自身特征又具有版权意义的水印序列。具体步骤如下:

1) 选取一个具有实际意义的图像系列,采用Arnold变换[9]对其实行置乱处理,这样可以有效提高该算法的安全性。因为音频实际上是一个一维序列,水印是二维系列,所以加密操作后的水印序列必须进行降维操作,变成一个一维序列,用V表示:

V={V(i),1≤i≤M×N}

(5)

2) 为获取音频分段的MFCC,首先将音频X做分段处理,并根据前面所述MFCC提取的步骤,得到每个分段的第一阶MFCC;然后将其放于f(i)中,1≤i≤n,i为帧号,n为总段数,M×N≤n,并将f(i)作为密钥k1。

(6)

4) 将二值特征序列w(i)与预处理操作后的二值图像序列V做异或操作,便获取含有音频特征的序列Wz,并将其作为待嵌入的水印信息。

3 水印的嵌入和提取

由于DWT具有多尺度和多分辨率等优点,以及SVD所得的奇异值在信号处理中具有极强稳定性的特性,本文以此为基础,利用DWT低频系数奇异值所具有的稳定特性,设计了一种以音频自身特性为基础的零水印算法。本文算法思路是:先根据音频自身特征来构造水印,再将原音频做分帧处理,并对每帧实行DWT变换操作;取DWT变换的低频部分,进行SVD处理;最后使用奇异值平均值实现“嵌入”过程,获得一个位置索引向量并据此实现水印提取。本文算法流程如图3和图4所示。

图3 音频水印嵌入流程图

图4 音频水印提取流程图

3.1水印的嵌入过程

1) 原始音频分段。按照上节叙述的水印生成的详细步骤,生成二值序列wz(i),其中1≤i≤n(n是水印大小)。然后把音频X等分为n段,k为音频帧。

X={X(k),1≤k≤n}

(7)

2) 离散小波变换。对于每一个原始音频帧做H级小波变换操作,便可以取得低频部分CAH及高频部分。

3) 奇异值分解。因为对音频进行DWT操作后,音频的主要能量集中存储于CAH中。所以,提取每个音频分段的CAH,并将其转换成矩阵Dj,1≤j≤n,再对矩阵Dj实行SVD操作。提取各矩阵的奇异值平均值组成数组S(i),然后对S(i)进行升序排列,组成升序奇异值平均值数组M(i),1

4) 获取临界值。得出水印里0和1的数值并用C0、C1表示,然后得出他们的比值r=C0/C1,则t=⎣r/(r+1)×n」,n为M(i)里元素的数目。临界值T为M(i)中的第t个元素。将T看成密钥k2存储。

5) 分类。根据阈值T对升序排列的奇异平均值数组M(i)按照式(8)做分类操作,将M(i)分成A类和B类,然后依次记下A和B类中的数值处于原音频X(i)中的段号i。

A:M(i)>TB:M(i)≤T

(8)

6) “嵌入”水印。根据水印比特值为1或0,将其分别映射到A、B类里,并在A、B类里选择相对应数值;然后记载此数值处在原来音频X中的段号数值;最后产生一个位置索引,并用N表示。将索引向量作为密钥进行存储,用k3表示,水印嵌入操作完成。在提取水印的时候,嵌入的索引向量N及临界值T要被发送到接收器中。

3.2水印的提取过程

1) 提取水印时,首先对音频进行同嵌入水印时一样的操作,获取各矩阵所对应的奇异值均值,然后组成数组S。

2) 根据接收到的嵌入索引向量N(k3)提取数组S中相应位置对应的奇异值均值S(i),并让S(i)与接收到的临界值T(k2)进行比较,按照下式进行水印比特的提取:

(9)

3) 取出WZ′及特征序列w(i)并实行异或操作,获取一维数组V′(i)。再取其依次进行升维操作及Arnold变换,便可以获得提取的水印图像。

4 仿真实验及分析

为测试本文所提出的水印方案的性能,使用Matlab软件进行了仿真测试。在测试过程中采用采样频率是44 100Hz、量化精度为16bit、段长为7s的音频信号进行测试,并选取比较常用的db1小波基对每个音频分段实行3级DWT操作。实验中选用的原来信号的波形如图5所示,有意义的二值图像如图6所示,其大小为48×48。

图5 原始音频信号波形图

图6 二值水印图像

4.1鲁棒性测试

为体现版权保护的客观公正,取比特误码率(BER)及归一化相关系数(NC)作为本文所提出的算法鲁棒性的评价指标,其计算公式如下:

(10)

(11)

式中,w代表原水印的信息,w′代表所提取水印的信息,E代表所提取水印错误的比特数,M1×M2代表水印大小。

为测试本文所提出方案的鲁棒性,做了如下几种攻击操作:(1) 添加信噪比为25dB的高斯噪声;(2) 添加信噪比为20dB的高斯噪声;(3) 经过截止频率是10 000Hz的Butterworth数字滤波;(4) 上重采样,速度为88.2kHz;(5) 下重采样,速度为22.05kHz;(6) 下重量化,量化长度为8bit;(7) 上重量化,量化长度为32bit;(8)MP3压缩,速率为128kb/s。经由上述攻击操作提取的各个水印如图7所示,其中(i)是无攻击操作时提取的结果。

图7 提取的各水印图像

从图7可以较明显发现,“嵌入”水印音频遭到如上攻击操作时,提取出的水印清晰可辨。尤其对于重采样、加噪、重量化操作得到的水印图像与原来水印图像相比较,肉眼看不出差异之处,从而表明文中提出的水印方法针对上面的攻击操作拥有比较不错的鲁棒性。

表1 攻击后的所提取水印的BER和NC

表1中给出了经过上述攻击后的NC和BER值,并将本文水印算法与文献[2]和文献[4]的算法进行了比较测试。通过比较发现,本文水印算法在受到前文所列的攻击时,NC均大于文献[2]和文献[4]算法,BER均低于文献[2]和文献[4]算法。主要是由于文献[2]中,生成水印的阈值是预先设定的,具有一定的随机性,对算法性能有较大影响。实验发现,有部分音频段经过攻击操作后,其短时能量和过零率会发生变化,采用事先选定的阈值进行特征音频段的筛选会增加水印信息的误码率。文献[4]是以DWT为基础的算法,本文算法是结合了DWT及SVD的算法。由于同时利用了DWT多尺度、多分辨率等优点及SVD所得奇异值均值稳定性强的优点,使得本文算法提取水印的相似度有所提高,误码率相对较小。实验结果也印证了本文算法较之前算法具有更强的鲁棒性。

4.2篡改定位测试

如果音频的内容没有发生恶意的篡改,那么原来的音频同接收到的音频的MFCC值变化不大[6]。因此通过比较提取的MFCC及接收端获取到的密钥k1,来确认音频有没有发生篡改,还可以定位发生攻击的区域。

采用数组w1(i)来存储原始音频的MFCC,w2(i)来存储接收的信号的MFCC,m(i)为原音频X的MFCC同收到的音频的MFCC做差值并取绝对值操作的结果。

(12)

式中:i代表语音第i帧。m(i)的值趋近于0,说明两帧的变化不大,相反则认为该帧已经发生改变。通过m(i)可以确定不同帧所处位置。

为测试本文算法针对恶意篡改的检测和定位方面的功能,本文中主要进行了下列实验操作。篡改类型 1 将音频的任意采样值进行静音操作,篡改类型 2将测试音频中的部分采样值用其他部分的采样值进行替换操作。图8(a)为将音频10 000~30 000之间的采样点静音的波形,图8(b)是把测试音频信号70 001~100 000的采样点用测试音频的100 001~130 000的采样点替换的波形。经过篡改操作的m值和相应的位置定位如图9所示,测试表明,本文算法能够实现对篡改攻击的音频段的定位。

图8 篡改攻击后的音频信号

图9 经过篡改操作的m值和位置定位

5 结 语

本文所提出的方案是把离散小波变换同奇异值分解进行结合,以Mel频率倒谱系数获得音频的特征,并将其特征和二值图像异或后作为最终的水印。且该算法不更改原来音频任何数据,具有很强的透明性。仿真实验表明,该算法在完全不影响音频听觉质量的前提下,对多种攻击操作具备较强的鲁棒性,并可以定位恶意篡改。

[1]RossiF,VillaN.Supportvectormachineforfunctionaldataclassification[J].Neurocomputing,2006,69(7-9):730-742.

[2] 任克强,李慧,谢斌.基于DWT和SVD的自适应数字音频零水印算法[J].计算机工程与应用,2014,50(12):87-90,95.

[3] 李慧.基于变换域的数字音频零水印算法研究[D].江西:江西理工大学,2012.

[4] 吴翔,杨晓元,张敏情,等.基于特征的数字音频签名算法[J].计算机工程与应用,2009,45(10):106-107,171.

[5] 寇占奎,徐江峰.基于音频特征的半脆弱水印方案[J].计算机工程与设计,2012,33(9):3323-3326,3341.

[6] 林晓丹.用于版权和内容认证的音频水印[J].计算机应用,2010,30(8):2269-2271.

[7] 刘泉,高庆.基于DWT的自适应盲音频水印算法[J].武汉理工大学学报,2008,30(1):95-98.

[8] 雷敏,杨榆.基于DWT-DCT-SVD的音频盲水印算法[J].北京邮电大学学报,2011,34(S1):51-54.

[9] 段岁军,范九伦.一种基于SVD和DWT的音频水印算法[J].计算机应用研究,2014,31(7):2116-2118.

[10] 杨志疆,叶阿勇.多重水印嵌入的DWT-SVD音频公开水印算法[J].系统仿真技术,2014,10(1):27-31,48.

[11]WangJ,HealyR,TimoneyJ.Arobustaudiowatermarkingschemebasedonreducedsingularvaluedecompositionanddistortionremoval[J].SignalProcessing,2011,91(8):1693-1708.

[12] 宋知用.MATLAB在语音信号分析与合成中的应用[M].北京:北京航空航天大学出版社,2013:37-43.

[13] 甄斌,吴玺宏,刘志敏,等.语音识别和说话人识别中各倒谱分量的相对重要性[J].北京大学学报:自然科学版,2001,37(3):371-378.

ZERO-WATERMARKINGALGORITHMBASEDONAUDIOFEATURESOFMFCC

SongHuiLiChenTianLihua*

(SchoolofSoftwareEngineering,Xi’anJiaotongUniversity,Xi’an710049,Shaanxi,China)

Byusingthestabilityofsingularvalueoflowfrequencycoefficientsonwaveletdomain,wedesignedazero-watermarkingschemewhichtakesthefeaturesofaudioasthebasis.Theschemeusesthefeatureoftheoriginalaudio—melfrequencycepstrumcoefficients(MFCC)toconstructthewatermarksequence,inadditionthisfeatureisalsoappliedtoaudiocontentauthentication.Inthealgorithm,originalaudioisdividedintosectionsatfirst,andeachsectioniscarriedoutthediscretewavelettransform.Thenthelowfrequencypartsofwavelettransformareselectedforsingularvaluedecomposition.Finallythemeanofsingularvalueisusedtoimplementthe"embedment"ofwatermarksinoriginalaudio,andthisobtainsapositionindexvector,itcanbeusedtoextractthewatermarkinformation.Simulationexperimentindicatedthattheschemepresentedinthispaperhasquitestrongrobustnessonresistingsomepopularattacksandcanlocatethemalicioustamperingonthepremiseofwithoutlosingauditoryquality.

MFCCZero-watermarkingSingularvaluedecompositionTamperlocalisation

2015-07-01。国家自然科学基金项目(61403302)。宋慧,硕士生,主研领域:数字音频水印。李晨,讲师。田丽华,高工。

TP

ADOI:10.3969/j.issn.1000-386x.2016.10.031

猜你喜欢
二值鲁棒性音频
荒漠绿洲区潜在生态网络增边优化鲁棒性分析
基于确定性指标的弦支结构鲁棒性评价
必须了解的音频基础知识 家庭影院入门攻略:音频认证与推荐标准篇
基于二值形态学算子的轨道图像分割新算法
基于Daubechies(dbN)的飞行器音频特征提取
面向网络边缘应用的新一代神经网络
基于稀疏表示的二值图像超分辨率重建算法
基于曲率局部二值模式的深度图像手势特征提取
音频分析仪中低失真音频信号的发生方法
基于非支配解集的多模式装备项目群调度鲁棒性优化