您好、欢迎来到现金彩票网!
当前位置:秒速快三 > 说话人确认 >

EMD-Tnorm得分规整策略在说话人确认中的应用

发布时间:2019-07-07 05:38 来源:未知 编辑:admin

  (1.南京邮电大学通信与信息工程学院,南京210003;2.南京理工大学模式识别与智能系统实验室,南京210094;3.嘉兴学院数学与信息工程学院,浙江嘉兴3l枷1) [摘要】 从两个方面对确认系统进行了改进,在模型方面,扩展了MixMa】【模型,对复杂的背景噪声等干扰因 素在训练说话人模型的同时也进行了建模,最大程度上消除噪声的影响,对说话人的特征分布进行了更真实 的表征;在得分方面,提出了一种改进的得分规整策略,基于EMD距离从所有背景说话人集合中自适应选择 最接近的一定数量的模型构成说话人特定的背景集合,从而进行得分归一化。实验结果表明,该方法能够同 时针对说话人和测试环境的不同进行补偿,进一步降低了误识率和漏警率,获得了很好的确认性能。 [关键词]说话人确认;鲁棒性;EMD距离;Mi】【Ma】【模型 [中图分类号]’rN912.34[文献标识码] A[文章编号] 1009一1742(2010)02—0095—06 1前言 说话人确认是一个二元判决问题,给定说话人 的确认语句及其所声称的身份,系统做出拒绝或接 受的判断。现有的说话人确认算法在实验室环境 (安静的录音环境、高质量的录音设备、训练和测试 数据的采集环境相匹配)已经可以取得很好的效 果,但在实际的语音交互中由于复杂的声学环境和 个人语音的变化使得系统的性能急剧下降,成为说 话人识别系统实用化的一个主要障碍J。 在说话人确认系统中,各种不同的可变因素大 致可以分为两类:一类是说话人相关因素,由于说话 人的个性特征具有长时变动性,会受到健康和情感 等因素的影响,而且其发音时间长度,讲话风格等都 会带来不同程度的影响;另一类是测试相关因素,在 实际的声学环境中由于文本内容的不同,采集设备 包括麦克风质量甚至摆放位置的不同和不同的信道 传输,以及各种噪声的存在等都会带来不可避免的 影响。研究表明,这两类可变因素都会严重影响系 统的性能,因此需要采取不同的补偿方法进行处理。 目前的补偿方法主要集中在3个层次,特征级、 模型级和得分级…。得分级是指在得分层进行得 分补偿,也称为得分归一化,是针对由于不同说话人 和不同测试环境引起的输出评分分布变化的不同因 素加以补偿,将不同话者模型下的输出评分规整到 同一分布范围内,然后进行确认阈值的合理选取,使 得失配条件下与说话人无关的决策门限更加鲁棒。 说话人确认系统中关键的问题在于最佳阈值的 选取。目前已有很多不同的得分规整方法’2 如,零规整(zemnornl“zation,zno珊)方法主要消除 不同说话人之间的差异对冒充得分分布的影响;话 机规整(haJldset no珊aHzation,Hno彻)则是消除同一 说话人在不同麦克风和传输信道环境下的语音对得 分分布的影响。在这两种方法中,得分归一化参数 都是通过对冒充人集合语音得分分布的估计获得。 测试规整(test no唧alization,Tno咖)选择固定的冒 充者模型来补偿由于测试文本的多变性引起的 不匹配,在获得低的错误接受率性能方面有显著 的改进‘31。 笔者从两个方面对确认系统进行了改进,在模 型方面,扩展了MixMax模型,对复杂的背景噪声等 干扰因素在训练说话人模型的同时也进行建模,很 [收稿日期]2008一04一18 [基金项目] 浙江省自然科学基金资助项目(Y1090649);浙江省教育厅科研资助项目(Y200805349) [作者简介]李燕萍(1983一),女,陕西合阳县人,博士,研究方向为语音信号处理;E—mail:njusljsjlyp@163.c 2010年第12卷第2期95 万方数据 大程度上消除噪声的影响,使得后续的地面移动距 离(eaJth mover’s distarIce,EMD)可以在该模型中应 用;在得分补偿方面,提出了一种改进的得分规整策 略,基于EMD距离从冒充者集合中自适应选择一定 数量的冒充者模型构成说话人特定的冒充者集合 (speaker specific cohort,SPC),同时针对说话人和测 试环境的不同进行了补偿,进一步降低了误识率和 漏警率,获得很好的确认性能。 2基于EMD—T肿咖的得分归一化算法 在鲁棒说线 测试规整算法 Aucken于2000年提出了测试规整理论,原理 为:设从测试语音中提取得到特征矢量序列D= {D。,D:,…,D},训练得到的说话人语音模型为 A。,计算测试语音在目标说话人模型下的似然得分 J。Tno彻首先计算测试语音在冒充者模型集合A。={AI'l,…,Al’}下的得分.s。={s(0, AI.1),…,s(D,A。.)},然后进行得分规整: ‰一(o,A。):坐坐上型塑 U1k1式(1)中,‰。和盯‰分别是假设冒充者集 合得分在服从高斯分布下的均值和标准方差。其原 理如图l所示,Tno册方法在基于GMM—UBM (Gaussi锄mixtur}e model—universal backgmund mod- e1)的识别系统中得到广泛的应用,Reynolds研究表 明,在固定冒充者集合中计算似然比时,如果能在考 虑测试相关因素的同时考虑说话人相关因素,建立 说话人特有的冒充者集合,例如通过说话人特征参 数的选取(基音周期,性别等)或数据驱动的启发式 策略(例如模型间距离的计算),就能够进一步改进 系统的性能”J。 l陌南翮I得分分布的估计l Systemfbr test—n咖aIiz娟on tecIIniqI璩 Sturim提出说话人特定背景模型的测试规整方 法,称为自适应测试规整(ad印tive trIo咖,ATno瑚), 通过City—Block矢量距离计算冒充者语音在目标 模型的得分序列和在冒充者模型集合中的得分序列 的距离,从而选择与目标模型最接近的K个模 型旧1。笔者提出的基于EMD—Tno珊的归一化算 法与ATnom方法相比,不是基于得分序列的距离 计算,而是利用模型参数直接对模型之间的相似性 进行度量,不需要额外的冒充语音,算法简单,易于 实现。 2.2 EMD理论 地面移动距离(EMD)定义为将“货物”从“供给 者”运输给“消费者”所需的最小成本,可以用来衡 量两个特征分布之间的相似性【6'7]。EMD距离作为 一种典型的相似性度量广泛应用于计算机视觉中的 图像检索,模式匹配和视频说话人聚类,均取得了良 好效果。 96中国工程科学 该模型的描述如下:令P={(p。,%.),…, 示供给者和消费者的离散分布函数,其中p;和g,是每一个聚类的质心;",i表示p;可以运输的货物总 数;钳。,表示gf需求的货物总数,称为质心频率; D=[如]是“地面距离”矩阵,矩阵中每个元素成 表示质心p;和gi之间的“地面距离”,可以采用不同 的距离度量;兀是从pi到口f的流量,即运输货物的 数量,流量矩阵F=M,]。总的运输成本为: 万方数据矗=min(%,埘,,) 式(a)规定是单向运输,“货物”只能从pi运输到g,;式(b)保证了p;提供给各个需求者g,的货物 总和不大于其拥有的货物总数;式(c)说明g,接收 各个供给者的货物总和不大于需求总数;归一化因 子在式(d)中表示当供需不平衡时双方之间能运输 的总流量是它们两者之中的最小值,表示EMD距离 可以用于规模大小不同的模型之间计算,因此可以 用来进行局部匹配。EMD距离定义为归一化后的 运输成本,如式(3)所示: 2.3MixM躯模型 在实际的说话人确认系统中,确认性能和鲁棒 性是两个关键要求。由于各种背景噪声及其不同信 道的影响,会使说话人的模型参数发生不同程度的 改变,各种模型补偿方法都是着眼于对这些可变因 素进行不同程度的抑制,而没有进行具体的建模。 因此,笔者选用MixMaDc模型并且对其进行了扩展, 可以应用EMD距离计算模型间的相似性,对复杂的 背景噪声等干扰因素在训练说话人模型的同时也进 行建模,很大程度上消除噪声的影响,提高了系统的 高斯混合模型(Gaussi蛐mixturemodel,GMM) 本质上是一种多维概率密度函数,它假设说话人语 音特征可以用一系列高斯函数的叠加来逼近,即用 肘个单高斯分布的线性组合来描述对应说话人的 帧特征在特征空间中的概率密度分布,设D维特征 矢量序列x={茗。,戈:,…,算,}其数学表达式如下: r肼Dp(xI 式(4)中,肘是模型混合数;z。是特征矢量;毗村为混合权值,且埘;=1;肛;为均值矢量;仉为对 角化协方差矩阵,矿;。为第d维对应的标准方差;模 型A表示说话人的特征分布服从的概率密度函数, 用参数集表示:A={埘;,地,盯;},i=1,2,…,M,模 型参数由期望最大值EM(expectation ma)【imi跪tion) 算法训练得到。 MixMa】【模型是由说话人的GMM模型A 景噪声GMM模型A6组成MJ。这个模型的优势在 于不需要预先估计干净语音模型,在说话人模型估 计阶段,含噪语音的各个成分受到背景噪声成分的 不同程度掩蔽。在似然值计算过程中,特征矢量的 得分通过对组合模型的计算。说话人模型的各个混 合成分对最终似然得分的贡献与被噪声掩蔽的程度 直接相关,掩蔽越严重,则这个成分对最终似然得分 的贡献越小,具体计算公式为: AM;。Mu={A:MM,A:MM} TMNDp(xlA)=n; np(菇IiJ,A) 2.4基于EMD—T肿珊的得分规整策略当说话人模型采用GMM时,将每个高斯混合 成分当作聚类中心,对应的混合权值作为聚类权值, 可以直接使用EMD距离进行两个模型之间的度量。 但是在文章中是采用MixMax模型对说话人进行鲁 棒建模,此时问题出现在如何将EMD距离应用在该 模型中,MiXMaX模型中噪声等干扰的掩蔽作用并不 是完全体现在模型参数中,更多的是通过公式(6) 和(7)作用在似然值计算过程中。笔者对MixM麟 模型进行了扩展,引入掩蔽概率的计算,在EMD计 算过程中给每个混合成分进行掩蔽加权,模拟噪声 的掩蔽过程。 公式(6)表示第t个特征矢量的第d维龙。。由说 话人模型的混合成分i和背景噪声模型的混合成分 _『建模的概率。式(8)给出在{i}状态下假设现有 观察特征矢量是干净语音s。。,即没有受到噪声影响 的概率: 因此说话人的GMM模型参数得到扩展,增加一个矢量m=(m。,m:…m)作为每个成分的掩蔽 系数: 20lO年第12卷第2期97 万方数据 在模型估计时即可进行掩蔽因子的计算。当混合成分i的掩蔽因子为O时意味着该混合成分未受 到噪声的干扰,即为干净的语音特征分布;当为 l时,则认为该混合成分被噪声完全破坏。在计算 EMD距离前,在说话人模型的每个成分权值前乘以 掩蔽因子1一mi,即混合成分受掩蔽作用越严重,对 最后距离计算的贡献度越小。原理示意图见图2。 图2啪一Tm归一化算法示意图 Fig.2 System EMD—Tno珊method算法的具体步骤如下: 1)基于EMD距离计算目标说话人和其他说话 人的模型之间的距离,对于每一个目标说话人A。, 计算与其他说话人的模型A。={AI’l,…,AW}之间 的距离得到一个距离集合: DI,I={D。(A。I AI,I),…,D。(A。I AI。)} (10) 2)选择K个最相似的模型。从距离集合中选 择距离最小的K(K<)个模型作为目标说话人的 自适应冒充者模型集: AE帅一I={AEMD吐l,…,AEMD-I.K},以EMD—I cAI (11) 3)计算EMD—Tno册得分。计算测试语音在 冒充者模型集合中的得分: SEMD—I={s(D,AEMD_I.1),…,s(D,AEMD.I.置)} (12) 4)得分归一化。对测试语音在目标模型的得 分s(D,A。)进行归一化变换: 式(13)中,弘删。一‰。和盯EM。一h。。分别是假设S。帅一。服从高斯分布下的均值和标准方差。 3实验与结果分析 3.1实验语料库 实验数据来自C603语音库,该语音库是在安 静的实验室环境下录制的纯净语音。语音信号采样 频率为22.05 kHz,单声道录音,16 Bit量化。实验 98中国工程科学 中使用的语音数据包括182个说线个男性。其中所有说话人发音都是汉语普通 话,每个说话人录音三部分,分别为数字串、固定文 章和自由发言,分3个文件保存。3次录音得到的 语音长度长短不一,但同一种文件的长度基本相等。 数字串以4个数字序列为一组,共大约40 s;文章是 伊索寓言《北风与太阳》,时间约60 s;自由发言部 分鼓励谈论生活学习天气等限定在2 min之内。噪 声数据来自NOISEx一92噪声数据库,这些噪声按 不同的信噪比分别添加到干净语音中形成含噪语 音。不包括交叉性别测试。 3.2预处理和特征提取 实验中对输入系统的语音信号进行预加重,预 加重系数为O.99;按帧长512个采样点进行分帧, 帧交叠为50%;之后使用汉明窗进行加窗处理。说 线阶Mel倒谱参数(mel‰. quency cepstmm coefficient,MFCC)参数及一阶差分 MFCC共28维,在GMM模型中,通常阶数越高。 系统的识别率就越高,但计算量和存储空间的开销 也随之增加,文章折中考虑,取M=64。 3.3性能评估指标 实验中采用的性能评估标准是等误识率(equal error mte,EER),定义为DET(detection 0fr)曲线上错误接受率(FA)和错误拒绝率(FR)充分接近基础上的算术平均值。 在NIST说线】,采用最小检测 代价函数(detection cost fhnction,DcF)来代表系统 性能,它是系统对检测代价函数取最小值的工作点。 DCF函数定义为: 万方数据DCF=CmFRRPt丑r+CF^-、ARPi。。, PimD=1一P。。 (14) 式(14)中,CFR和Cn分别是错误拒绝FR和错 误接受FA的代价,P。和P岫分别是真实说话人和 冒充说话人的先验概率。实际测试中,给定一个阈 值就会得到对应阈值下的检测代价,检测代价越小 的系统性能越好。NIST评测中定义如下:C,。= 10,CF^=1,_PI。=0.01,Pi。=0.99。 3.4实验结果与分析 实验分别在男女数据库中进行,每个说线种文件中分别随机选择连续20 s组成训 练语音(共60 s),在剩余的语音里随机选择10 音用于自身登录,共进行20次;从其他说线 s进行冒认登录,分别进行3次; 男性数据库自身登录10020次,冒认登录100 993次,比例约为1:14.9;女性数据库自身登 录8220次,冒认登录82813次,比例约 为l:12.2,总共重复进行5次验证,最后取其平 均值。 在选择目标说话人特有的背景模型的过程中, K的取值会影响到最终的性能,在干净语音条件下, 对K的不同取值进行了多次实验比较,实验结果如 圈3不同的X取值下的等误识率EER .3-nIe eqllal emr髓钯 mL曲呜di仃e咖t训ll髂of置 从图3和图4可知,随着K取值的不同,分别在 男性和女性的语料库下的等错误率和最小检测代价 值都会发生改变,男性语音库的实验在K=20时取 得最小值,女性语音库的实验在K=15时取得最小 值,该K值将作为下一步实验的取值。同时,女性 语音库下的实验数据普遍高于男性语音库,经过分 析认为女声中高频成分比较丰富,而笔者所采用的 图4不同的K取值下的 最小检测代价DCF Fig.4 Detecti佃cost fIlnc廿帆 dl州ng di疵rent vmII皓of置 传统MFCc参数没有充分考虑到这一点,说明在识 别系统中寻找更稳健,更适合说话人的特征也是一 个重要问题。 为了验证文章提出的方法在抗噪性,以及降低 错误率和最小检测代价方面的性能,笔者在混合噪 声存在的环境下,与Tnonn方法和不做归一化变换 的方法进行比较,在15 dB的混合噪声条件下训练 模型,在不同的信噪比下进行测试,采用white平稳 噪声与Factory,Babble和F16 3种非平稳噪声组成 混合噪声。其中,男生组(M)的K取20,女生组(F) 取15,Tnom方法和不做归一化变换(简称None)的 方法都是基于传统的高斯混合模型,笔者提出的 EMD—Tno瑚方法基于MixMa)(模型(简称EMT), EN Improved表示EMT相对于None方法的相对改 进率,ET Impmved表示EMT相对于Tno珊方法的 相对改进率,相对改进率=(对比方法EER一文章 方法EER)/对比方法EER。实验结果如表1所示。 表l不同信噪比(SNR)下各种实验方法的性能对比 TaMel Experimen叫懈llI伍of thr魄methods di恤弛ntSNR EER None EER’nl锄 EER EMT EN hnpmved/% ETI唧mv彬% DCFNone DCFTho髓 DCF EMT 8.05 9.98 8.94 10.67 lO.23 13.傀 7.74 9.跖8.37 lO.31 9.95 11.27 7.32 9.17 7.45 9.28 8.40 lO.53 9.1 8.1 16.6 13.0 17.8 19.5 5.4 6.9 lO.9 9.9 15.6 6.6 0.04l O.05l O.047 O.054 O.052 0.058 O.038 O.049 0.043 0.052 0.050 0.055 O.034 0.034 0.036 0.04l 0.047 0.053 20lO年第12卷第2期 万方数据 分析表l可知,一方面3种方法中EMT的等错 误率EER和DCF一直是最低的,在15 dB的测试环 境下取得最好的性能,EER为7.32,DCF为0.034, 比不做归一化变换和Tnom变换分别降低了9.1% 和5.4%,表明了EMT方法在降低错误率和检测代 价方面的有效性;另一方面,随着信噪比的降低,系 统性能都随之下降,但EMT在低信噪比下仍然保持 了较好的性能,从而证明了基于MixM锻模型的 EMT确实能够提高系统的鲁棒性。 4结语 说话人确认作为一种典型的二元判决问题,确 认性能和鲁棒性是两个关键要求,笔者提出的方法 从模型和得分两个方面对确认系统进行了改进,理 论分析和实验表明,该方法不仅继承Tn6m方法对 测试环境和文本变化等的差异性对输出评分的影响 进行了很好补偿,而且对说话人相关因素带来的自 身的差异性也进行了很好的补偿。采用的MixM双 模型很大程度上提高了系统的鲁棒性,从而进一步 降低了误识率和漏警率,获得很好的确认性能。下 一步的工作将研究如何采取有效的分级聚类策略在 进一步提高系统性能的基础上降低计算复杂度,寻 找更加鲁棒的参数来表征噪声干扰环境下的说话人 特征。 参考文献 [1]Dijana H,GemrdchDuet.11ext—illdepend斟lt 叩eaker verificati蚰state 0f aIt肌dchallen弹[J].LNcs。 2007.135一169 [2]stllrim DE,ReyIloIds DA.SpeaI【盯8d8ptivehsdtive Tn咖inte】【t—independent叩魄k目ve曲cn蚰[J].IcASsP, 2005。l:74l一744 [3]D舳iel Rc,Juli锄FA,JoaquiII GR.Speak盯ve曲c撕u8ir唱 AuckentlIalerR,ca陀y M,uoyd—T0哪H.sco弛nnali珊旺 fbrtext—ind印d蛐t 8peak叫砌cati仰system[J].Digital si酬PI伪s,2000,10:42—54 [5]Rey肿ld8 DA,QIl“eri TF.Speal【盱verific椭I峭iIIg adapted Gnu8si蚰Mi巾l弛Mod山[J].Digital si印aI Pm明,2000,10: 19—4l -11liloStadellI舢n,Bernd Frei小beII.Fa8t robust印eak盯clustering u8ing山e髓rdl moV盯’8 di8锄e mi】cm娃model8[J】.IcAsSP,2006,l:989—992 [7]Rubn盯Y,’Ibmasi c.Guibas LJ.‰em刚盯’8 distaIl鹏 am“cf抽image re晡eval[J].Intema置ional Jmlmal 0fc甜叩ut- 茁Vision,2000,40:99一12l [8]郑榕,张树武,徐波.基于特征规整和评分规整的说话人 确认研究[J].中文信息学报,2006,20(6):75—82 [9]刘明辉。陈继旭,李辉,等.基于亿Nnali殂lion规整的话 者确认阈值选取[J].数据采集与处理,2005,20(3):3ll一 317 Anew score normalizaion algoritllIIl based speakerVeri6cation nYanpin91一,Ding Huiz一,Tang Zhenminz (1.Coege TelecommunicationsInfo珊ationEngineering,Nanjing UniVersity Post8明dTelecommunic撕ons,N州ing 210003,China; 2.school ComputerScience,Nanjing UniVersit)r Science&7rbchnology,N肌jing210094,China; 3.School Mathematic8I山珊ationEngineering,Jia】【ing Univers时,Jia】【ing,zhejiang 31400l,China) [Absn翟ct] In mis paper,t}le veri6cation system矗Dm two aspects w鹊improved.On one haTld,we extend— ed MixMa】【model出at tlle EMD(eanh mover’s dist趴ce)c粕be印plied,which c锄remove山e disturb粕ce noise;ontIle other hand,we impmved tlle Tnom score nomaJiz撕on method b酗ed EMD.Experimentalre. sults show出at tllis met}lod can compensate test—dependentVariabilit)r,also shorw astable pe而瑚ance impmVementby decreasing FA如dFR. [1【ey words] speaker verification;robustlless;eanh mover’s distance;MixMax model 100中国工程科学 万方数据 EMD-Tnorm得分规整策略在说话人确认中的应用 作者: LiYan-ping, Ding Hui, Tang Zhen-min 作者单位: 李燕萍,Li Yan-ping(南京邮电大学通信与信息工程学院,南京,210003;南京理工大学模式识 别与智能系统实验室,南京,210094), 丁辉,Ding Hui(南京理工大学模式识别与智能系统实 验室,南京,210094;嘉兴学院数学与信息工程学院,浙江嘉兴,314001), 唐振民,Tang Zhen- min(南京理工大学模式识别与智能系统实验室,南京,210094) 刊名: 中国工程科学 英文刊名: ENGINEERING SCIENCE 2010,12(2)参考文献(9条) 1.Dijona H;GerardChollet Text-independent speaker verification state challenges2007 2.Sturim Speakeradaptive cohort selective text-independentspeaker verification 2005 3.Daniel Speakerverification using speaker-and test-dependent fast score normalization 2007 4.Auckenthaler R;Carey M;Lloyd-Tomas Scorenormalization text-independentspeaker verification systems[外文期刊] 2000(1-3) 5.Reynolds Speakerverification using adapted Gaussian Mixture Models[外文期刊] 2000(1-3) 6.Thilo Stadelmann;Bernd Freisleben Fast robustspeaker clustering using earthmover mixmaxmadeh 2006 7.Rubner Y;Tomasi C;Guibas earthmover imageretrieval[外文期刊] 2000(2) 基于特征规整和评分规整的说话人确认研究[期刊论文]-中文信息学报2006(06) 基于TZNormalization规整的话者确认阈值选取[期刊论文]-数据采集与处理2005(03) 本文读者也读过(10条) 李强.戴征坚.李志舜.LiQiang.Dai Zhengjian.Li Zhishun 相关背景噪声下ETDE算法研究[期刊论文]-西北工 业大学学报2005,23(5) 杨彦.赵力.YANGYan.ZHAO Li 一种改进的模糊C-均值聚类算法在说话人识别中的应用[期刊论文]-电声技术 2006(1) Jin.XUSheng.HU Jian-ling 基于EMD的音频信号检索[期刊论文]-电声技术2005(7) Guang.YUYongzeng.ZHANG Ying.YU Jianglin 基于小波和EMD的滚动轴承非接 触声发射诊断方法[期刊论文]-化工机械2009,36(4) 李燕萍.唐振民.张燕.丁辉.LIYanping.TANG Zhenmin.ZHANG Yan.DING Hui 基于自适应频率规整的鲁棒说话人 辨认研究[期刊论文]-中文信息学报2009,23(4) 张博.王凯.马高杰.吉利Kai.MA Gaojie.JI Li 小波变换及Hilbert-Huang变换在转子系统故障 诊断中的应用[期刊论文]-机床与液压2009,37(6) Xian-chuan.ZHANGQi 基于LBP算子与EMD距离的医学图像检索[期刊论文]-微计算机信息 2009,25(9)

http://lenjproductions.com/shuohuarenqueren/320.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有