您好、欢迎来到现金彩票网!
当前位置:秒速快三 > 说话人确认 >

信号与信息处理专业论文)基于SoPC技术的便携式说话人确认系统研

发布时间:2019-07-07 05:38 来源:未知 编辑:admin

  (信号与信息处理专业论文)基于SoPC技术的便携式说话人确认系统研究与实..

  脚178046脚6学位论文版权使用授权书 本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特 授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索, 提供阅览服务,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。 同意学校向国家有关部门或机构送交论文的复印件和磁盘。 (保密的学位论文在解密后适用本授权说明) 学位论文作者签名: 签字日期:fD年6月21日导师躲叮仍{飞 签字日期:z叫。年/月7日 中图分类号:TN402UDC;004.9 学校代码: 10004 密级: 公开 北京交通大学 硕士学位论文 基于SoPC技术的便携式说话人确认系统研究与实现 Researchand Implementation portablespeakerverification system basedonSoPC technology 作者姓名: 导师姓名: 学位类别: 学科专业: 工科信号与信息处理 称:副教授学位级别:硕士 研究方向:嵌入式 北京交通大学 2010年6月 致谢本论文的工作是在我的导师丁晓明副教授的悉心指导下完成的,丁晓明副 教授严谨的治学态度和科学的工作方法给了我极大的帮助和影响。在此衷心感谢 二年来丁晓明老师对我的关心和指导。 丁晓明老师悉心指导我们完成了实验室的科研工作,在学习上和生活上都给 予了我很大的关心和帮助,在此向丁晓明老师表示衷心的谢意。 丁晓明副教授、朱维彬副教授、熊轲博士对于我的科研工作和论文都提出了 许多的宝贵意见,在此表示衷心的感谢。 在实验室工作及撰写论文期间,李丹丹、郭东超、沈阳、王树、陶思敏等同 学对我论文中的说话人算法分析、硬件模块设计等工作给予了热情帮助,在此向 他们表达我的感激之情。 另外也感谢我的家人,他们的理解和支持使我能够在学校专心完成我的学业。 摘要’说话人确认是判定说话人真实身份的技术。已经有了广泛的研究和较高的识 别率,但大部分都是基于PC的实现,成本较高,应用范围较窄。如果在嵌入式系 统或者移动设备中加入说话人确认功能,其应用范围必然会增大,有一定的经济 效益。但嵌入式系统和移动设备工作频率相对PC较低,如何保证在较低的工作频 率下,完成说话人确认系统的实时响应,是本文研究的关键。 本文重点研究了基于SoPC技术的便携式说话人确认系统及其在FPGA上的实 现。根据系统功能和资源的要求,选用Altera公司的嵌入式硬件平台,用硬件描 述语言设计了符合Avalon总线接口标准的语音采集自定义组件,并建立了适合本 系统的语音数据库:分析了选用的说话人确认算法复杂度,用自定义组件和自定 义指令两种方法对相应的算法进行了硬件加速,特别是在提取声纹特征时用到快 速傅利叶变换(FFT)来求功率谱,因其数值较大,需要硬件实现的FFT具有很 高的精度(小数点后三位),本文用三种方式实现了FFT硬件加速,其精度逐步提 高,最终满足了系统的需要,硬件加速效果非常明显。在选定平台上实现了完整 的说话人确认系统,系统测试结果表明,所实现的说话人确认系统是有效的,在 较低的工作频率下,认证结果和实时性基本满足要求。 关键词:说话人确认;片上可编程系统;自定义组件;快速傅利叶变换;高斯混 合模型.全局背景模型 分类号:TN402 __I___l_______一ABSTRACT Speaker verificationisa technology todeterminethetrue identity ofthe speaker.It alreMy hasextensiveresearchand highrecognitionrate,but mostof implementations alebasedon PC,and costistoo highrange relativelynarrow.If speakerverificationcanbe implemented today'spopular embedded systems mobiledevices,its useisboundtobeincreasedandtherearecertaineconomicbenefits. Owing frequencyofembedded systems andmobiledevicesismuchlowerthanPC, Howtoensurethat speakerverification system Canworkinthe low-frequency andhas real-timerespolzseisthe key tothis study. This paper focusesonthe portablespeaker verification systembasedonSoPC technology andits implementation 011 FPGA.According tothe systemrequirements functionsandresources,Altera’Sembeddedhardware platform wasselected.Acustom component ofvoice capture whichisconsistentwithAvalonbusinterfacestandardwas designedwithhardware descriptionlanguage(HDL).And avoicedatabasewas establishedforthe system;Analyzing speakerverification algorithm’Scomplexity, therelatedalgorithms acceleratedonhardware through using custom components andcustom instructions.Especially whenextractedthe voiceprintfeatures, FastFourier Transform(FFT)isusedtocalculate powerspectrum,becauseofits large value,itrequires thatthehardware implementation ofFFThasa hi班accuracy(up threedecimal places).Thispaper achievedFFThardwareacceleration withthree methods,asthe precisiongraduallyincreases,eventually systemrequirementswere satisfied,and resultofhardwareacceleration Was very obvious.A speaker identification system completedontheselectedplatform,andsystemtestresults showthatthe design speakerverification system iseffectivewhen working lowfrequencyand certifiedresults basically meetthereal.time requirements. KEYWORDS:SpeakerVerification;SoPC;Custom Component;FFT;GMM.UBM CI,ASSNO:TN402 目录 摘要………………………………………………………………………………………………………….iii ABSTRACT………………………………………………………………………………………………iv 综述……………………………………………………………………………………………….11.1 生物特征识别技术研究现状………………………………………..1 1.1.1生物特征识别技术………………………………………………1 1.1.2说话人辨认与说话人确认………………………………………2 1.2 本课题的研究背景及意义……………………………………………3 1.3 本课题的主要研究内容及创新点…………………………………..4 1.3.1本课题的主要研究内容…………………………………………4 1.3.2论文的主要工作和创新点………………………………………4 1.4 论文的组织结构……………………………………………………..5 系统硬件平台选择及关键技术………………………………………….72.1 系统平台选择………………………………………………………..7 2.2 IP核复用技术………………………………………………………。9 2.3 系统处理器——-NiosII处理器……………………………………..10 2.4 系统总线协议……………………………………………………….11 2.5 说话人确认可结合选定平台及技术的特点……………………….1l 2.6 本章小结……………………………………………………………12 说话人确认系统的组成及核心算法……………………………………133.1 说话人确认算法选择………………………………………………13 3.2 说话人确认系统的组成……………………………………………14 3.3 说话人确认系统用到的核心算法…………………………………15 3.3.1声纹特征参数提取…………………………………………….15 3.3.2 GMM.UBM模型的建立………………………………………16 3.4 打分(对数似然比计算)…………………………………………22 3.5 系统性能判定准则………………………………………………….23 3.6 运行速度瓶颈分析…………………………………………………23 3.7 本章小结……………………………………………………………24 基于NiosII软核的说话人确认系统构架……………………………..254.1 系统硬件构架及关键模块设计……………………………………25 4.2 系统软件流程………………………………………………………26 6.1 系统集成……………………………………………………………65 6.2 建立语音数据库…………………………………………………….66 6.3 系统性能检测………………………………………………………一67 6.4 系统资源统计状况…………………………………………………72 6.5 本章小结…………………………………………………………….73 总结与展望………………………………………………………………747.1 论文工作总结………………………………………………………74 7.2 研究展望……………………………………………………………75 参考文献………………………………………………………………………….77 附录A…………………………………………………………………………………………………….79 FFT IP核的封装…………………………………………………………….79 作者简历…………………………………………………………………………83 攻读硕士学位期间发表的论文及获得的奖励…………………………………85 独创性声明………………………………………………………………………87 学位论文数据集………………………………………………………………….89 VIII 1综述 本章将简要介绍生物特征识别技术的研究现状,给出课题研究背景、意义, 和主要的研究内容及工作的主要创新点,最后给出了论文的组织结构。 1.1 生物特征识别技术研究现状 本节简要的介绍了生物特征识别技术,从而引出声纹识别,对声纹识别中的 说话人辨认和说话人确认概念做了对比。 1.1.1 生物特征识别技术 随着信息化时代的到来,信息的安全性与保密性引起了人们普遍的重视。人 体丰富的生理特征,使得生物特征识别技术成为身份鉴别领域的一项重要手段。 如何准确地识别一个人的身份,保护信息的安全已成为信息时代必须解决的一个 关键问题。传统的身份鉴别所采用的方法主要有两种:一种是通过身份标示物品, 如钥匙、证件、卡等来确定其身份;另一种是通过身份标示知识,如用户名和密 码等来确定其身份。但两者都存在着各自难以克服的缺陷:标示物品容易丢失或 被伪造,标示知识容易遗忘或被记错。更为严重的是这些传统的身份鉴别方法往 往无法区分标识物品的真正拥有者和取得标示物品的冒充者,一旦他人获得了这 些标示物品,就可以拥有相同的权利。 生物特征识别技术所依据的不是传统的标识物品或标示知识,而是依靠人类 自身所固有的生理或行为特征进行身份鉴别的一种解决方案。人的任何生理或行 为特征只要它满足下面的条件,原则上就可以作为生物特征用于身份鉴别: (1)普遍性:即必须每个人都具备这种特征; (2)唯一性:即任何两个人的特征是不一样的; (3)可测量性:即特征是可测量的; (4)稳定性:即特征应在一段时间内不会改变。 除这些条件外,生物特征从模式识别理论的角度讲,还应该满足类内间距小、 而类间问距大的条件:从实际应用的角度讲,还要考虑性能、可接受程度、可欺 骗性等因素。 利用生物特征进行身份鉴别可分为两类:识别和认证。识别是指确定用户的 身份或可能的候选,认证是指验证的用户是否为他所声明的身份。典型的生物特 征识别和认证系统基本结构如图1.1所示。 图1—1生物特征识别和认证系统的基本结构 Fig.1-1 ThebasicstructureofBiometricidentificationandauthentication system 经过近年来的研究,人们研究出以下生物特征可以作为识别人身份的特征, 主要分类为: (1)声纹识别; (2)指纹识别; (3)掌纹识别; (4)手形识别; (5)人脸识别; (6)虹膜识别; (7)视网膜识别; (8)签名识别; (9)姿态 识别等。 本系统采用声纹作为身份鉴别的生物特征,而声纹识别有说话人辨认和说话 人确认之分,要研究声纹识别首先需要区分这两者。 1.1.2 说话人辨认与说话人确认 声纹识别(voiceprintrecognition),也称说话人识别(speakerrecognition), 就是根据人的声音特征,”闻声知人”。声纹识别分为两类川: (1)说话人辨认(speakeridentification):用以判断某段语音是若干人中的哪一个所说的,是“多选一"问题,主要用在刑侦破案、罪犯跟踪、国防监听 (2)说话人确认(speakerverification):用以确认某段语音是否是指定的某个 人所说的,确认只有两种可能,或是肯定(即接受),或是否定(即拒绝),是 个一对一的问题。主要用在证券交易、银行交易、公安取证、个人 汽车声控锁、身份证、信用卡等。 两者的主要区别是供判决选择的数目不同,说话人辨认是在所 话人中进行选择的,因此辨认性能将与注册的人数有关,随着人数 能将有所下降;而确认与注册人数的多少的没有关系。辨认和确认 应用场合。 另外,从待识别的语音样本来分类,说话人识别可分 (text.dependent)和文本无关(text.independent)两种。文本相关的 用户按照规定的内容发音,并根据特定的发音内容建立精确的模型 好的识别效果,但系统需要用户配合,如果用户的发音与规定的内容不符合,则无法正确识别该用户。而文本无关的识别系统则不规定说话人的发音内容,因而 要建立精确的模型较为困难。说话人确认系统中最关键的就是特征提取和建立说 线 本课题的研究背景及意义 首先,在众多的生物认证技术中,说话人识别技术表现出很多应用上的优势12l。 1)说话人识别有着天然的优点。以声音作为识别特征,因其非接触性和自然 性,用户容易接受。在说话人识别中,用户不用刻意地将手指放在传感器上,或 者把眼睛凑向摄像头,只需要简单地说一两句线说话人识别所用的采集设备成本很低。对输入设备如麦克风、电话送话器 等没有特别的要求;声音的采样与量化对芯片的要求也不高。 3)其它生物特征识别技术各有其劣势。如指纹识别技术虽然已经比较成熟, 但用户的接受度不高,用户常把指纹同犯罪联系在一起,而不卫生是另外一个不 利因素。虹膜、视网膜识别技术的精确度虽然很高,但所需的设备非常昂贵,并 且据研究,这些特征中包含用户的健康状况等隐私信息,大众接受度也不高。脸 部,步法等特征,虽然比较自然,用户也容易接受,但实现难度很大,语音信号 一般没有严格的方向性,可在黑暗中传播,也可以方便地通过电话线传播;因此, 说话人识别的优势更加明显。 更重要的是,对于远程应用和移动互联环境,如通过电话、移动设备进行身 份验证,声音恐怕是唯一可用的生物特征。目前语音识别技术已成功地应用于桌 面听写和电话呼叫中心。第三个应用领域即将出现——移动设备和嵌入式系统Ill。 当今大部分的移动设备都带有录音系统,如我们随身携带的手机,电子词典,数 码产品等贵重电子物品,如果加入声纹控制的开机功能,就再也不用担心被偷了; 嵌入式系统如声控电子密码锁:实时执行军事指挥员或飞机驾驶员的口述命令(如 实时发炮命令等)、有经验的操作人员才能进行的高精度控制或者是声控门禁系 统,医学中如使说话人识别系统只响应患者的命令,从而实现对患者假肢的控制 号fo目前说话人确认系统的实现主要是在PC机上,成本较高,体积较大,且只能 用于专门的场所,如果在平时经常使用的移动设备或者嵌入式系统上加上说话人 确认功能,它的应用范围就变得很广,也就具有很大的经济效益。但这些移动设 备或者嵌入式系统采用的主频相对PC机来说都较低,如何保证在较低工作频率下 声纹识别的实时响应,是一个很值得研究的课题。当今在FPGA(Field Programmable Gate Array)上实现SoPC(System ona ProgrammableChip)技术正逐步成为一种 成熟的趋势,可以实现软硬件的灵活可重构,所以本课题选取在FPGA上实现说话 人确认系统,重点研究了其硬件加速,以满足实时性的要求。 1.3 本课题的主要研究内容及创新点 1.3.1 本课题的主要研究内容 本课题主要研究的是基于SoPC技术的便携式说话人确认系统在FPGA上的实 现。在说话人确认的研究中,关键是声纹特征提取和模型建立两部分。本文主要 分析了Mel倒谱系数这一特征提取的方法和过程,并对基于高斯混合模型(GMM: GaussianMixtureModels)和全局背景模型(UBM:UniversalBackground Model) 的说话人确认算法进行了深入的研究。即先用C语言实现了此系统独立于硬件平台 的算法模块,分析了算法中耗时较长且易于硬件加速的部分,针对此系统主要在 嵌入式和移动设备方面的应用场合,以及FPGA的灵活的可重构性,选择在FPGA 平台上完成此系统的硬件实现。因认证和训练时需要同样的语音提取通道,所以 建立了适合于本系统平台的语音数据库。由于嵌入式和移动设备相对PC主频较低, 系统运行时间较长,本文又将算法中若干耗时较长部分进行了硬件加速,以满足 实时性。相比于传统纯软件实现的说话人确认系统,本系统软件与硬件紧密结合, 协同工作,在灵活性、扩展性与性能成本间取得较好的平衡。 1.3.2.论文的主要工作和创新点 论文的主要工作是在嵌入式平台上实现说话人确认系统,工作中的主要创新 点如下: 此外,为了验证(2)工作的正确性和有效性,将封装后F.FFrIP核应用到所设计说话人确认系统中,得到了很好的效果,使得声纹特征提取的速度提高了97.97%; 同时,针对SD卡存取速度受限,不适合实时声纹确认系统应用的问题,将两路通 用I/OD进行扩展j使扩展SD卡控制接口数据线线模式,存取速 度提高了近4倍,达到了所设计系统的存取速度要求。 1.4论文的组织结构 第一章概述了生物特征识别技术,主要介绍了生物特征识别技术研究现状及 课题研究的背景和意义。给出了论文的主要内容和创新点及本文的组织结构。 第二章介绍了系统硬件平台的选择及基于此平台用到的关键技术,重点介绍 了IP核复用技术及系统处理器和总线协议,并总结出说话人确认可结合选定平台和 技术的特点。 第三章介绍了说话人确认算法的选择,说话人确认系统的组成及核心算法, 对本系统主要用到的核心算法进行了深入的分析,并分析了系统运行时间较长的 瓶颈所在,为后面的硬件加速做准备。 第四章是基于NiosII软核下的说话人确认系统构架及设计,给出了系统硬件构 架及软件流程,对流程中主要模块的功能及实现方法进行了简要的分析。 第五章详细介绍了语音采集自定义组件的实现,对MFCC(Mel Frequency cepstral coefficient)特征提取中的关键环节FFT的硬件实现给出了三种解决方案, 前两种方案因系统要求FFT精度要达Nd数点后三位而被舍弃,采用了第三种方 案,另外介绍了平台上SD卡模块的优化和文件系统的添加,最后介绍了浮点四则 运算及对数运算自定义指令的实现。 第六章是系统集成与测试,介绍了SOPCBuilder中已提供的组件及自定义的组 件和指令的集成,至此硬件部分全部完成,然后在此平台上建立适合本系统的语 音数据库,给出了训练UBM和GMM时的模块参数,最后用四类实验给出了说话人 确认的结果及若干算法硬件加速后的结果。 第七章完成总结和展望,给出本系统的总结及待优化的地方,阐述下一步开 展的工作。 2系统硬件平台选择及关键技术本章将阐述系统平台是如何选择以及基于此平台会用到的关键技术,在以后 的系统的实现中都会灵活应用本章阐述的技术。最后将指出说话人确认可结合选 定平台及技术的优势所在。 2.1 系统平台选择 SoPC是一种灵活、高效的SoC解决方案,它具有双重含义:首先它是SoC (System ona Chip),由单个芯片完成整个系统的主要逻辑功能;其次它是可编 程系统,具有灵活的设计方式,可裁减,可扩充,可升级,并具有软硬件在系统 中可编程的功能。从应用角度看,SoPC与SoC相比有自己的优点14J,因为它是基于 PLD/FPGA实现的,可以随时下载以验证其功能,灵活性高,在设计好的产品中, 如果要对芯片中电路布局改动,或者增减功能只需要重新下载,设计周期非常短。 图2-1系统所选用的硬件平台Fig.2-1 Thechosedhardwareplatformofsystem 近年来,随着可编程器件技术的进步,可编程逻辑阵列FPGA的价格在不断的 降低,而逻辑容量达到了百万门级的水平,片内存储SRAM容量越来越大,另外高 端器件集成了丰富的DSPblock、高速串行IO等资源。所以在FPGA上实现SoPC技 术已成为了一种发展趋势。 因此本设计选用Altera公司的FPGA开发平台DE2.70实现说话人确认系统,本 系统平台的选取是根据系统功能的要求和以往的实践经验,结合平台的性价比, 作出得选择。Altera CycloneFPGA是目前市场上性价比最优且价格最低的FPGAi7I。 在系统功能的要求下,Altera公司的DE2.35开发平台即可满足要求,其外设和 DE2.70基本相符,只是DE2.35芯片有将近35000个逻辑资源,LLDE2.70少了近一 半,最开始选用的是DE2.35平台,但是后来因系统中FFT自定义组件精度的不断提 高,致使DE2.35平台逻辑资源不够,最终系统平台定为DE2.70。 图2.11sI是DE2.70多媒体开发平台,图中标出了说话人确认系统主要用到的资 源。平台主要资源及其在系统中的功能简介如下: 主芯片数量高达68416个逻辑单元的AlteraCyclonetg)IIEP2C70F896C6N,逻辑单元丰 富。含有4个可编程锁相环(PLL:PhaseLocked Loop),Cyclone<固IIPLL具有多 种高级功能,如频率合成、可编程相移、可编程延迟和外部时钟输出,这些功能允 许设计者管理内部和外部系统时序。250个M4K存储块提供l,152,000bits存储容 量,能够被配置来支持多种操作模式,包括RAM、ROM、FIFO及单口和双口模式。 两个32M字节SDRAM NiosII运行程序时的数据存储器和指令存储器 一个8M字节Flash 程序存储的空间 一支持SPI以及1.bit读取模式的SD卡接口 存储非易失性数据:训练好的说话人模型 _Clock输入 50MHz、28.63MHZ振荡器,可用PLL倍频或者分频 Audio输入与输出 24-bitCD质量的输入、输出与麦克风输入接头,作为录音通道 一18个拨动开关(switch) 用于录音和说线个红色LEDs 用于录音结束的标志 两组40个接脚扩充槽 作为GPIO扩展,在本设计用了两路I/O用于扩展SD卡数据口,加快SD卡存取 速度 内建USBBlaster电路 用于FPAG程序下载或控制,支持JTAG(JointTestAction Group),对 Cyclone@II进行配置(掉电数据后丢失)及配合SOPC IDE下载和调试NisoII软件。 Altera公司为了支持SoPC的实现,还提供了众多性能优良的宏功能模块、口核 以及系统集成等完整的解决方案,且都经过了严格的测试,使用这些模块大大减 少设计的风险,缩短开发周期。 2.2 IP核复用技术 IP(IntelligentProperty)核,即知识产权核,是预先定义好功能,并且经过验 证的、可重复利用的逻辑功能模块或宏单元。是一段具有特定电路功能的硬件描 述语言程序、程序,与集成电路工艺无关,可以移植到不同的半导体工艺中去生 产集成电路芯片。现在复杂芯片设计中最常用的方法是采用可重用设计,就是使 用m核进行系统构建I引。IP可以是继承以往的设计,它是从第三方购置得到或自己 开发得到。从功能上分类,口核包括:微处理器,数字信号处理器,总线结构,外 部设备,I/O通道,大容量内存等等。从结构分类,知识产权核包括:硬核(hard macro),固核(firmmacro)和软核(softmacro)。 硬核是一种以GDSI(GraphicDesignSystem II,第二代版图设计系统)文件形 式进行集成的核,它是已经经过全部设计、布局、布线的核; 软核是一种以可综合的RTL(Register TransferLevel,寄存器传输级)代码交 固核介于硬核与软核之间,它可以以RTL或网表的形式提交,或是带有部分布局信息和物理设计信息的RTL代码16J。 借助FPGA硬件结构的可重构性与IP资源复用技术,使得基于FPGA和IP软核的 嵌入式系统设计达到了以下目标: (1)缩短设计周期,从而加快产品的上市时间。 (2)提高设计性能,降低设计风险。 (3)延长了产品生存时间。基于FPGA和IP软核的独特优势就是它的软硬件 可升级性。即使产品已交付用户,通过网络可实现远端产品升级,可以不断有新 特性添加到硬件中17I。 本设计则允分利用TAltera公司提供的丰富的IP软核资源,大大提高了设计的 速率和正确性,但是有些IP软核,女HFFT,不满足Avalon总线接口规范,不能直接 内。NiosII包括3种类型的产品,分别是18l:Nios II/f(快速_卜最高的系统性能,中等FPGA使用量; Nios II/s(标准卜高性能,低FPGA使用量; Nios II/e(经济H氐性能,最低的FPGA使用量。 Nios II的三种内核类型都可以使设计人员在不同应用场合下找到性能和面积 的平衡点。 NiosII处理器具有完善的软件开发套件,包括编译器、集成开发环境(IDE)、 JTAG调试器、实时操作系统(RTOS)和TCP/IP协议栈。设计者能够用SOPCBuilder 很容易地创建专用的处理器系统,并能够根据系统的需求添)J1]NiosII处理器核的数 量,构建多核系统。随着系统日益先进,基于标准处理器的方案会被淘汰,而基 于NiosII处理器的方案是基于HDL源码构建的,能够修改以满足新的系统需求,避 免了被淘汰的命运。将处理器实现为HDL的IP核,开发者能够完全定相]CPU和外设, 获得恰好满足需求的处理器。 选择NiosII软核CPU作为核心处理模块主要考虑到它为本设计带来了极高的 集成度和灵活性,这样在对设计方案作更改时比较方便;而且核心算法如果用Nios II的用户指令和硬件逻辑及IP核的实现,那么运算速度将会得到很大提高。这样在 SOPCBuilder里很容易定制好系统需要的NiosII处理器,假如希望更改其中的某些 10 之间的数据传输, AvalonSwitchFabric是一个片上互联逻辑,它将Avalon6'b设连 接在一起,形成较大的系纠引。 可配置能力是Avalon接口与传统的总线接口之间重要的区别之一I引。Avalon夕b 设可使用其中一个小的信号组合来支持简单的传输,或者使用较多的信号支持复 杂的传输类型。例如,一个ROM接口可能仅需要地址、读数据和片选信号,而一 个高速存储器控制器可能需要支持流水的突发传输等其它信号。 分开的地址、数据和控制线提供最简单的片上逻辑接口,通过使用专用的地 址和数据路径,Avalon#b设不需要对数据和地址周期进行译码。Avalon总线支持同 步操作,为同步的片上外设提供优化的接口,同步操作简化了Avalon接口的时序, 方便与高速外设的集成。Avalon接口是一种开放标准,使用Avalon接口创建和发布 定制外设不需要任何授权。 在此介绍Avalon总线的原因在于:片内总线是板极嵌入式系统涉及不到的领 域,而对于基于IP软核的SoPC嵌入式系统的设计人员来说,片内总线又是十分重 要的。本系统需集成FFT和语音采集自定义组件,要注意它们和Avalon总线接口的 连接,从而合理的设计这些组件。 2.5 说话人确认可结合选定平台及技术的特点 在选定的平台DE2.70上,结合上面的技术, 实现说话人确认系统,具有以 下特点: 1)丰富的外设接口使得外设接入系统比较容易 DE2.70平台有较丰富的接口,如串口、LED、按键、PIO等,在此平台开发 时连接标准接口的外设比较方便,不必再自行开发接口电路及驱动。 2)嵌入式的NiosII处理器可以实现可重配置 嵌入式的NiosII处理器可以按照用户的需求进行裁减、配置,达到性能和逻 2.6 本章小结 本章阐述了系统平台选择的出发点及基于此平台要用到的关键技术:IP核复 用技术和NiosII软核处理器及系统总线协议。指明说话人确认可结合此平台及技 术的优势所在。在接下来几章中会介绍在说话人确认系统中如何灵活应用本章阐 述的技术。 12 3说话人确认系统的组成及核心算法 本章将阐述系统说话人确认算法的选择,及基于此算法的系统的组成,对核 心的算法给出简要的介绍,最后分析了算法的复杂度,为后面的系统硬件加速作 准备。 3.1 说话人确认算法选择 按照识别的方法分类,目前的声纹识别可以分为模版匹配法、概率模型法、 神经网络法I’l: (1)模板匹配法 在训练过程中从每个说话人发出的训练语句中提取相应的特征矢量,这些特 征矢量能够充分地描写各个说话人的行为,称之为参考模板。在测试阶段,从说 话人发出的语音信号中按同样的处理方法提取测试模板,并且与其相应的参考模 板相比较,根据两者之间的匹配程度作出相应的判决。此方法中包含的方法有: 动态时间规整法(DTW), 矢量量化法(VQ)等。 (2)概率模型法 与模板匹配方法相比,概率模型方法更具灵活性,并且在理论上其似然概率得 分更有意义。概率模型和模板匹配不同的是,它不是根据平均特征(模板)来建 模的,而是根据概率分布来建模的;同时,它不是根据和模板的距离来判定类别, 而是根据概率或者似然值进行判别。此方法中包括了:高斯混合模型法(GMM), 隐马尔可夫模型法(HMM:HiddenMarkovModel)等。 (3)神经网络法 神经网络法不是为每个说话人训练一个模型,而是训练出一个判决函数来区 分一个训练集内的不同说话人,所以当每次有新成员加入训练集时,需要重新训 练整个网络。 DTW需要进行时间规整,VQ方法在限定说话者使用较小词汇(比如数字)时, 效果相当,但由于码书大小的限制,不易直接扩展到无限制文本的情况lloI;概率 模型能较好的为声学特征建模,并有一定的处理噪声和信道变异的能力,因此 HMM及各种变化形式在文本相关及无关的说话人识别中都获得很好的应用。但是 实际证明了使用GMM(单状态HMM)模型效果更好一些l加l。使用GMM作为说话 人身份模型是因为:高斯成员代表了一般的基于说话人的声道频谱形状:对大多 数神经网络方法来讲,当需要增加一个新的说话人时,整个网络需重新训练111I。 因此本文选择用概率模型法为说线年代以后,特别是Reynolds对GMM做了详尽的介绍后,GMM以 其简单、灵活、有效以及较好的鲁棒性,迅速成为目前与文本无关的说话人识别 中的主流技术,将说话人识别研究带入一个新的阶段。2000年左右,Reynolds在说 话人确认任务中提出了UBM.MAP(UniversalBackgroundModel。MaximumA Posteriofi)结构1171,为说话人识别从实验室走向实用做出了重要贡献。UBM.MAP 降低了统计模型GMM对训练集的依赖,说话人模型训练只需少量的自适应语音, 并且增强了对训练条件和测试条件失配的鲁棒性。 本课题是采用GMM.UBM(高斯混合模型.全局背景模型)建立了说话人确认 系统,训练样本很大时,训练出的UBM可以作为说话人无关的声音特征分布,当 系统中需要增加一个新的说话人时,只需要提取此人的声音特征,与UBM进行训 练,得出此人的GMM,而不用再重新训练UBM。 3.2 说话人确认系统的组成 一个与文本无关的基于GMM.UBM的说话人确认系统构建包括三个部分:前 端信号处理,训练模型,打分模型。模型训练部分如图3.11121所示,打分测试模型 如图3.2,前端信号处理部分包括采样、量化、预加重、加窗、去掉无声段以及特 征提取等。 建立和应用说话人确认系统,分为两个阶段,即训练阶段和认证阶段。 注册 图3—1说话人确认系统的模型训练部分 Fig.3-1 themodel training sectionof Speaker Verifaetion system 在训练阶段(如图3.1),需要系统的每个使用者说出若干训练语句,系 此建立全局背景模型(UBM)和每个特定说话人的模型,从而得到全局背景 的参数(如图3-l CP斥J‰表示)和说线一l中用‰,表示 其中,UBM的训练过程是基于最大似然的迭代算法,目标说线 说话人确认系统用到的核心算法 3.3.1 声纹特征参数提取 从训练和测试数据的每个有效语音帧中获取一系列的特征参数,把这些由每 一帧得到的特征参数称为特征矢量(featurevector)。Mel倒谱特征参数利用了听 觉原理和倒谱的解相关特性,另外,也具有对卷积性信道失真进行补偿的能力。 因此,Mel倒谱被证明是在语音相关的识别任务中应用最成功的特征描述之一I”I。 Mel倒谱特征计算是基于语音信号的滤波器组分析,语音信号滤波器组分析的理论 依据是基于人对语音感知的两个基本事实:首先,人的大脑皮层对单个音调的感 知强度近似与该音调频率的对数成正比。Mel频率表达了一种常用的从语音频率 到“感知频率"的对应关系,在Mel频率域内人对音调的感知为线性关系,其表达 式如下i12l: 厶=2595109lo(1+f/700) 其次,对于复杂的语音信号,人耳不能有效地区分开某一中心频率附近一定带宽内语音信号的所有频率分量。只有当这个语音信号的某一成分落在一定的带宽之 外,才能被人耳有效地区分开来。这个带宽称为临界带宽(CriticalBandwidth)112l, 其计算方法如下: 曰形=25+7511+1.4(,=/1000)210。69(3-2) 其中7:为中心频率,这样,就可以构造临界频带滤波器组(CriticalBandwidth FilterBank)来模仿人耳的感知特性。临界频带滤波器组是指每个滤波器的中心频 率在Mel频率域内线性分布、带宽在临界带宽之内的一组滤波器。实际应用中, 通常把Mel频率做如下近似:对1000Hz以下的语音信号采用线Hz 以上的语音信号采用对数频率。这是同人耳的听觉机理相对应的。 图3-3提取肝cc结构图 Fig.3-3 Thechatof extractingMFCC 图3.3为提取MFCC的结构图,语音信号预处理后先进行快速傅利叶变换,将时 域信号变换成为信号的功率谱,接下来会被一系列滤波器的频率响应加权,这些 滤波器的中心频率和带宽与听觉临界边带滤波器大体上一致,以此来模拟人耳的 掩蔽效应。对滤波器输出的结果取对数,可以得到近似于同态变换的结果,离散 余弦变换(DCT:DiscreteCosineTransformation)用于去除各维信号之间的相关 性,将信号映射到低维空间。 3.3.2 GMM.UBM模型的建立 人体的发音器官和过程都是很复杂的,直接对人体的发音过程建立模型显然 是非常困难的,但我们可以把声音的产生抽象为一个随机过程(实际上是从声音 中提取出的特征参数在特征空间中的分布是一个随机过程),这样我们的发音过 程就可以建立一个概率模型,高斯混合模型即是这样一种模型,属于统计模式识 别的一种方法。对于文本相关的说话人模型,HMM性能较优,对于文本无关的说 话人模型,GMM是目前为止最成功的模型114I。 基于高斯混合模型的说话人识别的基本原理是对说话人集合中的每一个体建 立一个概率模型,不同人的概率模型的形式是一样的,不同的只是概率模型中的 参数,概率模型的参数是由说话人的特征参数分布决定的,因此表征了说话人的 身份。由说话人的特征参数求出概率模型中的参数的过程被称之为训练。这样说 16

  (信号与信息处理专业论文)基于SoPC技术的便携式说话人确认系统研究与实现基于,论文,技术,式说话人,式系统技术,系统实现,SOPC,处理系统,技术研究,技术实现

http://lenjproductions.com/shuohuarenqueren/319.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有