一、基于GMM的说话人识别系统研究(论文文献综述)
何建军[1](2021)在《安卓平台说话人识别系统的实现》文中认为本文在安卓平台上设计实现了基于GMM模型的说话人识别系统,完成了GMM模型参数的训练和识别过程。并基于TIMIT语料库,通过调整GMM阶数和测试人数,对基于GMM模型的说话人识别系统的时效性进行了验证分析。实验结果表明:(1) GMM模型的阶数越多,系统的识别时间越长;(2)测试人数越多,系统的识别时间越长。在GMM模型阶数不高以及使用人数不多的情况下,该说话人识别系统基本满足用户的使用需求。
何建军[2](2021)在《基于GMM的说话人识别系统研究及其MATLAB实现》文中认为为在嵌入式平台上实现说话人识别,分析研究说话人语音信号预处理、特征提取及GMM模型基本原理,并应用MATLAB实现基于GMM模型的说话人识别系统。基于TIMIT语料库,通过调整GMM阶数和语音时长,对系统性能进行验证分析。实验结果表明:(1)随着GMM模型阶数的增加,识别率随之提升,但计算量也急剧增加,当阶数达到16附近时,识别率则不再提升,反而出现了降低的趋势;(2)增加训练样本时长可从总体上提升识别率,但达到一定程度后便很难再继续提升。该结果对于在嵌入式平台上实现说话人识别具有较高参考价值。
伍三威[3](2021)在《基于卷积神经网络的说话人识别系统研究》文中研究说明随着人机交互技术的发展,计算机对于语音信号的识别已逐渐成为现代生活中必不可少的一环,在智能家居、金融保险、公共安全、电子通讯领域都有越来越多的需求。随着深度学习的发展,说话人识别技术近年来进展突飞猛进,但是在文本无关的说话人识别任务中,依然存在着诸多难题和挑战,例如,实际应用中面临的短语音识别、方言识别、低资源识别、语音降噪、信道干扰消除等问题。本文主要基于卷积神经网络(CNN)搭建了三种说话人识别模型并加以融合,在短语音语种识别的场景(识别样本时长小于等于1秒)上得到更好的识别效果;通过拼接的方式,弥补已有说话人识别特征中缺失的时序依赖信息,验证对比预测编码(CPC)这种自监督学习方法提取到的特征在语种识别任务上的有效性。本文工作主要有以下几方面:第一,研究并实现了经典的机器学习的方法GMM-UBM(高斯混合模型-通用背景模型),通过EM(期望极大)算法和MAP(最大后验概率估计)自适应算法训练并提取得到I-vector特征,并通过几种不同的后端打分方式,cosine打分、逻辑回归打分、LDA(线性判别分析)打分、LDA+PLDA(概率线性判别分析)打分,得到EER(等错误率)最佳时的效果基线。第二,针对I-vector在大数据集和短语音识别上表现欠佳,且经典的深度学习模型D-vector和X-vector计算量大的问题,提出基于一维空洞卷积神经网络Encoder(编码器)的设计,来完成帧级别的说话人特征提取,并基于该编码器搭建出完整的基于卷积神经网络的说话人识别系统D-vector和X-vector的训练网络。训练完成后的测试效果(EER分别为13.85%和11.57%),均达到比经典的I-vector方法(EER最优16.87%)更好,验证了该卷积神经网络编码器结构的有效性。第三,为使现有的说话人识别系统(D-vector、X-vector)能够更好地结合帧与帧之间的依赖关系来实现说话人识别,本文基于卷积神经网络编码器及自回归模型GRU得到对比预测编码(Contrastive Predictive Coding,CPC),并在短语音语种识别的实验上验证该自监督学习的模型提取到的特征能够较好地补充现有的系统所提取到的说话人特征中缺失的时序信息。实验中拼接该CPC的Ct特征后,在原有的D-vector和X-vector基础上均达到更好的识别效果(EER 12.89%和11.09%)。
斯星童[4](2021)在《基于深度学习的多说话人识别技术研究与实现》文中进行了进一步梳理随着人工智能时代的不断发展,越来越多的服务机器人在人们的生产生活中扮演重要的角色。说话人识别技术是人机交互领域的重要组成部分,然而在实际应用中单人的说话人识别模型无法满足多人对话的复杂场景。为了能让人与服务机器人更智能地进行交互,本文使用流行的深度学习算法,针对多说话人识别系统中的不足进行研究并加以改进,实现了一个基于语音的多说话人识别系统,并在真实环境下验证了系统的有效性和可行性。首先,针对常见的特征提取算法中采用梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)作为说话人特征,会造成部分高频信息丢失,从而导致系统识别率不高、鲁棒性较差的问题,本文提出了一种基于梅尔频率增强谱(Mel Frequency Enhanced Coefficients,MFEC)变换的三维数据结构说话人特征,该特征取消了MFCC变换中的离散余弦变换(Discrete Cosine Transform,DCT),通过融合伽马通频率倒谱系数(Gammatone Frequency Cepstral Coefficient,GFCC)变换得到一种鲁棒性更强的说话人特征。实验结果表明,本文提出的三维说话人特征能够降低系统的识别错误率。其次,本文以卷积神经网络(Convolutional Neural Networks,CNN)作为说话人声学模型的研究对象,针对该模型随着网络的层数增多以及固定卷积长度的参数设置,会使模型出现忽略浅层网络学习信息的现象和训练时间过长的问题,本文提出一种改进的3D卷积联合长短期记忆神经声学模型(3D Convolutional Neural Networks and Long Short-Term Memory,3DCNN-LSTM),该模型将本文提出的三维数据结构的说话人特征作为输入,改进的声学模型能够提取说话人深层特征信息并加强学习说话人语音的上下文内容。实验结果表明,3DCNN-LSTM有效降低了系统的识别错误率且在不同的语音时长下鲁棒性能更好。最后,本文在智能轮椅上完成多说话人识别系统的集成实现,将配置环境移植到智能轮椅的Jetson Nano开发板上进行实验测试,测试结果表明本文提出的三维说话人特征以及3DCNN-LSTM声学模型在智能轮椅上具有有效性。
魏林强[5](2021)在《声纹攻击检测方法研究》文中认为声纹攻击检测技术是在声纹识别快速发展后需要被极大关注的一个热点,当今时代,声纹识别越来越广泛地应用于各大领域,相关研究表明,声纹识别技术受到恶意欺诈攻击变得极为容易,主要分为合成攻击和回放攻击。随着攻击手段更加方便有效,声纹识别系统的应用和推广面临很大的威胁,因此研究检测合成和回放语音攻击的系统具有迫切需求和重大意义。本文主要围绕合成语音攻击和回放语音攻击两个方面进行了相关检测算法研究。主要体现在以下三个方面:首先对语音特征进行了探索,提出了能够区分攻击语音和真实语音的新型特征,主要分为两大类,一类是基于残差信号的特征,分别为残差线性频率倒谱系数(RLFCC)、残差常数Q倒谱系数(RCQCC)和残差对数功率谱(RLog Spec);一类是基于谐波加噪声模型的新型特征,为谐波噪声子带能量比特征(HNSER)。然后,分别在合成语音攻击和回放语音攻击两个场景下构建了基于高斯混合模型(GMM)和轻量型卷积神经网络(LCNN)的检测系统。最后,在前面研究工作的基础上,进一步展开探索,提出了混合攻击语音检测算法。本文提出的研究方法均在2019年国际自动说话人确认欺骗攻击评测(ASVSPOOF2019)的任务和数据集上进行了实验分析和验证。首先本论文对提出的两类新型特征进行了重要性分析,结果表明提出的新型特征区分性较好。实验结果表明,本文所提出的基于RLFCC-GMM、RCQCC-GMM和RLog SpecLCNN的检测系统相比于官方提供的基线系统的等错误概率(EER)分别降低了20%、10%和52%左右,表明提出的新型特征在检测合成转换语音和回放攻击语音方面有一定的优越性,能够很好的区分攻击语音和真实语音。虽然基于HNSER-GMM的检测系统相比于官方提供的基线系统的EER没有降低,但是考虑到特征之间的互补性,在前面单系统实验的基础上,不同的系统通过得分融合技术,得到的结果相比于基线系统的EER降低了30%以上,由此结果可知不同系统之间有信息的互补性。最后,在前面实验的基础上分析了混合攻击存在的问题,在未知攻击方式的前提下,从多系统得分融合的角度构建了混合攻击检测系统,其结果相比于基线系统的性能提高了90%左右。综上所述,本文在新型特征和混合攻击检测系统方面的研究为以后声纹攻击检测技术的发展提供了一定的理论参考和实践指导。
刘余[6](2021)在《基于神经网络特征映射的声纹识别技术研究与实现》文中研究说明声纹识别技术在司法鉴定、军事安全、金融防欺诈等多个领域得到应用,但是在实际应用环境中,各种各样影响语音质量的背景噪声,使得实际工程应用中的声纹识别系统效果达不到理想要求,成为限制声纹识别技术发展的重要因素。因此,论文围绕声纹识别技术在噪声环境下的识别率提升问题开展研究工作。受到基于神经网络的特征映射方法在语音增强以及鲁棒性语音识别领域相关研究的启发,论文将基于神经网络的特征映射方法应用在鲁棒性声纹识别系统中。论文使用人工构造的平行语料数据集以最小均方误差为目标函数训练深层神经网络(Deep Neural Network,DNN),使其学习含噪语音对数功率谱特征和干净语音Fbanks特征之间的映射关系。训练好的DNN模型作为一个特征提取器被应用于声纹识别系统的特征提取过程。实验结果表明,在信噪比较低的条件下DNN输出特征性能高于传统鲁棒性特征,而在信噪比较高的时候DNN输出特征的性能不如传统鲁棒性特征,受最小均方误差目标函数的影响,DNN输出的特征无法在各个信噪比下都获得优于传统鲁棒性特征的性能。为了解决最小均方误差目标函数引起的问题,将DNN替换为Wasserstein生成对抗网络(Wasserstein Generative Adversarial Network,WGAN)。WGAN通过Wasserstein距离去衡量生成数据分布和真实数据分布之间的距离,使得神经网络可以更好的学习特征之间的映射关系,实验表明,在0d B、5d B、10d B、15d B、20d B的测试条件下,与传统鲁棒性特征相比,以GMM-UBM作为识别模型,FMWGAN(Feature Mapping WGAN)输出的特征(FMWGAN-MFCC)在各个信噪比下的识别率分别提高了13%、7.3%、6.7%、6.8%、6.3%;以身份向量(i-vector)作为识别模型,在各个信噪比下的识别率分别提高了5.5%、1.9%、1%、1.2%、0.6%。论文设计了一款声纹识别程序,将论文训练得到的神经网络模型应用到声纹识别程序的实现中,程序开发完成后在实际环境中对程序进行了相应的性能评估和测试。从仿真实验和实际测试来看,基于FMWGAN-MFCC的声纹识别系统相较于基于传统鲁棒性特征的声纹识别系统在噪声环境下具有更高的识别率,可以一定程度上解决噪声环境下声纹识别系统识别率下降的问题。
李佰玲[7](2021)在《说话人识别聚类算法研究》文中研究表明随着科技的进步和人工智能的发展,互联网和信息技术在生活中得到广泛应用。说话人识别聚类是语音信号处理的一个研究方向,它的任务是在多个说话人分时说话的语音音频文件中识别说话人边界和说话人身份,使得相同的说话人被标记为同一类,且每一类中只包含一个说话人。说话人识别聚类通常使用说话人的嵌入向量来聚集音频片段,如i-vector。近年来,由于深度学习的快速发展,基于深度网络的d-vector嵌入向量在这个领域也得到快速发展,但还有待提高。以GMMUBM模型获得的GMM矢量与聚类算法结合作为基线,本文将提出一种基于avector作为说话人嵌入向量的说话人识别聚类算法,在说话人嵌入特征提取、说话人聚类算法方面进行研究。本文的主要工作如下:第一,针对当前语音识别领域常采用的MFCC特征经过降维处理而存在过度加工的问题,采用梅尔语谱特征作为卷积神经网络的输入特征,保留更多的语音信息。第二,针对说话人特征提取网络中会忽略全局语音帧的相关性的问题,本文提出了一种基于多头注意力机制的a-vector提取方法。搭建基于CNN的说话人特征提取网络,为获得更好的效果,借助Resnet的思想改进说话人特征提取网络。结合语音数据的特点,在网络中引入多头注意力结构和修改交叉损失函数,以此获取不同特征图的权重矩阵,增强语音中说话人特征的区分程度。在相同的数据下,基于Resnet改进的网络比CNN的识别率提高了3%。这证明基于Resnet改进的说话人特征提取网络提取的a-vector表征说话人嵌入特征的质量会更好。第三,传统的聚类算法由于参数的选择、数据点的分布特点和聚类中心距离差距大等问题而影响聚类效果,提出一种基于特征间隔改进的说话人谱聚类算法。它能够自动估计聚类数目,且在任意分布的数据空间达到更高的聚类质量;本文对谱聚类中的相似度矩阵进行优化,可获得聚类数目和聚类中心,从而更好的识别说话人人数和分类。实验结果表明,改进的聚类算法具有更好的聚类质量。第四,联合说话人特征提取和说话人聚类模块,搭建说话人识别聚类系统。本文将不同的嵌入向量与不同的聚类算法结合进行实验,在相同的数据集下,a-vector与改进的说话人谱聚类算法相结合时比基线系统获得更低的错误率。
赵宏运[8](2021)在《基于附加间隔Softmax损失函数的CNN-GRU模型说话人识别研究》文中研究指明语言是人类最便捷的一种信息交流载体。由于人们的发声器官在大小、形状、发声方式等方面均存在生理差异。这些生理的差异表现为人类所发出语音信号波形的差异。而针对人的声音特性进行身份识别的技术被称为说话人识别。说话人识别同人脸识别、指纹识别一样都属于生物特征识别的一种,与其他特征方式相比,说话人识别系统更加便利、成本低廉,所以成为诸多公司和学者的研究重点。本课题研究内容为,如何提升说话人识别在应用场景中由于语音数据质量、环境因素限制所导致的识别率低的问题,满足说话人模型的区分性要求,对说话人识别进行研究。为改进现有说话人识别技术,使说话人系统获得更高的识别率,本文从提升分类模型区分性角度,以缩小同类样本特征距离,同时扩大不同类样本特征的间距为目的,提高模型区分性,阐述了Softmax、Center-loss、A-Softmax及AM-Softmax损失函数的理论方法;介绍了CNN与GRU网络模型的特性,搭建CNN-GRU融合模型,并基于CNN-GRU说话人识别模型进行实验,对比采用不同损失函数时模型的识别效果,给出了结合附加间隔Softmax损失函数的模型方案。分析附加间隔Softmax参数设置与说话人系统识别率的关系,得出适用于本文的间隔参数。研究表明,采用本文方法对比GMM-UBM、DNN、LSTM模型,在说话人确认与说话人辨认两种任务进行测试,所得结果的等错误率与识别率优于其它基础模型,等错误率为4.48%,识别率为99.18%。对说话人识别系统存在干扰因素条件下模型的鲁棒性进行研究。探讨了Spec Augment数据增强方法相对于传统声波数据增强的优势,提出了使用Spec Augment数据增强训练说话人模型的方案,以提升模型对抗外界干扰的能力。在进行实验的过程中,设置了两种增强方式:(1)增强部分说话人的语音数据;(2)增强每个说话人语音数据中的部分语音。尝试采用两种方案训练模型,选择实现模型鲁棒性要求的最佳训练准则。研究表明,本文模型在两种训练方案均有较好的表现,采用数据增强后的训练模型相比于正常训练的模型等错误率下降了约13~16%,证明本文方法能够满足说话人识别鲁棒性需求。
邹博[9](2020)在《基于融合特征的说话人识别技术研究》文中研究指明语音是人类日常生活中获取和传递消息最为便捷的一种主要媒介,它携带着丰富的信息。由于每个人的声道结构在出生时就被决定,并且每个人都是独一无二的,这使得利用说话人的声音来辨别身份的生物技术成为了现实。在生物识别领域中,影响识别结果的两个重要因素分别是分类模型和特征参数,一旦选定了所用的模型,识别性能主要依赖于特征参数的选择。高质量的特征参数不仅可以减少系统的误判概率,并且还能够缩短训练模型和分类所用的时间。因此,从语音信号中提炼出与说话人身份具有高度相关性的特征是一个重要的研究课题。针对上述问题,本文提出了基于深浅层融合特征的说话人识别系统以及基于优化权系数融合特征的说话人识别系统。本文开展的研究如下:(1)首先对说话人识别相关的研究背景以及工作意义进行充分了解,然后阐述了说话人识别的基本知识,主要包括本文所用到的语音预处理技术、声学特征参数MFCC提取的具体流程、SVM分类器的原理。另外,为了去除特征中可能包含的冗余信息,引入了两种特征筛选策略,为后续展开的研究提供技术基础。(2)为了找到一种鲁棒性更强并能够全面对说话人身份信息进行表征的特征,本文在对GMM和DNN深入研究后,提出了一种基于深浅层融合特征的说话人识别系统。传统特征表示的是有关声道结构方面的物理信息,它是一种浅层的表述,而DNN挖掘的是更深层的特征,是一种更为抽象的描述,将它们融合能够使得性能互补。该方法首先提取MFCC参数然后分别利用两个不同分支进行进一步处理。一方面输入到DNN中来提取深度特征并进一步通过GMM获取深度高斯超矢量,另一方面直接通过GMM获得传统高斯超矢量。最后将二者水平拼接组成一种新的特征,基于该特征对SVM进行训练和对说话人身份进行辨认。通过实验仿真发现,所提出的融合特征能够有效地提升识别率。(3)当说话人的个数增加时,系统的识别率将会降低。另外,在基于融合特征的说话人识别系统中,不同特征对最后的识别结果贡献程度不同。为了更加准确对其进行衡量,通过对两种寻优算法进行研究,提出了基于优化权系数融合特征的说话人识别系统。在对三种特征进行融合前,先利用GA或者SA算法对各自的权重系数进行寻优,然后乘以对应的系数进行融合来构建一种新的说话人识别系统。通过实验结果表明,对特征进行加权再进行融合的识别性能要优于直接进行融合时的特征性能。
马超峰[10](2020)在《深度学习框架下鲁棒性说话人识别方法研究》文中研究说明说话人识别,作为生物特征识别的重要组成部分,广泛应用于军队安全系统、公安司法、生物医学工程等领域。目前,在安静的实验室环境下以及语音数据充足的条件下,说话人识别技术已经达到令人满意的效果。然而,实际应用环境无法预测,导致说话人识别系统鲁棒性差。因此,本文以提升说话人识别方法在噪声情况下的鲁棒性为出发点,针对说话人识别中特征表达能力不足、模型区分性不够、传统方法中各个模块相互独立训练的问题,提出以下解决方案:1)基于深浅层特征融合的鲁棒性说话人识别方法;2)基于深度模型的鲁棒性说话人识别后端分类决策方法;3)基于端到端联合优化及决策的鲁棒性说话人识别方法。1)针对说话人识别中特征表达能力不足这一问题,本文提出基于深浅层特征融合的鲁棒性说话人识别方法。该方法将经深度神经网络处理过的分块MFCC特征作为深层特征,将高斯均值超矢量作为浅层特征,随即融合两种特征向量,得到包含更多信息、更具鲁棒性的融合特征。鉴于深、浅层特征从不同层面反映说话人信息,通过实现深、浅层特征之间互补的有效融合,从而可以更加全面地表征说话人。此外,为了更好利用特征块之间的关联性,在决策过程引入“投票法”决策机制,进一步提升系统的鲁棒性。2)针对说话人识别中模型区分性不够这一问题,本文提出基于深度模型的鲁棒性说话人识别后端分类决策方法。在高斯均值超矢量特征的基础上,将不同的深度模型作为说话人识别的后端,探究其对传统说话人特征的分类决策能力,确定最佳的分类模型。利用其优秀的分类能力,有效提炼出语音片段里所蕴含的更深层次、更有价值的信息,从而得到鲁棒性更高的说话人识别系统。3)针对传统方法中各个模块相互独立训练这一问题,本文提出基于端到端联合优化及决策的鲁棒性说话人识别方法。首先,采用自定义的滤波器替代卷积网络中的卷积核。其次,构建基于自注意力机制的深度残差网络。最后,通过将传统说话人识别中的特征提取和模型匹配统一到深度模型结构中,以此实现参数的联合优化,同时提升噪声环境下的系统性能。
二、基于GMM的说话人识别系统研究(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、基于GMM的说话人识别系统研究(论文提纲范文)
(1)安卓平台说话人识别系统的实现(论文提纲范文)
引言: |
一、说话人识别技术 |
二、系统实现及实验结果分析 |
2.1系统在安卓平台的实现 |
2.1.1软件开发环境 |
2.1.2用户界面 |
2.1.3语音数据 |
2.1.4特征提取 |
2.1.5模型训练/识别 |
2.1.6模型参数存取 |
2.1.7权限声明 |
2.2实验结果分析 |
2.2.1实验环境 |
2.2.2 GMM模型的阶数对系统时效性的影响 |
2.2.3测试人数对系统时效性的影响 |
四、结束语 |
(2)基于GMM的说话人识别系统研究及其MATLAB实现(论文提纲范文)
0 引言 |
1 相关研究 |
2 说话人识别系统 |
2.1 说话人识别系统基本结构 |
2.2 语音信号预处理 |
2.2.1 采样与量化 |
2.2.2 语音信号预加重 |
2.2.3 语音信号加窗分帧 |
2.3 语音信号特征提取 |
2.3.1 线性预测系数(LPC) |
2.3.2 美尔倒谱特征(MFCC) |
2.4 高斯混合模型 |
2.4.1 模型描述 |
2.4.2 模型参数估计 |
2.4.3 模型参数初始化 |
2.4.4 识别判决 |
3 系统实现 |
3.1 实验环境 |
3.2 语音库 |
3.3 系统在MATLAB下的实现 |
3.4 训练阶段 |
3.5 识别阶段 |
3.6 系统性能 |
3.7 实验结果分析 |
3.7.1 GMM模型阶数对系统识别性能的影响 |
3.7.2 训练语音时长对系统识别性能的影响 |
4 结语 |
(3)基于卷积神经网络的说话人识别系统研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 说话人识别系统的概念 |
1.2 说话人识别系统的研究背景 |
1.2.1 说话人识别的历史和现状 |
1.2.2 说话人识别的应用 |
1.3 说话人识别系统的关键 |
1.4 主要研究内容和结构 |
第二章 说话人识别系统的基本框架及模型 |
2.1 说话人识别的基本框架 |
2.2 语音特征的提取 |
2.2.1 语音数据的采集 |
2.2.2 特征参数提取 |
2.2.3 语音活性检测 |
2.3 传统说话人识别模型 |
2.3.1 GMM-UBM |
2.3.2 I-vector |
2.3.3 LDA/PLDA打分 |
2.4 本章小结 |
第三章 基于CNN的 D-vector和 X-vector说话人识别编码器设计 |
3.1 卷积神经网络与编码器 |
3.1.1 一维空洞卷积 |
3.1.2 编码器和Bottleneck特征 |
3.2 D-vector模型和特征 |
3.3 X-vector模型和特征 |
3.4 本章小结 |
第四章 基于CNN和 CPC特征融合的说话人识别系统设计 |
4.1 CPC模型和特征 |
4.1.1 自回归模型GRU |
4.1.2 基于CNN编码器的CPC模型 |
4.2 基于CPC特征融合的说话人识别 |
4.3 本章小结 |
第五章 短语音语种数据实验结果 |
5.1 实验数据和环境 |
5.2 打分方式和评价指标 |
5.2.1 cosine距离打分 |
5.2.2 逻辑回归打分 |
5.2.3 其它打分 |
5.2.4 评价指标 |
5.3 I-vector实验 |
5.4 D-vector和 X-vector实验 |
5.5 拼接CPC特征的说话人识别实验 |
5.6 实验结果分析 |
5.7 本章小结 |
第六章 总结与展望 |
参考文献 |
致谢 |
在学期间成果 |
(4)基于深度学习的多说话人识别技术研究与实现(论文提纲范文)
摘要 |
abstract |
第1章 引言 |
1.1 课题研究背景和意义 |
1.2 多说话人识别研究现状 |
1.3 论文课题来源与课题的主要内容 |
1.3.1 课题来源 |
1.3.2 论文的主要研究内容 |
1.4 本章小结 |
第2章 多说话人识别系统的总体框架设计 |
2.1 多说话人识别的系统框架 |
2.2 多说话人语音的分割聚类 |
2.2.1 有效语音检测 |
2.2.2 语音分割 |
2.2.3 语音聚类 |
2.3 说话人语音的预处理 |
2.3.1 预加重 |
2.3.2 分帧加窗 |
2.4 说话人特征提取 |
2.5 说话人识别模型 |
2.6 打分评判机制 |
2.6.1 基于概率度量相似度的判别分析方法 |
2.6.2 基于距离度量相似度的判别分析方法 |
2.7 多说话人识别性能评价指标 |
2.7.1 错误接受率和错误拒绝率 |
2.7.2 等错误率 |
2.8 本章小结 |
第3章 改进的三维数据结构的说话人特征 |
3.1 常用特征 |
3.1.1 梅尔频率倒谱系数(MFCC) |
3.1.2 身份认证矢量(i-vector) |
3.1.3 Embedding特征矢量 |
3.2 基于MFEC变换的说话人特征 |
3.2.1 语音“半文本化”处理 |
3.2.2 MFEC变换流程 |
3.2.3 说话人三维数据结构特征 |
3.3 实验结果及分析 |
3.3.1 实验参数设置 |
3.3.2 模型的训练 |
3.3.3 有效性对比 |
3.4 本章小结 |
第4章 基于深度学习的3DCNN-LSTM声学模型 |
4.1 声学模型 |
4.1.1 高斯混合模型(GMM) |
4.1.2 高斯混合-通用背景模型(GMM-UBM) |
4.1.3 i-vector模型 |
4.1.4 深度学习模型 |
4.2 3D卷积联合长短期记忆神经网络(3DCNN-LSTM) |
4.2.1 改进的3D卷积神经网路(3DCNN) |
4.2.2 长短期记忆神经网络(LSTM) |
4.3 实验结果及分析 |
4.3.1 参数设置 |
4.3.2 有效性对比 |
4.4 本章小结 |
第5章 多说话人识别系统在智能轮椅中的应用 |
5.1 多说话人识别系统设计 |
5.1.1 上位机的设计 |
5.1.2 下位机的设计 |
5.2 系统的集成实现 |
5.3 实验结果及分析 |
5.3.1 不同数量的说话人对系统识别性能的影响 |
5.3.2 不同语音时长的多说话人对系统识别性能的影响 |
5.4 本章小结 |
第6章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
攻读硕士学位期间从事的科研工作及取得的成果 |
(5)声纹攻击检测方法研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 论文主要内容和章节安排 |
第2章 基线系统 |
2.1 引言 |
2.2 特征提取 |
2.2.1 线性频率倒谱系数 |
2.2.2 常数Q倒谱系数 |
2.3 高斯混合模型 |
2.4 系统评价指标 |
2.4.1 等错误概率 |
2.4.2 串联检测代价函数 |
2.5 实验结果与分析 |
2.5.1 数据库简介 |
2.5.2 LFCC-GMM系统 |
2.5.3 CQCC-GMM系统 |
2.6 本章小结 |
第3章 鲁棒性声学特征提取 |
3.1 残差特征提取 |
3.1.1 提取算法 |
3.1.2 特征重要性分析 |
3.2 基于谐波加噪声的特征提取 |
3.2.1 谐波加噪声模型 |
3.2.2 HNSER特征提取 |
3.3 实验结果及分析 |
3.4 本章小结 |
第4章 基于深度神经网络的声纹攻击检测 |
4.1 轻量级卷积神经网络 |
4.1.1 网络结构 |
4.1.2 训练 |
4.1.3 模型优化 |
4.2 基于LCNN的检测系统 |
4.2.1 系统架构 |
4.2.2 实验结果及分析 |
4.3 本章小结 |
第5章 混合攻击检测系统 |
5.1 问题的提出 |
5.2 现有系统混合攻击性能分析 |
5.3 系统构建 |
5.4 实验结果及分析 |
5.5 本章小结 |
第6章 总结和展望 |
6.1 本文总结 |
6.2 展望 |
参考文献 |
攻读学位期间取得的研究成果 |
致谢 |
(6)基于神经网络特征映射的声纹识别技术研究与实现(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.3 本文研究内容 |
1.4 论文章节安排 |
第二章 相关理论基础 |
2.1 传统单通道语音去噪算法 |
2.1.1 谱减法 |
2.1.2 维纳滤波法 |
2.1.3 OMLSA算法 |
2.2 声纹识别基础理论 |
2.2.1 预处理 |
2.2.2 语音特征参数 |
2.2.3 识别模型 |
2.3 神经网络基础理论 |
2.3.1 全连接神经网络 |
2.3.2 生成对抗神经网络 |
2.4 声纹识别系统性能的评测准则 |
2.5 本章小结 |
第三章 基于深层神经网络的特征映射 |
3.1 系统总体框架 |
3.2 FMDNN的模型结构与输入输出 |
3.3 FMDNN的训练过程 |
3.4 仿真实验和结果分析 |
3.4.1 实验配置 |
3.4.2 实验结果分析 |
3.5 本章小结 |
第四章 基于Wasserstein生成对抗神经网络的特征映射 |
4.1 Wasserstein生成对抗神经网络 |
4.2 基于FMWGAN的特征映射 |
4.3 仿真实验和结果分析 |
4.4 本章小结 |
第五章 声纹识别程序的实现与测试 |
5.1 程序功能需求和性能需求分析 |
5.1.1 程序功能需求分析 |
5.1.2 系统性能需求分析 |
5.2 声纹识别程序系统设计 |
5.2.1 系统结构设计 |
5.2.2 系统功能设计 |
5.3 系统的实现 |
5.3.1 系统开发环境 |
5.3.2 语音采集模块实现 |
5.3.3 预处理模块及特征提取模块的实现 |
5.3.4 用户声纹信息注册模块的实现 |
5.3.5 说话人识别模块实现 |
5.3.6 连续语音说话人识别模块的实现 |
5.4 程序测试 |
5.4.1 程序功能测试 |
5.4.2 程序性能测试 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 论文总结 |
6.2 后续展望 |
致谢 |
参考文献 |
(7)说话人识别聚类算法研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.2.1 说话人识别研究进展 |
1.2.2 说话人聚类研究进展 |
1.3 研究目标与研究内容 |
1.4 论文内容安排 |
第二章 说话人识别基础 |
2.1 语音信号预处理 |
2.2 语音信号特征提取 |
2.2.1 梅尔频率倒谱系数 |
2.2.2 MFCC提取过程 |
2.3 GMM-UBM模型 |
2.4 系统的评价标准 |
2.5 本章小结 |
第三章 基于神经网络的说话人嵌入特征提取方法 |
3.1 基于卷积神经网络的说话人嵌入特征方案设计 |
3.1.1 卷积神经网络 |
3.1.2 梅尔语谱图特征提取 |
3.1.3 CNN模型的方案设计 |
3.2 基于Resnet改进的说话人嵌入特征方案设计 |
3.2.1 残差块 |
3.2.2 注意力机制 |
3.2.3 基于Resnet改进的网络设计 |
3.3 实验结果与分析 |
3.3.1 实验条件 |
3.3.2 说话人嵌入特征提取网络的实现 |
3.3.3 网络参数的选取 |
3.4 本章小结 |
第四章 说话人聚类算法研究 |
4.1 说话人聚类算法 |
4.1.1 层次聚类 |
4.1.2 近邻传播聚类 |
4.1.3 谱聚类 |
4.1.4 对不同聚类算法的分析 |
4.2 改进的基于特征间隔的谱聚类算法 |
4.2.1 构建相似度矩阵 |
4.2.2 自动估计聚类数目 |
4.2.3 谱聚类算法的优化与实现 |
4.3 实验结果与分析 |
4.3.1 实验条件 |
4.3.2 不同聚类算法的对比 |
4.4 本章小结 |
第五章 说话人识别聚类系统搭建及实验验证 |
5.1 说话人识别聚类系统 |
5.2 实验方案 |
5.2.1 基于GMM的说话人识别聚类实现 |
5.2.2 基于d-vector的说话人识别聚类实现 |
5.2.3 基于a-vector的说话人识别聚类实现 |
5.3 实验结果分析 |
5.4 本章小结 |
第六章 总结与展望 |
致谢 |
参考文献 |
(8)基于附加间隔Softmax损失函数的CNN-GRU模型说话人识别研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题研究的背景及意义 |
1.2 说话人识别技术的研究现状及趋势 |
1.2.1 说话人识别技术的发展 |
1.2.2 说话人识别在深度学习中的发展及问题 |
1.3 本文研究的主要内容 |
第2章 说话人识别的基础理论 |
2.1 说话人识别的基本原理 |
2.1.1 基本原理介绍 |
2.1.2 语音预处理 |
2.1.3 语音特征提取 |
2.2 说话人识别模型理论 |
2.2.1 GMM-UBM方法 |
2.2.2 深度神经网络方法 |
2.3 深度网络损失函数基础 |
2.3.1 Softmax损失函数 |
2.3.2 中心损失函数 |
2.3.3 A-Softmax损失函数 |
2.4 本章小结 |
第3章 基于CNN-GRU融合模型的说话人识别研究 |
3.1 CNN卷积神经网络 |
3.2 循环门控单元 |
3.3 模型搭建 |
3.3.1 AM-Softmax损失函数 |
3.3.2 AM-CNN-GRU神经网络 |
3.4 不同损失函数的对比 |
3.5 实验结果分析 |
3.5.1 实验环境与数据集 |
3.5.2 实验设计 |
3.5.3 评价指标 |
3.5.4 分类学习训练准则 |
3.5.5 不同损失函数的说话人识别研究 |
3.5.6 说话人识别模型对比 |
3.6 本章小结 |
第4章 基于说话人识别的鲁棒性研究 |
4.1 语音数据增强 |
4.2 Spec Augment数据增强方法 |
4.3 数据增强设计 |
4.4 实验结果分析 |
4.4.1 实验设计 |
4.4.2 说话人识别鲁棒性分析 |
4.5 本章小结 |
结论 |
参考文献 |
攻读硕士学位期间发表的学术论文及获得成果 |
致谢 |
(9)基于融合特征的说话人识别技术研究(论文提纲范文)
摘要 |
abstract |
专用术语注释表 |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 说话人识别的研究现状与发展 |
1.3 说话人识别技术现存问题 |
1.4 论文研究内容与结构安排 |
1.4.1 论文研究内容 |
1.4.2 论文结构安排 |
第二章 说话人识别基本理论 |
2.1 说话人识别的基本结构 |
2.2 语音信号的预处理技术 |
2.2.1 语音信号的采样 |
2.2.2 预加重 |
2.2.3 分帧和加窗 |
2.2.4 端点检测 |
2.3 语音特征参数的提取 |
2.4 支持向量机 |
2.5 常用特征降维策略 |
2.5.1 主成分分析 |
2.5.2 Fisher系数特征筛选 |
2.6 本章小结 |
第三章 基于深浅层融合特征的说话人识别 |
3.1 引言 |
3.2 传统语音特征 |
3.2.1 高斯混合模型 |
3.2.2 传统重组高斯超矢量 |
3.3 深度语音特征 |
3.3.1 深度神经网络相关理论 |
3.3.2 深度重组高斯超矢量 |
3.4 基于深浅层融合特征的说话人识别系统构建 |
3.5 实验结果仿真分析 |
3.5.1 实验环境与语料库 |
3.5.2 不同网络参数对系统性能的影响 |
3.5.3 高斯分量数对系统性能的影响 |
3.5.4 基于深度瓶颈特征和传统特征说话人性能对比 |
3.5.5 所提系统与其他方法性能的对比 |
3.5.6 不同特征降维方法对比实验 |
3.6 本章小结 |
第四章 基于优化权系数融合特征的说话人识别 |
4.1 引言 |
4.2 常用寻优算法 |
4.2.1 遗传算法 |
4.2.2 模拟退火算法 |
4.3 基于寻优算法融合特征的说话人识别系统构建 |
4.4 实验仿真与结果分析 |
4.4.1 不同算法参数对系统性能的影响 |
4.4.2 不同权值说话人识别性能对比 |
4.4.3 不同特征的性能对比 |
4.4.4 不同特征降维方法的性能对比 |
4.5 本章小结 |
第五章 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
附录1 攻读硕士学位期间撰写的论文 |
附录2 攻读硕士学位期间申请的专利 |
附录3 攻读硕士学位期间参加的科研项目 |
致谢 |
(10)深度学习框架下鲁棒性说话人识别方法研究(论文提纲范文)
摘要 |
Abstract |
第1章 引言 |
1.1 研究背景与意义 |
1.2 说话人识别研究发展历程及其鲁棒性问题分析 |
1.2.1 说话人识别发展历程 |
1.2.2 说话人识别中面临的鲁棒性问题 |
1.3 复杂环境下的鲁棒性说话人识别技术研究现状 |
1.3.1 基于传统方法的鲁棒性说话人识别技术研究 |
1.3.2 基于深度学习方法的鲁棒性说话人识别技术研究 |
1.4 主要研究内容和论文结构安排 |
第2章 鲁棒性说话人识别的研究框架 |
2.1 基本的鲁棒性说话人识别研究框架 |
2.2 鲁棒性说话人识别研究实验平台搭建 |
2.2.1 说话人识别研究数据准备 |
2.2.2 基于深度学习的说话人识别实验环境搭建 |
2.3 经典的说话人识别算法模型及其鲁棒性分析 |
2.3.1 基于GMM-UBM的说话人识别算法 |
2.3.2 基于GSV-SVM的说话人识别算法 |
2.3.3 基于i-vector的说话人识别算法 |
2.3.4 经典算法的鲁棒性实验探究和分析 |
2.4 本章小结 |
第3章 基于深浅层特征融合的鲁棒性说话人识别方法 |
3.1 基于深浅层特征融合的鲁棒性说话人识别方法 |
3.2 基于深层特征的说话人识别信息表达 |
3.2.1 MFCC特征参数提取 |
3.2.2 深度特征参数提取 |
3.3 基于浅层特征的说话人识别信息表达 |
3.3.1 高斯均值超矢量特征参数提取 |
3.4 支持向量机及“投票法”决策机制 |
3.4.1 支持向量机 |
3.4.2 “投票法”决策机制 |
3.5 实验设置与结果分析 |
3.5.1 数据集 |
3.5.2 参数设置 |
3.5.3 实验结果与分析 |
3.6 本章小结 |
第4章 基于深度模型的鲁棒性说话人识别后端分类决策方法 |
4.1 基于深度模型的鲁棒性说话人识别后端分类决策方法 |
4.2 基于深度模型的说话人识别后端决策分类模型 |
4.2.1 自编码器 |
4.2.2 卷积神经网络 |
4.2.3 神经网络模型的训练与识别 |
4.3 实验设置与结果分析 |
4.3.1 数据集 |
4.3.2 参数设置 |
4.3.3 实验结果与分析 |
4.4 本章小结 |
第5章 基于端到端联合优化及决策的鲁棒性说话人识别方法 |
5.1 基于端到端联合优化及决策的鲁棒性说话人识别方法 |
5.2 基于参数化带通滤波函数的自适应特征学习 |
5.3 基于自注意力机制的深度残差网络的后端建模和“投票法”决策方法 |
5.4 实验设置与结果分析 |
5.4.1 数据集 |
5.4.2 参数设置 |
5.4.3 实验结果与分析 |
5.5 本章小结 |
第6章 总结与展望 |
6.1 论文研究的内容总结 |
6.2 存在的问题和展望 |
参考文献 |
致谢 |
附录1 攻读硕士学位期间获得的成果奖励 |
附录2 攻读硕士学位期间参加的科研项目 |
四、基于GMM的说话人识别系统研究(论文参考文献)
- [1]安卓平台说话人识别系统的实现[J]. 何建军. 中国新通信, 2021(16)
- [2]基于GMM的说话人识别系统研究及其MATLAB实现[J]. 何建军. 软件导刊, 2021(08)
- [3]基于卷积神经网络的说话人识别系统研究[D]. 伍三威. 厦门理工学院, 2021(08)
- [4]基于深度学习的多说话人识别技术研究与实现[D]. 斯星童. 重庆邮电大学, 2021
- [5]声纹攻击检测方法研究[D]. 魏林强. 上海师范大学, 2021(07)
- [6]基于神经网络特征映射的声纹识别技术研究与实现[D]. 刘余. 电子科技大学, 2021(01)
- [7]说话人识别聚类算法研究[D]. 李佰玲. 电子科技大学, 2021(01)
- [8]基于附加间隔Softmax损失函数的CNN-GRU模型说话人识别研究[D]. 赵宏运. 哈尔滨理工大学, 2021
- [9]基于融合特征的说话人识别技术研究[D]. 邹博. 南京邮电大学, 2020(03)
- [10]深度学习框架下鲁棒性说话人识别方法研究[D]. 马超峰. 湖北工业大学, 2020(04)