第 53 届英特尔 ISEF 项目：语音中说话者情绪的计算机识别

一、第53届Intel ISEF项目:语音中说话人情绪的计算机识别（论文文献综述）

鲁辰喜^[1]（2021）在《基于背景知识的聊天系统研究与实现》文中提出随着现代计算机计算能力的大幅上升与互联网的普及带来的数据量巨幅增长,以深度学习为代表的新一代人工智能技术方兴未艾,其中自然语言处理技术也得到了飞速的发展。人机对话系统作为自然语言处理最受人期待的应用之一,也成为了研究的重点。人机对话系统是能够使用自然语言与人进行交谈的计算机程序,可以分为任务导向型与非任务导向型对话系统,任务导向型对话系统向用户提供点餐、定闹钟等软件系统的功能,非任务导向型对话系统则主要为用户提供闲聊等服务。本文主要研究基于知识的非任务型生成式对话系统,其在端到端生成式对话系统中引入了知识,以解决对话系统互动能力弱的问题。本文主要从以下两个方面对现有知识驱动的对话模型进行了改进:（1）提出了两步指代重写数据预处理模型。为了解决由于对话系统语义理解能力弱导致的对话准确性较差等问题,本文研究了语言中的指代不明问题,并提出了两步指代重写模型。模型将指代消除分为基于自注意力机制的指代识别步骤与基于自注意力机制的语句重写步骤,分别将模型中被省略的指代词找出于、将找出的省略词与问题语句合成重写。本文通过实验验证了两步指代重写模型的先进性。（2）提出了基于注意力机制的知识融入方法。为了解决对话回复信息多样性的问题,本文探讨了知识融入对话相关研究,并设计了基于注意力机制的知识融入模块。模块从知识选择器中获取相关知识,并使用上下文相关向量对知识进行注意力计算,使其筛选与上下文相关的知识,增进对话系统的知识融入能力。本文通过实验验证了基于注意力机制的知识融入方法的先进性。基于以上两点改进,本文提出了基于背景知识的生成式对话模型。模型使用了上下文编码器与知识编码器分别对对话上下文与其相关知识进行编码,并使用自注意力解码器进行解码。基于背景知识的生成式对话模型对对话系统在语义理解能力与互动性等多个方面均有实际提升效果,在后续的机器评测与人工评测实验中进行了证明。同时基于以上的工作,论文设计并实现了基于背景知识的聊天机器人平台,能够与用户进行有效的聊天交互。

詹展^[2]（2019）在《离线语音翻译技术》文中认为近几年来,人工智能成为了研究的热点。随着全球经济一体化,世界各国之间的交流愈加频繁,语言差异一直是全球化、国际旅行之间的一道语言鸿沟,给不同语言的人们之间的交流带来了严重障碍。语音翻译作为人工智能中的一个重要领域可以打破语言壁垒,提高各国人们之间的沟通能力。语音翻译技术涵盖了语音识别、机器翻译以及语音合成三大技术。论文主要以语音识别技术和机器翻译技术为研究对象,实现离线语音翻译。传统的语音识别是以高斯混合模型与隐马尔可夫模型相结合（GMM-HMM）进行声学建模,该模型成熟且稳定性高。但是GMM模型是一种浅层模型,对大规模语料数据集的建模能力很难有所提升。随着深度学习的兴起,深度神经网络（DNN）利用其自身独特的结构对复杂数据有更加强大的学习和建模能力。论文对GMM-HMM、DNN-HMM两种声学模型进行深入研究,并搭建离线语音识别系统;同时对基于短语的统计机器翻译进行研究,最后与语音识别系统相结合,实现了一个中英离线语音翻译系统;主要完成如下工作:（1）对语音识别的各个模块进行独立研究。其中主要研究对象有语音信号预处理,声学特征提取,声学、语言模型以及解码等相关技术。（2）对语音识别的鲁棒性进行了研究,重点研究了语音抗噪技术。利用小波变换对非平稳语音信号处理时具有多分辨率的良好特性,提出了一种基于对数的小波阈值去噪语音增强算法。通过相应的去噪实验,并与其他算法进行对比,以此来验证改进算法的有效性。（3）分析了GMM模型与DNN的结构与训练方式,对声学建模进行研究。先以GMM-HMM作为语音识别的基线系统,依次以单音素和三音素为声学单元建模;然后在此基础上建立DNN-HMM声学模型,通过实验对比分析研究了两种模型的识别性能,实验结果表明DNN模型优于GMM模型,在音素错误率和词错误率上下降了5.66%和3.48%。最后搭建了离线语音识别系统,并且测试了识别效果。（4）研究了采用Mel频率倒谱系数（MFCC）声学特征和Mel滤波器组（Fbank）声学特征分别作为训练DNN模型的输入数据,通过训练建立相应的DNN-HMM声学模型,并比较两种特征对识别结果的影响,实验结果表明Fbank特征更适合DNN模型的训练。同时对Fbank声学特征的滤波器组数目进行了探索,通过改变滤波器组数目,研究其对识别结果的影响。（5）最后对基于短语的统计机器翻译进行了研究。通过对文本数据集进行训练得到翻译所需模型,结合离线语音识别系统完成最终离线语音翻译。

杨逸^[3]（2013）在《基于肌肉模型控制的口型可视化研究》文中研究指明与语音对应的口型可视化技术是现在语音可视化领域的热点和难点问题之一。目前该技术仍存在以下三个问题亟待解决：第一,在表达口型动画的嘴部模型中,多数研究者没有考虑舌头部位的运动模拟；第二,在协同发音现象中,音素静态视位受其他音素影响后存在一定的变化规律,但大多数研究者缺乏将该规律与协同发音模型中的视位权重控制函数曲线的几何特性相关联,在部分字的口型动画上存在着较明显不真实的现象；第三,在动画插补算法中,大多数研究者采用线性、三角函数作为过渡帧插值函数,虽然能满足过渡效果平滑的效果,但存在一定的局限性,中间过渡帧过多,口型动画不能突出关键帧。针对以上问题,以及可视化语音以及虚拟说话人系统中对唇部和舌部动画的高逼真度要求,本文首先提出了一种基于运动轨迹分析的三维唇舌肌肉控制模型。该方法首先根据解剖学原理,建立起基于网格和纹理的唇部、舌部模型。然后,根据分析唇部的运动轨迹,将口轮匝肌分解成两部分来联合控制唇部的运动,可以获得各种口型。在舌部的运动模拟中,将它的运动轨迹分解成一些机械运动的组合,通过使用四种肌肉模型来控制这些运动。最终实现了人脸嘴部说话时的各种口型,实现了卷舌、舔嘴等动作。实验结果表明,该方法能逼真地实现出唇部、舌部的运动动画。然后,针对汉语中的协同发音现象以及语音可视化技术中对唇型动画自然、连续的要求,采用了一种新的口型动画生成方法。一方面,本文在协同发音建模中,采用了基于微分几何学描述的多音素协同发音模型,该模型通过分析邻近音素间影响关系的几何学上的特征,充分描述出音节中的多个音素之间的重叠发音现象,能使得虚拟人口型动画更贴近现实。另一方面,本文在口型动画的自适应生成中,采用了基于分段抛物线插值生成过渡帧的方法,解决了口型动画中关键帧显示时间过短、用户不易分辨的问题,且还不影响口型动画的流畅性。

于东武^[4]（2006）在《基于一个连续发声段的情感语音分析研究》文中指出说话人情感分析是语音情感识别的基础,也属于语音识别模式的范畴,是指通过对包含在语音中的说话人的情感特征的分析来识别说话人的情感信息。对情感语音的特征分析主要是基于在时域上的韵律特征参数。本文在研究了情感语音分析识别系统中的特征参数提取、识别方法等关键技术的基础上,讨论了在一个连续发声段上其基音变化率及能量变化率对情感信息的表达能力。并在Microsoft visual C++6.0环境下实现并验证了对该参数的表征效果分析。本文的主要工作包括以下几点:（1）对情感语音分析的研究现状和技术方法作了研究,比较了当前研究方法的特点和使用参数的差异。（2）研究了情感语音分析的特征分析和特征选取的方法,介绍了情感的定义以及语音中各个特征参数在情感表达上的意义和表征特点。（3）分析了影响情感语音情感信息表达的非情感因素,并由此提出了基于一个连续发声段的情感语音分析研究的新方法。（4）详细研究了基音变化率和能量变化率在情感语音特征上的表达能力,借鉴对比了国内外相关研究采用的特征参数,给出了影响分析效果的特征参数选取结论。目前说话人情感识别技术在实用中遇到的最大问题在于情感语音库建立后,对提取情感特征参数的确认。即如何在若干语音参数中确定有效包含情感信息的特征参数,将需要进一步的研究和实践,特别是在确定因为发声器官随感情变化而造成的器质性改变的表征参数。随着相关学科的发展,更多人进入这一实验研究领域,一些更实用、更高性能的情感分析识别系统必将出现并广泛应用在人们的现实生活中。

郁寅栋^[5]（2004）在《第53届Intel ISEF项目:语音中说话人情绪的计算机识别》文中进行了进一步梳理项目介绍: 随着当今计算机技术的进步,有关用户界面及人机交互的研究在很多方面都取得了较大进展,其中语音识别和语音控制系统已经得到了广泛的应用。然而,这些系统都存在一个同样的局限:无法处理语音中的情绪信息。它们都只关心人说了些什么,却从来不注意人们如何说。我们的

二、第53届Intel ISEF项目:语音中说话人情绪的计算机识别（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

首先简单简介论文所研究问题的基本概念和背景，再而简单明了地指出论文所要研究解决的具体问题，并提出你的论文准备的观点或解决方法。

写法范例：

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

（2）本文研究方法

调查法：该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法：用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法：通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法：通过调查文献来获得资料，从而全面的、正确的了解掌握研究方法。

实证研究法：依据现有的科学理论和实践的需要提出设计。

定性分析法：对研究对象进行“质”的方面的研究，这个方法需要计算的数据较少。

定量分析法：通过具体的数字，使人们对研究对象的认识进一步精确化。

跨学科研究法：运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法：这是社会科学用来分析社会现象的一种方法，从某一功能出发研究多个方面的影响。

模拟法：通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、第53届Intel ISEF项目:语音中说话人情绪的计算机识别（论文提纲范文）

（1）基于背景知识的聊天系统研究与实现（论文提纲范文）

摘要

abstract

第一章绪论

1.1 研究工作的背景与意义

1.2 国内外研究现状与发展趋势

1.2.1 聊天系统研究现状

1.2.2 生成式聊天系统研究

1.2.3 知识驱动对话研究

1.2.4 发展趋势

1.3 本文主要研究内容

1.4 论文结构安排

第二章相关理论与技术

2.1 深度学习技术

2.1.1 神经网络

2.1.2 循环神经网络

2.2 自然语言处理技术

2.2.1 文本向量化技术

2.2.2 自然语言生成技术与语言模型

2.3 注意力机制

2.3.1 Attention模型

2.3.2 Transformer模型

2.4 本章小结

第三章基于背景知识的生成式对话模型研究

3.1 引言

3.2 生成式对话模型相关技术

3.2.1 序列到序列模型架构

3.2.2 基于背景知识的序列到序列对话模型

3.3 基于背景知识的生成式对话模型的设计

3.3.1 模型整体结构

3.3.2 预处理器

3.3.3 上下文编码器

3.3.4 知识选择器与知识库

3.3.5 知识编码器

3.3.6 解码器

3.3.7 结果选择机制

3.3.8 损失函数

3.4 本章小结

第四章指代重写技术研究

4.1 引言

4.2 指代消解问题

4.2.1 指代消解的研究现状

4.2.2 指代消解与重写在对话系统中的应用

4.3 两步指代重写模型设计

4.3.1 选择步骤模型设计

4.3.2 融合步骤模型设计

4.4 实验设计与结果分析

4.4.1 数据集

4.4.2 数据预处理

4.4.3 训练环境及参数

4.4.4 对比模型

4.4.5 实验指标

4.4.6 实验结果分析

4.5 本章小结

第五章知识融入技术研究

5.1 引言

5.2 知识融入问题

5.3 基于注意力机制的知识融入模块设计

5.3.1 知识融入模块结构

5.3.2 知识融入模块算法

5.4 实验设计与结果分析

5.4.1 实验设计

5.4.2 数据集

5.4.3 数据预处理

5.4.4 训练环境与参数

5.4.5 对比模型

5.4.6 实验指标

5.4.7 实验结果分析

5.5 本章小结

第六章基于背景知识的聊天机器人平台设计与实现

6.1 系统概述

6.2 总体设计

6.2.1 流程分析

6.2.2 系统设计

6.3 系统设计与实现

6.3.1 数据结构设计

6.3.2 服务器端设计与实现

6.3.3 客户端设计与实现

6.4 系统展示

6.5 本章小结

第七章全文总结与展望

7.1 全文总结

7.2 后续工作展望

致谢

参考文献

攻读硕士学位期间取得的成果

（2）离线语音翻译技术（论文提纲范文）

摘要

ABSTRACT

第1章绪论

1.1 课题研究背景与意义

1.2 语音翻译国内外研究概况

1.3 语音翻译技术的构成

1.3.1 语音识别技术

1.3.2 机器翻译技术

1.3.3 语音合成技术

1.4 课题研究内容及结构安排

第2章离线语音翻译相关基础知识

2.1 语音识别基本原理

2.2 语音识别系统基本构成

2.2.1 语音信号预处理

2.2.2 特征参数提取

2.2.3 声学模型

2.2.4 语言模型

2.2.5 解码器

2.3 统计机器翻译理论基础

2.4 统计机器翻译系统构成

2.5 离线语音翻译特点概述

2.6 本章小结

第3章基于小波变换的语音增强算法研究

3.1 小波变换的数学描述

3.2 小波去噪基本原理

3.3 小波阈值去噪原理

3.4 基于改进阈值函数的小波去噪分析

3.4.1 传统阈值函数

3.4.2 改进的阈值函数

3.4.3 确定阈值和分解层数

3.5 仿真实验与结果分析

3.5.1 去噪效果评价指标

3.5.2 测试信号实验仿真

3.5.3 语音信号去噪实验

3.6 本章小结

第4章基于DNN-HMM声学建模的离线语音识别

4.1 深度神经网络理论

4.1.1 神经元

4.1.2 深度学习的训练方法

4.1.3 深度神经网络模型

4.2 基于DNN-HMM声学建模

4.2.1 GMM与 DNN比较

4.2.2 DNN与 HMM结合原理

4.3 Kaldi语音识别系统

4.3.1 Kaldi简介

4.3.2 系统搭建

4.4 数据准备

4.4.1 语料数据集及评价标准

4.4.2 准备过程

4.5 实验步骤

4.5.1 语言模型训练

4.5.2 DNN-HMM声学模型训练

4.6 实验结果与分析

4.6.1 实验结果

4.6.2 实验分析

4.7 离线语音识别系统测试

4.8 本章小结

第5章离线语音翻译的研究与实现

5.1 基于短语的统计机器翻译系统

5.1.1 基于短语的统计机器翻译模型

5.1.2 翻译系统各子模型训练流程

5.1.3 各子模型获取生成

5.2 评测指标

5.3 系统实现与测试

5.3.1 实验语料与环境

5.3.2 离线语音翻译系统实现

5.3.3 系统测试对比分析

5.4 本章小结

第6章总结与展望

6.1 全文总结

6.2 论文不足和后续工作

致谢

参考文献

附录

（3）基于肌肉模型控制的口型可视化研究（论文提纲范文）

摘要

Abstract

第1章绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 研究目标及内容

1.3.1 研究目标

1.3.2 研究内容

1.4 本课题的总体框架设计

1.5 本文结构安排

第2章三维人脸嘴部建模

2.1 人脸嘴部的三维几何模型

2.2 唇、舌部肌肉控制模型

2.2.1 唇部发音控制肌肉运动规律的归纳

2.2.2 舌部发音控制肌肉运动规律的归纳

2.3 基于运动轨迹分析的肌肉控制模型

2.3.1 口轮匝肌控制的嘴唇运动轨迹模拟

2.3.2 下颌的运动轨迹模拟

2.3.3 舌纵肌控制的运动轨迹模拟

2.3.4 舌直肌与舌横肌控制的运动轨迹模拟

2.3.5 舌颏肌控制的运动轨迹模拟

2.4 本章小结

第3章多音素协同发音建模

3.1 音素静态视位的合成

3.1.1 声、韵母发音时的口型特征分析

3.1.2 声、韵母静态视位的映射数据结构

3.2 协同发音建模

3.2.1 多音素协同发音建模中微分几何学的应用

3.2.2 基于对数函数控制的辅-元音协同发音模型

3.2.3 基于指数函数控制的元-元音协同发音模型

3.3 本章小结

第4章口型动画自适应生成与口型编号转换

4.1 口型动画的自适应生成

4.1.1 基于线性插值和三角函数插值的动画生成

4.1.2 基于分段抛物线插值的动画生成

4.2 汉字与口型编号的转换

4.2.1 口型编号序列的设计与口型查找

4.2.2 汉字转口型编号的实现流程

4.2.3 多音字的口型编号处理

4.3 本章小节

第5章口型动画合成实验与效果评估

5.1 语音合成部分的实验程序设计

5.2 口型动画合成实验程序的界面设计

5.3 唇、舌肌肉控制模型的实验结果与分析

5.4 协同发音模型的实验结果与分析

5.5 动画插补算法与多音字口型动画的实验结果与分析

5.6 口型动画合成效果评估与可理解性评测

5.6.1 合成效果的客观评测

5.6.2 合成效果的主观评测

5.6.3 可理解性评测

结论

致谢

参考文献

攻读硕士学位期间发表的论文及科研成果

（4）基于一个连续发声段的情感语音分析研究（论文提纲范文）

摘要

ABSTRACT

第一章绪论

1.1 语音情感信息分析的意义及应用价值

1.2 语音情感信息分析的研究发展状况

1.3 语音情感信息分析概述

1.3.1 语音情感信息的分类

1.3.2 语音情感信息分析的基本原理和主要方法[6]

1.3.3 语音情感信息分析存在的问题

1.3.4 语音情感信息分析系统的性能评价

1.4 论文的主要工作及内容安排

1.4.1 论文主要工作

1.4.2 论文的内容安排

第二章情感信息分析和特征参数选取

2.1 影响语音情感信息分析的几个因素

2.1.1 情感的定义和标签对分析研究的影响

2.1.1.1 情感的定义

2.1.1.2 情感的分类与标签

2.1.1.3 情感空间

2.1.1.3.1 Activation-Evaluation空间

2.1.1.3.2 情感轮

2.1.2 基于文本的情感语音对情感信息分析的影响

2.1.3 情感在语音中的表达

2.2 语音情感信息的特征参数的选取

2.2.1 语音情感信息特征参数概述

2.2.2 当前语音研究所采用的特征参数

2.2.3 语音信号中特征参数对情感信息的表达

2.2.4 语音情感信息主要特征参数的提取

2.2.5 本研究中对情感语音特征参数的选取

第三章基于婴儿哭声的情感信息分析研究

3.1 婴儿哭声的研究背景和意义

3.2 婴儿哭声情感信息分析的研究现状

3.3 婴儿哭声语音资料库的建立

3.3.1 语音资料库建立的原则

3.3.2 语音数据收集的条件

3.3.2.1 婴儿哭声语音的来源

3.3.2.2 录音状况和条件

3.3.2.3 意向确定性检验

3.3.3 对照组数据的采集

3.4 婴儿哭声的情感信息特征分析

3.4.1 婴儿哭声特征分析的基本情况

3.4.2 婴儿哭声的特征描述

3.5 情感特征参数提取

3.5.1 婴儿哭声信号的预处理

3.5.1.1 语音信号建模

3.5.1.2 语音信号的分帧

3.5.1.3 语音信号的预加重

3.5.2 基音的提取及其变化率的计算

3.5.2.1 基音周期提取的传统算法和性能分析

3.5.2.2 本文采用的基音周期提取算法

3.5.2.3 婴儿哭声的基音特征参数的提取

3.5.2.4 试验分析

3.5.3 婴儿哭声中短时能量的计算和提取

3.6 本章小结

第四章结束语

致谢

参考文献

作者在学期间取得的学术成果

四、第53届Intel ISEF项目:语音中说话人情绪的计算机识别（论文参考文献）

[1]基于背景知识的聊天系统研究与实现[D]. 鲁辰喜. 电子科技大学, 2021(01)
[2]离线语音翻译技术[D]. 詹展. 杭州电子科技大学, 2019(01)
[3]基于肌肉模型控制的口型可视化研究[D]. 杨逸. 西南交通大学, 2013(12)
[4]基于一个连续发声段的情感语音分析研究[D]. 于东武. 国防科学技术大学, 2006(05)
[5]第53届Intel ISEF项目:语音中说话人情绪的计算机识别[J]. 郁寅栋. 科学启蒙, 2004(01)

标签：语音识别技术论文; 建模软件论文; 发音方法论文; kaldi语音识别论文; 协同软件论文;

第 53 届英特尔 ISEF 项目：语音中说话者情绪的计算机识别

一、第53届Intel ISEF项目:语音中说话人情绪的计算机识别（论文文献综述）

二、第53届Intel ISEF项目:语音中说话人情绪的计算机识别（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

写法范例：

（2）本文研究方法

三、第53届Intel ISEF项目:语音中说话人情绪的计算机识别（论文提纲范文）

（1）基于背景知识的聊天系统研究与实现（论文提纲范文）

（2）离线语音翻译技术（论文提纲范文）

（3）基于肌肉模型控制的口型可视化研究（论文提纲范文）

（4）基于一个连续发声段的情感语音分析研究（论文提纲范文）

四、第53届Intel ISEF项目:语音中说话人情绪的计算机识别（论文参考文献）

猜你喜欢