南京工业大学浦江学院 计算机与通信工程学院 江苏南京 211200
摘要:语音是人类最直接的交流方式,在人与人之间的交流过程中通过语音表达自身的情绪。不同语言表达的情感有不同的情感特征,但某种情况下也存在相似的情感特征。该研究从预处理、预加重、分帧与加窗、端点检测技术等方面对语音情感识别进行了综述,目的利用这部分驱动模型学习,获得情感判别性,提升语音情感识别的泛化性。
关键词:情感特征;预处理;分帧与加窗;情感判别性
Research on speech emotion recognition
ZHOU Rong-jin LIN Wei-chang
(Nanjing University of Technology Pujiang College,School of Computer and Communication Engineering,NanjingJiangsu,211200)
Abstract: Speech is the most direct way of human communication. In the process of communication between people, Speech can express their emotions. Emotions expressed in different languages have different emotional characteristics, but in some cases, there are also similar emotional characteristics. This research summarizes speech emotion recognition from the aspects of preprocessing, pre emphasis, framing and windowing, endpoint detection technology and so on. The purpose is to use this part to drive model learning, obtain emotion discrimination and improve the generalization of speech emotion recognition.
Key words: Emotional characteristics; Pretreatment; Framing and windowing; Emotional discrimination
1 概述
语音情感识别研究的目的旨在让计算机拥有足够的智能,可以从语音信号中感知和理解人类的情绪状态。人的情绪状态通常可通过语音、表情、动作等行为信号反应出来,其中语音信号是一种日常生活中最为常见的情绪信号。因此,基于语音信号我们可以准确地分析出人的实时情绪状态。如此,我们可以设计一系列算法,使机器拥有足够的智能,能够从说话人的语音信号中识别出说话人的情绪状态 (如高兴,悲伤,惊吓等)。这便是当前情感计算[[1]]和人工智能领域作为火热的研究 内容之一——语音情感识别。语音情感识别的研究具有非常重大的实用价值,通过分析观众的情感状态,可以使交互式电影的应用更加实用。
语音信号通过采集为数字化的时间序列进入计算机进行预处理,将每一帧预处理后的语音信号提取成一个特征向量,构成语音识别样本,对样本的识别由分类器来实现,分类器包含两个工作阶段:设计阶段与决策阶段。在设计阶段,用大量已知的语音信号来确定分类器模型中的参数;在决策阶段,未知语音信号经过与设计阶段同样的预处理后进入训练好的分类器,最终识别结果[[2]]。
2 语音情感识别研究
2.1 语音信号的预处理技术
数据库[[3]]中的语音信号绝大部分是以初始音频文件呈现,为了减少实验中不必要的冗余或干扰,语音信号在采集过程会尽量控制采集环境的分贝频率、电磁干扰等因素,从采集源头获得相对“纯净”的音频。作为一种非平稳的时变信号,语音信号蕴含了多种可供研究的信息,掌握这些语音信息可进行语音合成、语音识别等操作。实现这些处理的前提是必须将语音信息中的特征参数提取出来,提取的特征参数为了保证其可靠性需要对语音信号进行一系列预处理,在不破坏其信息的前提下,对语音中存在的冗余项进行剔除,消除因发声器官本身或语音采集设备所带来的高次谐波失真等因素,从而可获得较为均匀、平滑的信号。基本的语音信号预处理技术包括预加重、分帧、加窗和端点检测等,预处理流程图如图2-1所示:
图2-1 语音信号预处理流程图
2.2 预加重
以.wav后缀的音频文件基本上都是数字变化后的语音信号,这种信号从声音发出者发出的过程中无法避免地存在声音在口唇中的摩擦而产生的干扰,即是口唇辐射。这种辐射虽不会产生像设备电流声那样的强烈抖动,但也可能对语音信号在后续特征提取的准确性有影响,这种影响会导致语音信号的平均功率谱在高频段跌落。为了提高语音信号的高频分辨率,需要对语音信号进行预加重处理,这种处理方式能够剔除口唇辐射的影响,同时也便于声学参数分析等。预加重一般作用于数字化后的语音信号,采用一阶 FIR 高通滤波器:
该式为传递西数,其中的值为预加重系数,取值一般在0.9与1.0之间,本文为了与工具的规范一致,取值0.96。使用Matlab实现语音信号的预加重,从样点数与频率两个指标进行对比,可以看到预加重后的语音信号在高频段的幅度有明显地提升,这种提升使语音信号在高频段的波形较为平滑,如图2-2所示。
图2-2预加重前后频谱图对比
2.3 分帧与加窗
预处理过的语音信号仍然是一段在一定频率范围或时间内上下变化的波形,语音信号存在浊音与清音两类,其中随时间交化的参数有浊音的基音周期、消浊音信号幅度与声道参量等。声音是通过振动发出的,而个体的发声器会在振动发高的过程存在细微的延退,即存在惯性运动。在10-30ms里语音信号可近似不变,因此语音信号有短时平稳性的特点。利用这种特性,可将语音信号进行分段处理,这些短段语音信号称为分析航,采用可移动的有限长度街口进行加权来实现语音信号的分帧。为了使两段间的过渡比较平滑,在采用连续分段的方式时,要运用交叠分段的方法。两帧交叠存在重合部分,即帧移,顿移与帧长之比常取 0~1/2。
在进行语音信号检测前需要进行分帧处理,分帧后再判断每帧是否为语音的端点,根据语音信号中存在的有声段与无声段来采用不同宽度的窗。较宽的窗一般用于语音信号中的无声段,这样能加快识别速度。较窄的窗一般用于无声段与有声段的边界,这能确定某一帧的起始点。起始点确定后的有声段采用常规窗。常用的窗函数有三种,包括矩形窗、汉明窗(Hamming)和汉宁窗(Hanning)。其定义如下,其中W(D)为窗函数,N为窗长:
(1)矩形窗
(2)汉明窗
(3)汉宁窗
矩形窗的主瓣宽度相比汉明窗要窄得多,这使得矩形窗的频谱分辨率较高,但矩形窗得旁瓣峰值衰减速率要比汉明窗慢,因而汉明窗在低通特性上表现更平滑,应用在短时信号的频率特性上表现为较高的程度。运用窗西数对语音信号进行分帧处理,实则是用某种变换或运算在各帧上进行实现。如图2-3所示。
图2-3 矩形窗与汉明窗频谱对比
2.4 端点检测
语音中包括了无声段与有声段,同时参杂了部分噪声。为了将语音信号中的有效语音提取出来,需要借助端点检测技术,又称为语音活动检测 ( Voice Activity Detection, VAD)VAD 算法主要有基于门槛值、基于分类器、基于模型等三类,但一般采用基于门槛值的方法,主要原因是另外两种方法需要大量的计算,对于计算资源不足的环境无法完成实时检测。基于门限值的VAD可从时域或频域两个角度出发,时域利用短时能量、短时过零率等指标,频域利用MFCC、谱熵等指标,通过提取这些特征,设置合适的门槛值达到区分无声段与有声段的目的。
以本文使用的基于双门槛值的端点检测为例,所谓双门槛值就是利用短时能量与短时过零率的乘积,两者配合下可以确定语音信号的端点。短时能量对语音信号的变化比较敏感,门槛值较低,短时过零率则需要较高的门槛。由于噪声的存在,噪声波动可能会超过低门槛,但这段波动并非有效语音的起点。只有当信号超过了高门槛且保持一段时间,说明此刻语音信号己经开始。而设置这两种指标可以同时检测浊音与清音,浊音指的是通过声带振动发出的音,而不振动发出的音为清音。以一段音频文件为例,如图2-4 所示为该语音信号的短时平均能量和短时过零率的波形图,左图可知波形的短时平均幅度中包含了低频和高频的频率,这不利于确定起始点。短时平均能量则直接过滤了低于门槛值的频率,保留了高门槛的频率。这样可以判别语音信号每段的起始点,提高特征提取的效率与可靠性。
整个端点检测过程分为四段,包括静音段、过渡段、有声段、结束标志。静音段时,若两个指标均超过了最低门槛值就可以开始标记起点。从静音段开始到有声段的过渡段,若出现信号波动下降到低门槛以下时,则可判断该标记起点并非语音的真实起点,若出现两个参量有其一上升到高门槛以上时,则可判断己进入有声段。不过,如果语音信号录入了强烈的噪声也可能导致两个参量上升到高门槛以上,但基本维持不了太长时间,可以通过设置高门槛维持时间来判断。
在长期噪声环境下无法很好地区分有声段与无声段时,也可选择倒谱特征作为端点检测的参量。语音信号是由声道响应与激励信号卷积而成的,必须通过反卷积将激励信号去除后才可获得谱包络来反映声道特性,继而导出倒谱特性来表征语音信号的语音特性。
图2-4 语音信号的短时能量与短时过零率
3 情感识别应用
最近非常流行的任天堂的游戏中的一些体感游戏,配和一些手柄等道具的使 用,让用户在享受游戏快乐的同时,还能带给体验者身临其境的感觉。这些虽然已经极具智能化,通讯设备在未来必定迎来不断地更新换代,并且伴随着部分功能的改善和升级,人们与机器之间的交流互动的体验相比从前有了巨大的提升,就好像人与人之间沟通一样,方便、快捷,而省去了不少用来事先学习如何操作而浪费的时间。
4 结语
本研究对语音情感识别进行了总结,重点介绍了语音情感识别研究中的几个关键问题,包括语音预处理、预加重、分帧与加窗、端点检测技术应用。随着模式识别的迅速发展,语音识别不再局限于对普通语音进行识别,如何对远程通话语音、儿童语音、方言、言语障碍者及其语音中的情感进行有效识别将是人机交互领域面临的一些新挑战,特别是综合面部表情、肢体语言和语音等多方面的信息进行情感识别将是一个有意义的课题。
5 参考文献
[1] 皮卡德. 情感计算[M]. 北京理工大学出版社, 2005.
[2] 张学工. 模式识别[M]. 北京: 清华大学出版社,2013.6-7.
[3] SHI P. Speech emotion recognition based on deep belief network[C]//2018 IEEE 15th International Conference on Networking,Sensing,and Control (ICNSC). Zhuhai,China. 2018: 1-5.
作者简介:周荣锦(1998-),男(汉族),南京工业大学浦江学院本科在读,主要从事语音情感识别研究。
项目基金:本论文是基于南京工业大学浦江学院2021校级大学生创新创业项目;基于语音信号的大学生情感状态识别研究,课题号:PJ20211390526