一种婴儿啼哭语音的情感识别方法

阅读: 评论:0



1.本发明涉及语音情感识别技术领域,具体涉及一种婴儿啼哭语音的情感识别方法。


背景技术:



2.人说话的语音被计算机自动识别情感特征的过程是指语音情感识别过程。人类的情感复杂多样表达的方式也种类繁多,其中语言可以表达人的55%情感。婴儿不具有语言表达能力,婴儿的情感可以通过啼哭、呓语和笑等方式来表达,其中大部分情感主要涵盖在啼啼哭中。因此,从婴儿的啼哭中提取出有效的情感特征,机器分类识别婴儿的情感需求,丰富了科学研究的理论且带来了实际应用利益。成人在育婴育儿方面理论知识不足且不具有实践经历,因此利用语音情感识别分类技术研究基于语音信号的婴儿情感识别与分析,帮助人们解决此类问题更显得迫在眉睫。
3.现有技术中已经对情绪社交机器人系统进行了初步的应用实验,应用结果表明,机器人可以实时跟踪愤怒、恐惧、快乐、中立、悲伤和惊诧六种基本情绪。在特征选择阶段,采用fisher准则,mfcc系数等滤除区分能力较强的方法提取特征参数。在情感分类阶段国外学者大都在决策树算法,支持向量机,随机森林算法、在模型匹配法、朴素贝叶斯、线性回归等算法机制的基础上进行情感分类,建立语音数据库比对模型。
4.国外研究者在基于语音信号分析的情感识别方面的研究颇有建树,此研究领域建立了很多具有代表性的语料库,如fau aibo儿童德语情感语音,belfast英语情感数据库,柏林emo-db德语情感语料库等离散情感语料库。最为著名的是fau aibo语料库,该语料库是少有的纯自然语料库,由51名德国儿童与艾博机器人互动的自发记录组成的。该语料约有48k字,9.2小时的语音,共有愤怒、强调、中性、积极(母爱和快乐组成)和休息(不属于其他类别的情感组成,如无助、无聊等)5个标签。国内在语料库方面的贡献具有代表性的是casia汉语情感语料库,该语料库是由中国科学院自动化所(institute of automation,chinese academy of sciences)在2005年为研究情感语音所涉及的语料库,由四个专业发音人,发出9600句不同发音(含六种情绪)。
5.人的情感表达方式多种多样,婴儿情感的表达方式大都经由啼哭来表达。比起成人的复杂多样的情感,婴儿的情感相对来说较为简单,目前研究婴儿情感分析一般从高兴、生气、害怕、悲伤、平静五个基本情感方面来开展。现有技术从不同的角度开展各自对于语音情感识别的研究,总结一下具体有以下几个方面:
6.(1)语音信号处理技术的研究:当前主流的语音信号处理技术主要包括三个部分,语音编码、识别和合成,在目前研究水平中,有一种信号处理技术不可忽略——matlab的语音信号处理技术。matlab处理语音信号,首先要用滤波器对语音片段进行降噪,然后提取mfcc参数值,利用机器分类学习算法对特征参数进行分类学习,从而识别语音片段中情感特征。
7.(2)特征选择方法上的研究:主要包括高斯混合模型(gmm),隐马尔可夫模型
(hmm),支持向量机,神经网络,混合设计模型等方法。比如刘明珠,李晓琴,陈洪恒(2019)等人从支持向量机,参数优化等方面进行语音信号参数的特征提取和语音情感分类分析,根据fisher准则,以及最大熵原理对于语音信号参数进行最优化,最后再将分析出来的参数与语音数据库进行对比,从而得出模型的情感识别效率和处理能力。
8.(3)语音情感特征参数提取上的研究:包含模型特征和非模型特征两方面。语音信号片段的情感特征参数提取可以根据谱特征,韵律学特征以及音质特征三个方面的基础特征来进行提取。最具代表性的是褚钰,李田港等人利用语言情感中的以上声学特征,将特征进行融合,保留了不同特征的优点,较好的实现了不同分类方式下的稳定识别,且在不同数据集上均能较好的完成识别。


技术实现要素:



9.发明目的:本发明提出一种婴儿啼哭语音的情感识别方法,从婴儿的啼哭进行情感分析和需求分析,通过语音信号识别技术和情感识别技术,对婴儿啼哭进行识别分析以获取婴儿情感需求,帮助成人解决在育婴方面的知识匮乏和经验不足问题。
10.技术方案:为实现本发明的目的,本发明所采用的技术方案是:一种婴儿啼哭语音的情感识别方法,该包括以下步骤:
11.第一步,根据标准库的婴儿情感类别的划分,建立婴儿啼哭数据库,包括语料库和情感库,所述情感库,包括高兴、生气、害怕、悲伤、平静五个基本情感;
12.第二步,对婴儿啼哭语音数据进行预处理;采用梅尔频率倒谱系数方法提取特征参数,得到语音信号的动态特征,输出其特征向量;
13.第三步,将婴儿啼哭信号特征参数集分为训练集和测试集,利用机器学习knn算法进行情感分类学习,划分婴儿啼哭信号种类,识别出情感需求种类。
14.进一步的,第二步中采用梅尔频率倒谱系数方法提取特征参数,流程包括:
15.首先对婴儿啼哭语音信号预处理,然后对语音信号进行傅里叶变换,取其绝对值或平方值,其后利用mel滤波器处理语音信号,再进行取对数操作;
16.最后对语音信号进行倒谱处理:对语音信号经过离散余弦变换操作,得到语音信号的动态特征,输出其特征向量。
17.进一步的,采用机器学习knn算法实现情感分类,流程包括:
18.step1:将婴儿啼哭信号特征参数集分为训练集和测试集;高兴、生气、害怕、悲伤、平静五个基本情感的数据集对应五个训练集;
19.step2:在五个训练集中提取出来的特征参数集中随机选择一个特征参数作为质心;
20.step3:计算测试集中的数据与每一个质心的距离,按照升序排序,选择离质心最近的点,将其划分到啼哭信号质心所属的集合;
21.step4:将所有婴儿啼哭信号特征参数归好集合后,再重新计算五个集合的质心;
22.step5:若新计算出来的质心和原质心之间的距离大于所设定的阈值范围,则继续循环步骤2-步骤4;若新质心和原质心距离变化未超过阈值范围,则算法终止。
23.有益效果:与现有技术相比,本发明的技术方案具有以下有益的技术效果:
24.本发明采用matlab语音信号处理技术,针对婴儿的啼哭进行一系列预处理,提取
12阶梅尔频率倒谱系数,利用knn算法对婴儿情感需求进行识别和分类学习,帮助成人快速了解并满足婴儿的情感需求,缓解成人在育婴方面的压力,降低其在生活上、工作上的压力。本发明能够有效改善婴儿情感需求无法被准确识别以及快速获取的问题,可以提高成人在解决育婴方面问题的能力。
附图说明
25.图1是本发明方法的总流程图;
26.图2是mfcc系数提取特征参数流程图;
27.图3是分类算法流程图;
28.图4是降噪前的时域波形图和频谱图;
29.图5是降噪后的时域波形图和频谱图;
30.图6是正常性啼哭降噪前后时域波形图和频谱图对比图;
31.图7是异常性啼哭降噪前后时域波形图和频谱图对比图;
32.图8是生理性啼哭降噪前后时域波形图和频谱图对比图;
33.图9是心理性啼哭降噪前后时域波形图和频谱图对比图;
34.图10是反抗性啼哭降噪前后时域波形图和频谱图对比图;
35.图11是过零率及短时能量图;
36.图12是特征参数列表截图;
37.图13是特征参数波形图;
38.图14是啼哭信号预处理流程图;
39.图15是正常性啼哭的样本语音时域波形图。
具体实施方式
40.下面结合附图和实施例对本发明的技术方案作进一步的说明。
41.本发明所述的婴儿啼哭语音的情感识别方法,如图1,包括:婴儿啼哭数据库的建立,数据的预处理、特征提取,婴儿啼哭的模型建立、情感识别。婴儿语料库的建立参照标准库的婴儿情感类别的划分,根据实际语音波形进行对比,确定自建库的语音情感类别,从而建立情感库。婴儿语料库的预处理包括六个步骤:(1)啼哭的采集和格式化处理;(2)啼哭的降噪处理;(3)啼哭的预加重处理;(4)对婴儿啼哭进行分帧操作;(5)对婴儿啼哭进行加窗操作;(6)进行端点检测处理。
42.本发明中提取特征参数所利用的方法为梅尔频率倒谱系数方法(mfcc)。mfcc参数提取流程包括:输入语音,预处理语音片段,然后实现语音片段的傅里叶变换,再取其绝对值或平方值,其后利用mel滤波器处理语音信号(将婴儿啼哭参数经过mel滤波器核心处理),再进行取对数操作,最后对其进行倒谱处理,但是由于倒谱处理过程过于复杂和艰难,所以本发明采用和其有共同效果的离散余弦变换(dct)方法。即,对语音信号经过离散余弦变换(dct)操作,从而得到语音信号的动态特征,输出其特征向量。在情感分类中则采用机器学习knn算法实现情感分类。
43.本实施例主要从实验准备、模型建立、实验结论和分析,以及模型改进意见几个方面进行说明。实验准备包括对于情感语料库建立时对语音数据进行的对比分析和对测试语
料库进行的一些实验处理,比如语音的预处理和特征参数提取等。模型的建立包括三个步骤,一个是确定预处理流程,其次是建立特征参数提取过程,最后分类算法对其进行识别分类。实验的结论和分析包括对于测试集进行情感识别分类的比率和算法的效率分析。为了促进婴儿情感需求的识别,建立一种语音信号情感识别的分类模型,即基于语音信号识别的knn分类模型。在该模型的基础上,本发明通过比对标准库的情感划分标准,参照fau aibo语料库(一种自然语音数据库)的建立方法,构建婴儿啼哭的语料库和情感库。
44.在数据处理流程上,本发明首先利用matlab对于语音数据进行预处理,其次利用mfcc法提取婴儿啼哭信号特征参数,然后采用knn分类算法对于语音信号进行情感识别分类,继而得出结论并对结论进行分析。本发明能够将82.25%的测试语音数据分类到相应的聚类中。对于情感库中的语音数据集,各类情感语音中识别最为精确的是正常性哭泣,在理论上正常性哭泣时婴儿的啼哭声音响亮具有节奏感,实验分析中婴儿正常性哭泣节奏感强,频幅高即响亮。
45.本发明采用梅尔频率倒谱系数方法(mfcc)对婴儿啼哭语音片段进行特征参数提取。mfcc是在人耳的感知功能和正常的语音信号的基础上实现的,被用作特征参数来模拟语音信号相对于情感类型的变化性质。mfcc法提取参数流程如图2所示。
46.将婴儿啼哭信号经过特征参数提取之后,提取出其特征向量,进而利用knn算法进行分类学习,划分婴儿啼哭信号种类,识别出的情感需求种类。knn分类算法是指k近邻算法(k-nearest neighbor),是数据挖掘分类算法中最简单的一种。knn算法原理是由一个或者几个语音数据集样本片段的目标类别和属性来决定待分类的语音数据集样本片段的类别,即依靠有限的邻近样本类别来划分待分类的样本数据类别。本发明实施例中该算法具体流程如图3所示,包括五个步骤:
47.step1:将婴儿啼哭信号特征参数集中分为训练集和测试集;高兴、生气、害怕、悲伤、平静五个基本情感的数据集对应五个训练集;
48.step2:在五个训练集中提取出来的特征参数集中随机选择一个特征参数作为质心;
49.step3:计算测试集中的数据与每一个质心的距离,按照升序排序,选择离质心最近的点,将其划分到啼哭信号质心所属的集合;
50.step4:将所有婴儿啼哭信号特征参数归好集合后,再重新计算五个集合的质心;
51.step5:若新计算出来的质心和原质心之间的距离大于所设定的阈值范围,则表示重新计算的质心的位置变化大,未趋于稳定,继续循环步骤2-步骤4;若新质心和原质心距离变化未超过阈值范围,则算法终止。
52.本实施例通过室内录音以及网络搜集的方式建立语料库和情感库,其中语料库语音包括90组语音片段,情感库包括五大类(正常性、异常性、反抗性、生理性和心理性)。在实验之前,首先要对实验的语音片段进行降噪处理,罗列出降噪前后的时域波形图和频谱图,对降噪前后的特征分析图进行比对,确定成功对婴儿啼哭信号进行了降噪处理。其次要对降噪后的语音片段进行端点检测。最后用mfcc提取特征参数的方法提取婴儿啼哭信号得特征值,以上的一系列操作结束之后才对语音片段进行分类识别算法。
53.图4是降噪前的时域波形图和频谱图。图5是婴儿正常性啼哭情感类中的啼哭信号降噪前的时域波形图和频谱图。利用matlab对语音数据进行降噪处理,使用语音读取函数
和画图函数对语音片段进行画图操作,作出图6正常性啼哭情感类中的语音信号降噪后的时域波形图和频谱图。其他情感类的啼哭片段降噪后的特征分析图见文件xxx.fig。将五类情感语音信号的降噪前后的图形特征进行比对。图6是正常性啼哭降噪前后对比图,波形呈现部分密集,低振幅但差值较大,振幅值一般在区间[-0.22,+0.22]之间。图7是异常性啼哭降噪前后对比图,波形呈现密集的、无间隔帧的高振幅,差值较小,振幅值一般在区间[-1,+1]之间。图8是生理需求性啼哭降噪前后对比图,呈现稀疏的高频的低振幅且间隔较多的波形,振幅值一般在区间[-0.2,+0.2]之间。图9是心理需求性啼哭降噪前后对比图,波形呈现聚集的低频低幅无间隔,振幅值一般在区间[-0.2,+0.2]之间。图10是反抗性啼哭降噪前后对比图,波形呈现无间隔的高频低幅,振幅值一般在区间[-0.15,+0.15]之间。语音振幅或能量变化的规律通过短时能量序列来反映,信号通过零值的次数代表过零率。过零率及短时能量图如图11。
[0054]
图12是利用mfcc法提取特征参数的过程,语音信号的每阶特征参数提取出来都存放到m这个矩阵列表中。利用婴儿啼哭信号提取出的12阶mfcc特征参数可以做出参数的特征值图,如图13所示。横轴为提取特征参数的阶数,纵轴为具体的特征参数值。特征参数表是采集的每个婴儿啼哭语音片段的mfcc特征参数生成n行12阶(12是在mfcc特征参数提取过程中设置的计算离散变换系数的循环次数)的特征参数表,根据采集的语音信号的长度不同所产生的特征参数库的大小不同,即语音信号时间长,提取的特征参数行数越多,总体特征参数值越多。建立预处理流程如图14所示。
[0055]
本发明基于语音信号识别对婴儿情感需求做出分析和研究,从育婴事业理论基础和实践方面出发,改善父母在育婴上的经验不足和精力有限的问题。该研究有助于成人提高工作效率,开展正确良好的育婴事项,及时满足婴儿的情感需求,获得满足的情感体验。在已划分的五大情感类中(正常性,异常性,心理性,生理性,反抗性),训练语音数据集情感划分较为准确,82.25%的测试语音数据都能够分类到准备的聚类中。对于情感库中的语音数据集,各类情感语音中识别最为精确的是正常性哭泣,在理论上正常性哭泣时婴儿的啼哭声音响亮具有节奏感,实验分析中婴儿正常性哭泣节奏感强,频幅高即响亮,如图15所示。其次是心理性啼哭、异常性啼哭的识别率高于生理性啼哭和反抗性啼哭。
[0056]
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

技术特征:


1.一种婴儿啼哭语音的情感识别方法,其特征在于,该方法包括以下步骤:第一步,根据标准库的婴儿情感类别的划分,建立婴儿啼哭数据库,包括语料库和情感库,所述情感库,包括高兴、生气、害怕、悲伤、平静五个基本情感;第二步,对婴儿啼哭语音数据进行预处理;采用梅尔频率倒谱系数方法提取特征参数,得到语音信号的动态特征,输出其特征向量;第三步,将婴儿啼哭信号特征参数集分为训练集和测试集,利用机器学习knn算法进行情感分类学习,划分婴儿啼哭信号种类,识别出情感需求种类。2.根据权利要求1所述的一种婴儿啼哭语音的情感识别方法,其特征在于,第二步中采用梅尔频率倒谱系数方法提取特征参数,流程包括:首先对婴儿啼哭语音信号预处理,然后对语音信号进行傅里叶变换,取其绝对值或平方值,其后利用mel滤波器处理语音信号,再进行取对数操作;最后对语音信号进行倒谱处理:对语音信号经过离散余弦变换操作,得到语音信号的动态特征,输出其特征向量。3.根据权利要求1所述的一种婴儿啼哭语音的情感识别方法,其特征在于,采用机器学习knn算法实现情感分类,流程包括:step1:将婴儿啼哭信号特征参数集分为训练集和测试集;高兴、生气、害怕、悲伤、平静五个基本情感的数据集对应五个训练集;step2:在五个训练集中提取出来的特征参数集中随机选择一个特征参数作为质心;step3:计算测试集中的数据与每一个质心的距离,按照升序排序,选择离质心最近的点,将其划分到啼哭信号质心所属的集合;step4:将所有婴儿啼哭信号特征参数归好集合后,再重新计算五个集合的质心;step5:若新计算出来的质心和原质心之间的距离大于所设定的阈值范围,则继续循环步骤2-步骤4;若新质心和原质心距离变化未超过阈值范围,则算法终止。

技术总结


本发明公开了一种婴儿啼哭语音的情感识别方法,采用MATLAB语音信号处理技术,针对婴儿的哭声进行一系列预处理,提取12阶梅尔频率倒谱系数,利用KNN算法对婴儿情感需求进行识别和分类学习,帮助成人快速了解并满足婴儿的情感需求,缓解成人在育婴方面的压力,降低其在生活上、工作上的压力。本发明能够有效改善婴儿情感需求无法被准确识别以及快速获取的问题,可以提高成人在解决育婴方面问题的能力。力。力。


技术研发人员:

王一海 王宇晶

受保护的技术使用者:

南京信息职业技术学院

技术研发日:

2022.12.07

技术公布日:

2023/3/28

本文发布于:2023-03-30 16:35:44,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/3/82042.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:语音   情感   特征   婴儿
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图