一种基于智能语音交互的电力专网语音输入方法及系统与流程

阅读: 评论:0



1.本发明属于语音输入技术领域,具体涉及一种基于智能语音交互的电力专网语音输入方法及系统。


背景技术:



2.随着计算机软硬件方面技术水平的不断提升,人工智能概念已风靡全球。随着智能语音技术和云计算技术的发展,市面上出现很多准确、高效的语音输入法,如讯飞语音输入法,语音输入法比过去基于键盘的输入法更加快速高效。但是国网内部使用的输入法还一直是基于键盘的输入法,还没有一款自己专属的语音输入法,在国网内部实际应用中存在以下的实际问题:
3.(1)现有输入法比较市场化,国网很多专有名词的输入麻烦,存在很多词语输入效率低、错误等问题;
4.(2)国网的很多业务场景使用的都是局域网,目前使用的输入法都是基于键盘输入的,对于市面上的基于外网云服务的语音输入法无法应用,输入的效率低下,降低了工作效率;
5.(3)电力业务场景,很多的计算机终端和硬件终端的应用都是在高危环境下使用的,使用语音输入法实现

自由说式’的输入只需要说出来就可以实现输入,降低了因记录操作带来的潜在风险。
6.随着人工智能语音技术的快速发展,智能语音技术在人机交互、语音转写、语音输入等场景已达到实用化水平。通过智能语音技术与电力业务相结合的方式,解决上述问题是可行的,故亟需开展基于智能语音技术的语音输入法在电力专网中的研究与应用,满足电力专网的实际应用需求。


技术实现要素:



7.有鉴于此,通过研究深度学习技术、基于深度全序列卷积神经网络语音识别技术、语音预处理技术和自适应技术关键技术,与大数据支撑的云平台结合,本发明提供了一种基于智能语音交互的电力专网语音输入方法及系统,将探索智能语音交互技术与各业务中内容输入、现场记录、文档编制等方向深度融合,将人工智能应用到公司日常生产及经营活动中,构建“自由说式”的输入模式,辅助一线业务人员、办公人员等编辑工作,提高工作效率和服务水平,促进电力电网语音输入智能化水平的发展。
8.本发明至少一个方案提供了一种基于智能语音交互的电力专网语音输入方法,应用于语音输入平台,所述该方法包括:
9.接收语音响应终端采集的语音输入指令,其中,所述语音输入指令包括输入请求标识信息;
10.根据所述语音输入指令触发所述语音输入平台获取语音响应终端采集的语音数据;
11.对获取的所述语音数据去噪及进行音频预处理后,输入预训练的语音识别模型进行识别处理,其中,所述语音识别模型基于构建的包含电力专网专业词库的语料库训练;
12.通过所述语音识别模型识别处理得到语音输入结果,并加载于语音输入平台的输入窗口。
13.可选地,对获取的所述语音数据去噪,包括:
14.提取所述语音数据中噪声处理的有效因素,基于有效因素对语音数据的裁切,并区分语音数据中的静音部分,得到对去噪后的语音数据。
15.可选地,对获取的所述语音数据进行音频预处理,包括:
16.对去噪后的语音响应终端采集的坐席和客户交互的语音数据进行预滤波、预加重、加窗以及端点检测处理,将所述语音数据进行角分离和场景分割处理。
17.可选地,所述预滤波采用反混叠滤波滤除高于1/2采样频率的信号成分或噪声,将语音信号带宽限制在预设范围内;
18.基于预加重对预滤波处理的语音信号进行提升至高频,并进行加窗分帧处理进行语音信号的分帧;从背景噪声中出语音的开始和终止点,基于能量-过零点进行端点检测。
19.可选地,所述语音信号的分帧采用可移动的有限长度的窗口进行加权处理,其中,每秒的帧数为33~100帧,采用交叠分段分帧,帧移与帧长的比值为0~0.5,分窗类型为矩形窗、汉纳窗、汉明窗、布莱克曼窗。
20.可选地,语音识别模型进行识别处理时,包括对输入的语音数据进行特征提取以及语音匹配,其中,所述特征提取为从输入的原始语音信号中抽取出语音特征参数,所述语音特征参数包括时域参数和频域参数。
21.可选地,所述语音识别模型基于构建的包含电力专网专业词库的语料库训练,语料库的建立方法包括:
22.依据电力专业术语的类别,创建电力专网语料库,其中,所述电力专网语料库的语料来源于论坛,使用贪心算法初步筛选语料后,根据三音素模型二次筛选文本语料;
23.基于书面语语料库,利用hmm模型,采用最大相似度原则进行连续语音识别模型的训练。
24.可选地,最大相似度原则进行连续语音识别模型的训练的方法,包括:用嵌入式训练算法进行单音素模型的训练,根据文本上下文关系,连接单音素模型,获得所有的物理三音素模型。
25.本发明又一个方案,还提供了一种基于智能语音交互的电力专网语音输入系统,用于执行上述基于智能语音交互的电力专网语音输入方法,所述基于智能语音交互的电力专网语音输入系统包括:
26.指令接收模块,用于接收语音响应终端采集的语音输入指令,其中,所述语音输入指令包括输入请求标识信息;
27.语音数据获取模块,用于根据所述语音输入指令触发所述语音输入平台获取语音响应终端采集的语音数据;
28.语音数据处理模块,用于对获取的所述语音数据去噪及进行音频预处理后,输入预训练的语音识别模型进行识别处理;
29.结果输入加载模块,用于通过所述语音识别模型识别处理得到语音输入结果,并加载于语音输入平台的输入窗口。
30.可选地,还包括语料库构建模块,用于依据电力专业术语的类别,创建包含电力专网专业词库的电力专网语料库。
31.本发明其中一方案还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现基于智能语音交互的电力专网语音输入方法的步骤。
32.本发明还包括一种存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现基于智能语音交互的电力专网语音输入方法的步骤。
33.本发明提供的技术方案,具有如下有益效果:
34.本发明提供的技术方案在接收语音响应终端采集的语音输入指令后,触发所述语音输入平台获取语音响应终端采集的语音数据,对获取的所述语音数据去噪及进行音频预处理后,输入预训练的语音识别模型进行识别处理,通过所述语音识别模型识别处理得到语音输入结果,并加载于语音输入平台的输入窗口。通过语音识别模型对响应语音输入指令后获取的语音数据进行识别输入,通过调研分析电力专网的语音输入法应用场景,通过音频预处理技术、语音特征参数提取技术、语言模型处理技术一级语料库构建,进而构建电力专网的语音输入法的专业词库,并构建语音识别技术声学模型和语言模型,实现语音输入法在电力专网中的应用,提高了语音输入平台在针对坐席和客户交互时电力专网语音数据的处理效率。
附图说明
35.附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
36.图1为本发明一个实施例中一种基于智能语音交互的电力专网语音输入方法的流程图。
37.图2为本发明一个实施例中一种基于智能语音交互的电力专网语音输入方法的原理图。
38.图3为本发明一个实施例中一种基于智能语音交互的电力专网语音输入系统的系统框图。
具体实施方式
39.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
40.本发明通过研究深度学习技术、基于深度全序列卷积神经网络语音识别技术、语音预处理技术和自适应技术关键技术,与大数据支撑的云平台结合,提供了一种基于智能语音交互的电力专网语音输入方法及系统,将探索智能语音交互技术与各业务中内容输入、现场记录、文档编制等方向深度融合,将人工智能应用到公司日常生产及经营活动中,构建“自由说式”的输入模式,辅助一线业务人员、办公人员等编辑工作,提高工作效率和服
务水平,促进电力电网语音输入智能化水平的发展。
41.为了便于理解本技术的以下实施例,以下将参考附图对本技术的以下实施例进行详细描述。
42.图1是根据本技术一示例性实施例示出的一种基于智能语音交互的电力专网语音输入方法的流程图。参阅图1所示,本技术的该实施例提供了一种基于智能语音交互的电力专网语音输入方法,该方法应用于语音输入平台;该方法包括如下步骤:
43.s10:接收语音响应终端采集的语音输入指令,其中,所述语音输入指令包括输入请求标识信息;
44.s20:根据所述语音输入指令触发所述语音输入平台获取语音响应终端采集的语音数据;
45.s30:对获取的所述语音数据去噪及进行音频预处理后,输入预训练的语音识别模型进行识别处理;
46.s40:通过所述语音识别模型识别处理得到语音输入结果,并加载于语音输入平台的输入窗口。
47.其中,在步骤s30中,所述语音识别模型基于构建的包含电力专网专业词库的语料库训练。
48.在本实施例中,语音识别技术被称为自动语音识别automatic speech recognition,(asr),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。在本实施例中,语音识别主要的技术流程分为去燥技术、预处理技术、特征提取技术、模型匹配技术、语言模型训练技术等几个部分。
49.其中,参见图1和图2所示,对获取的所述语音数据去噪,包括:
50.提取所述语音数据中噪声处理的有效因素,基于有效因素对语音数据的裁切,并区分语音数据中的静音部分,得到对去噪后的语音数据。
51.在性能分析方面,本实施例通过组合去噪的方法先构建一个非特定人、孤立词、小词汇量的语音识别系统,然后在几种不同信噪比环境下,经过对比不同系统的识别率,以验证该组合去噪方法的有效性。
52.在一些实施例中,对获取的所述语音数据进行音频预处理,包括:
53.对去噪后的语音响应终端采集的坐席和客户交互的语音数据进行预滤波、预加重、加窗以及端点检测处理,将所述语音数据进行角分离和场景分割处理。
54.在本实施例中,预处理技术包括预滤波、预加重、加窗和端点检测技术,主要是指语音信号的采样、反混叠带通滤波去除个体发音差异和设备、环境引起的噪声影响等,并涉及到语音识别的基元选取和端点检测。
55.在本实施例中,所述预滤波采用反混叠滤波滤除高于1/2采样频率的信号成分或噪声,将语音信号带宽限制在预设范围内。预滤波又称为反混叠滤波,是指滤除高于1/2采样频率的信号成分或噪声,使信号带宽限制在一定的范围里;否则,如果采样率不满足采样定理,则会产生频谱混叠,此时信号中的高频成分将产生失真;预滤波本质就是一个带通滤波器。
56.基于预加重对预滤波处理的语音信号进行提升至高频。原因在于预加重对于语音信号受口鼻的影响,800hz以上的频段有6db的衰减,即求频谱时,频率越高则信号幅度越
小。这常常使得频谱分析时,低频到高频的整个频带内不能使用相同的信噪比。为此一般要使语音信号通过一个预加重来提升高频。
57.进行加窗分帧处理进行语音信号的分帧。在本实施例中,所述语音信号的分帧采用可移动的有限长度的窗口进行加权处理,其中,每秒的帧数为33~100帧,采用交叠分段分帧,帧移与帧长的比值为0~0.5,分窗类型为矩形窗、汉纳窗、汉明窗、布莱克曼窗。
58.在本实施例中,加窗处理进行预加重数字滤波处理后,下面就是进行加窗分帧处理,语音信号具有短时平稳性(10
‑‑
30ms内可以认为语音信号近似不变),这样就可以把语音信号分为一些短段来来进行处理,这就是分帧,语音信号的分帧是采用可移动的有限长度的窗口进行加权的方法来实现的。一般每秒的帧数约为33~100帧,视情况而定。一般的分帧方法为交叠分段的方法,前一帧和后一帧的交叠部分称为帧移,帧移与帧长的比值一般为0~0.5。常见的分窗类型为矩形窗、汉纳窗、汉明窗、布莱克曼窗。
59.端点检测是指从背景噪声中出语音的开始和终止点,是语音处理领域的基本问题,特别是孤立词语识别中,出每个单词的语音信号范围是很重要的,确定语音信号的开始和终止可以减少系统的大量计算。一般采用两极判断方法:基于能量-过零点的端点检测。
60.在本实施例中,语音识别模型进行识别处理时,包括对输入的语音数据进行特征提取以及语音匹配,其中,所述特征提取为从输入的原始语音信号中抽取出语音特征参数,所述语音特征参数包括时域参数和频域参数。
61.其中,特征参数提取就是从原始语音信号中抽取出能反映语音本质的特征参数,形成矢量序列。其在,时域参数:包括短时平均能量、短时平均过零率、基音周期等。短时平均过零率和短时平均能量常用于检测语音端点,基音周期则用于清浊音类和汉字的声调区别。频域参数:包括短时频谱(通道滤波器的平均谱、dft频谱)前三个共振峰(幅度、频率、带宽)、倒谱(基于线性预测编码的倒谱即lpcc,基于mel频率弯折的倒谱即mfcc)等。
62.对于不同的参数可以采用以下方法提取参数:快速傅立叶变换(fft)、平均过零率分析(rbz)和高斯混合模型(gmm)。
63.在本实施例中,所述语音识别模型基于构建的包含电力专网专业词库的语料库训练,语料库的建立方法包括:
64.依据电力专业术语的类别,创建电力专网语料库,其中,所述电力专网语料库的语料来源于论坛,使用贪心算法初步筛选语料后,根据三音素模型二次筛选文本语料;
65.基于书面语语料库,利用hmm模型,采用最大相似度原则进行连续语音识别模型的训练。
66.在本实施例中,最大相似度原则进行连续语音识别模型的训练的方法,包括:用嵌入式训练算法进行单音素模型的训练,根据文本上下文关系,连接单音素模型,获得所有的物理三音素模型。其中,在语言模型方面,可采用三元文法(trigram)的统计语言模型。
67.本发明实施例的基于智能语音交互的电力专网语音输入方法,通过语音识别模型对响应语音输入指令后获取的语音数据进行识别输入,通过调研分析电力专网的语音输入法应用场景,通过音频预处理技术、语音特征参数提取技术、语言模型处理技术一级语料库构建,进而构建电力专网的语音输入法的专业词库,并构建语音识别技术声学模型和语言模型,实现语音输入法在电力专网中的应用,提高了语音输入平台在针对坐席和客户交互
时电力专网语音数据的处理效率。
68.如图3所示,在本发明的一个实施例中提供了一种基于智能语音交互的电力专网语音输入系统包括指令接收模块100、语音数据获取模块200以及语音数据处理模块300以及结果输入加载模块400。
69.其中,所述指令接收模块100用于接收语音响应终端采集的语音输入指令,其中,所述语音输入指令包括输入请求标识信息。
70.所述语音数据获取模块200用于根据所述语音输入指令触发所述语音输入平台获取语音响应终端采集的语音数据。
71.所述语音数据处理模块300用于对获取的所述语音数据去噪及进行音频预处理后,输入预训练的语音识别模型进行识别处理。
72.所述结果输入加载模块400用于通过所述语音识别模型识别处理得到语音输入结果,并加载于语音输入平台的输入窗口。
73.其中,基于智能语音交互的电力专网语音输入系统还包括语料库构建模块,用于依据电力专业术语的类别,创建包含电力专网专业词库的电力专网语料库。
74.本实施例中,基于智能语音交互的电力专网语音输入系统在执行时采用如前述的一种基于智能语音交互的电力专网语音输入方法的步骤,因此,本实施例中对基于智能语音交互的电力专网语音输入系统的运行过程不再详细介绍。
75.在本发明的一个实施例中还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤,该方法包括如下步骤:
76.接收语音响应终端采集的语音输入指令,其中,所述语音输入指令包括输入请求标识信息;
77.根据所述语音输入指令触发所述语音输入平台获取语音响应终端采集的语音数据;
78.对获取的所述语音数据去噪及进行音频预处理后,输入预训练的语音识别模型进行识别处理,其中,所述语音识别模型基于构建的包含电力专网专业词库的语料库训练;
79.通过所述语音识别模型识别处理得到语音输入结果,并加载于语音输入平台的输入窗口。
80.在本发明的一个实施例中还提供了一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤,该方法包括如下步骤:
81.接收语音响应终端采集的语音输入指令,其中,所述语音输入指令包括输入请求标识信息;
82.根据所述语音输入指令触发所述语音输入平台获取语音响应终端采集的语音数据;
83.对获取的所述语音数据去噪及进行音频预处理后,输入预训练的语音识别模型进行识别处理,其中,所述语音识别模型基于构建的包含电力专网专业词库的语料库训练;
84.通过所述语音识别模型识别处理得到语音输入结果,并加载于语音输入平台的输入窗口。
85.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以
通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。
86.另外,本技术的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本技术的方法和/或技术方案。而调用本技术的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。
87.综上所述,本发明提供的技术方案在接收语音响应终端采集的语音输入指令后,触发所述语音输入平台获取语音响应终端采集的语音数据,对获取的所述语音数据去噪及进行音频预处理后,输入预训练的语音识别模型进行识别处理,通过所述语音识别模型识别处理得到语音输入结果,并加载于语音输入平台的输入窗口。通过语音识别模型对响应语音输入指令后获取的语音数据进行识别输入,通过调研分析电力专网的语音输入法应用场景,通过音频预处理技术、语音特征参数提取技术、语言模型处理技术一级语料库构建,进而构建电力专网的语音输入法的专业词库,并构建语音识别技术声学模型和语言模型,实现语音输入法在电力专网中的应用,提高了语音输入平台在针对坐席和客户交互时电力专网语音数据的处理效率。
88.以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

技术特征:


1.一种基于智能语音交互的电力专网语音输入方法,其特征在于,应用于语音输入平台,包括:接收语音响应终端采集的语音输入指令,其中,所述语音输入指令包括输入请求标识信息;根据所述语音输入指令触发所述语音输入平台获取语音响应终端采集的语音数据;对获取的所述语音数据去噪及进行音频预处理后,输入预训练的语音识别模型进行识别处理,其中,所述语音识别模型基于构建的包含电力专网专业词库的语料库训练;通过所述语音识别模型识别处理得到语音输入结果,并加载于语音输入平台的输入窗口。2.根据权利要求1所述的基于智能语音交互的电力专网语音输入方法,其特征在于,对获取的所述语音数据去噪,包括:提取所述语音数据中噪声处理的有效因素,基于有效因素对语音数据的裁切,并区分语音数据中的静音部分,得到对去噪后的语音数据。3.根据权利要求2所述的基于智能语音交互的电力专网语音输入方法,其特征在于,对获取的所述语音数据进行音频预处理,包括:对去噪后的语音响应终端采集的坐席和客户交互的语音数据进行预滤波、预加重、加窗以及端点检测处理,将所述语音数据进行角分离和场景分割处理。4.根据权利要求3所述的基于智能语音交互的电力专网语音输入方法,其特征在于,所述预滤波采用反混叠滤波滤除高于1/2采样频率的信号成分或噪声,将语音信号带宽限制在预设范围内;基于预加重对预滤波处理的语音信号进行提升至高频,并进行加窗分帧处理进行语音信号的分帧;从背景噪声中出语音的开始和终止点,基于能量-过零点进行端点检测。5.根据权利要求4所述的基于智能语音交互的电力专网语音输入方法,其特征在于,所述语音信号的分帧采用可移动的有限长度的窗口进行加权处理,其中,每秒的帧数为33~100帧,采用交叠分段分帧,帧移与帧长的比值为0~0.5,分窗类型为矩形窗、汉纳窗、汉明窗、布莱克曼窗。6.根据权利要求1所述的基于智能语音交互的电力专网语音输入方法,其特征在于,语音识别模型进行识别处理时,包括对输入的语音数据进行特征提取以及语音匹配,其中,所述特征提取为从输入的原始语音信号中抽取出语音特征参数,所述语音特征参数包括时域参数和频域参数。7.根据权利要求6所述的基于智能语音交互的电力专网语音输入方法,其特征在于,所述语音识别模型基于构建的包含电力专网专业词库的语料库训练,语料库的建立方法包括:依据电力专业术语的类别,创建电力专网语料库,其中,所述电力专网语料库的语料来源于论坛,使用贪心算法初步筛选语料后,根据三音素模型二次筛选文本语料;基于书面语语料库,利用hmm模型,采用最大相似度原则进行连续语音识别模型的训练。8.根据权利要求2所述的基于智能语音交互的电力专网语音输入方法,其特征在于,最大相似度原则进行连续语音识别模型的训练的方法,包括:用嵌入式训练算法进行单音素
模型的训练,根据文本上下文关系,连接单音素模型,获得所有的物理三音素模型。9.一种基于智能语音交互的电力专网语音输入系统,其特征在于,用于执行权利要求1-8中任一项所述的基于智能语音交互的电力专网语音输入方法,所述基于智能语音交互的电力专网语音输入系统包括:指令接收模块,用于接收语音响应终端采集的语音输入指令,其中,所述语音输入指令包括输入请求标识信息;语音数据获取模块,用于根据所述语音输入指令触发所述语音输入平台获取语音响应终端采集的语音数据;语音数据处理模块,用于对获取的所述语音数据去噪及进行音频预处理后,输入预训练的语音识别模型进行识别处理;结果输入加载模块,用于通过所述语音识别模型识别处理得到语音输入结果,并加载于语音输入平台的输入窗口。10.根据权利要求9所述的基于智能语音交互的电力专网语音输入系统,其特征在于,还包括语料库构建模块,用于依据电力专业术语的类别,创建包含电力专网专业词库的电力专网语料库。

技术总结


本发明属于语音输入技术领域,具体涉及一种基于智能语音交互的电力专网语音输入方法及系统。该方法包括接收语音响应终端采集的语音输入指令后,触发所述语音输入平台获取语音响应终端采集的语音数据,对获取的所述语音数据去噪及进行音频预处理后,输入预训练的语音识别模型进行识别处理,通过所述语音识别模型识别处理得到语音输入结果,并加载于语音输入平台的输入窗口。通过语音识别模型对响应语音输入指令后获取的语音数据进行识别输入,通过调研分析电力专网的语音输入法应用场景,实现语音输入法在电力专网中的应用,提高了语音输入平台在针对坐席和客户交互时电力专网语音数据的处理效率。数据的处理效率。数据的处理效率。


技术研发人员:

马俊杰 董小菱 窦国贤 李明 李周 陈清萍 秦丹丹 刘朋熙 蒋明 周明 张靖 徐敏 刘丽 吴极 杨安东 郭庆 张天奇

受保护的技术使用者:

安徽继远软件有限公司

技术研发日:

2022.11.11

技术公布日:

2023/3/27

本文发布于:2023-03-30 16:45:47,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/1/82470.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:语音   所述   电力   模型
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图