1.本发明涉及电力现场监控技术领域,尤其是指一种电力现场作业的风控
语音识别方法。
背景技术:
2.随着技术的发展,智能语音识别技术被广泛应用,随着智能电网的高速发展,电网业务中对于语音识别的需求也在不断增加。然而面向公共领域的语音识别技术很难识别出电网特有的专业信息词汇,其语音识别准确性难以得到保障。而在进行电力现场作业的风控管理时,语音识别准确性影响着风控管理的效率,若依旧采用现有的面向公共领域的语音识别技术进行电力现场作业的风控语音识别,其风控管理的工作效率将无法得到保障。
技术实现要素:
3.本发明的目的是克服现有技术中的缺点,提供一种电力现场作业的风控语音识别方法,通过将
音频数据分割为长度更短的音频
切片,通过
倍速处理对其中关键的目标音频切片进行去噪,并对倍速处理后的音频数据进行语音识别,并将语音识别结果与风控禁词库进行匹配,能够解决现有的面向公共领域的语音识别技术进行电力现场作业的风控语音识别时,语音识别准确性不高的问题,使得电力现场作业的风控语音识别准确性能够得到保障,从而进一步提高风控管理的工作效率。
4.本发明的目的是通过下述技术方案予以实现:
5.一种电力现场作业的风控语音识别方法,包括:
6.实时采集电力现场作业过程中的音频数据,对音频数据进行切分,获取若干个音频切片,从获取的音频切片中确定目标音频切片;
7.对目标音频切片进行倍速处理,并将倍速处理后的目标音频切片与其余未进行倍速处理的音频切片按照原顺序进行拼接,获取倍速处理后的音频数据;
8.对倍速处理后的音频数据进行语音识别,根据语音识别结果进行文字转写,并将转写的文字与风控禁词库进行匹配,根据匹配结果确定采集的音频数据中是否存在禁词信息,根据禁词信息获取电力现场施工过程中的风险情况。
9.进一步的,在对音频数据进行切分时,通过ffmpeg算法对音频数据以最小时间段进行分片截取,并实时判断音频数据分片截取后的剩余长度,当切分后的音频数据剩余长度小于以最小时间段进行分片截取的切片长度时,完成音频切分,并不处理剩余的音频数据。
10.进一步的,在根据语音识别结果进行文字转写,并将转写的文字与风控禁词库进行匹配时,先对转写后的文字进行信息提取,并根据提取的信息对音频数据转写的文字进行截取,并依次将截取的每个句子与禁词库进行匹配。
11.进一步的,将截取的每个句子与禁词库进行匹配后,还对存在禁词的句子添加对应标注,在完成转写的文字与禁词库的匹配后,将音频数据转写的文字截取的所有句子按
照标注进行分类。
12.进一步的,对转写后的文字进行信息提取时,提取的信息包括时间段信息和关键词信息,并根据时间段信息对音频数据转写的文字进行截取。
13.进一步的,在对目标音频切片进行倍速处理前,还确定目标音频切片对应的目标倍速值。
14.进一步的,所述确定目标音频切片的目标倍速值的具体过程为:对目标音频切片进行语音识别,获取目标音频切片的初始语音识别结果,将当前预设倍速值取值范围的中值作为初始目标倍速值,根据初始目标倍速值对目标音频切片进行倍速处理,并对倍速处理后的目标音频切片进行语音识别,将倍速处理后的目标音频切片的语音识别结果与初始语音识别结果进行比较,根据比较结果调整预设倍速取值范围的上限或下限,取调整后的预设倍速值取值范围的中值作为更新后的目标倍速值,根据更新后的目标倍速值对目标音频切片进行倍速处理,并对倍速处理后的目标音频切片进行语音识别,重复执行以上将倍速处理后的目标音频切片的语音识别结果与初始语音识别结果进行比较,根据比较结果调整预设倍速取值范围的上限或下限,并更新目标倍速值的步骤,直至预设倍速取值范围的下限大于或等于预设取值范围的上限,将预设倍速取值范围的下限大于或等于预设取值范围的上限时的预设倍速取值范围的中值作为目标音频切片的目标倍速值。
15.进一步的,通过基于mfcc算法的语音识别模型对倍速处理后的音频数据进行语音识别。
16.本发明的有益效果是:
17.能够将音频数据进行拆分,从而获取长度更短的音频切片,并从音频切片中选取关键的目标音频切片进行倍速处理,从而实现对于目标音频切片的去噪,仅对于目标音频切片的倍速处理能够使得数据处理量大大降低,能够进一步提升语音识别的效率,但又不会造成音频数据内信息的丢失。且在完成语音识别后,能够将语音识别的内容与风控禁词库进行匹配,从而判断出音频数据内是否存在风控禁词,能够适应电力现场作业的风控管理需求,从而保障电力现场作业的风控管理效率。
附图说明
18.图1是本发明的一种流程示意图。
具体实施方式
19.下面结合附图和实施例对本发明进一步描述。
20.实施例:
21.一种电力现场作业的风控语音识别方法,如图1所示,包括:
22.实时采集电力现场作业过程中的音频数据,对音频数据进行切分,获取若干个音频切片,从获取的音频切片中确定目标音频切片;
23.对目标音频切片进行倍速处理,并将倍速处理后的目标音频切片与其余未进行倍速处理的音频切片按照原顺序进行拼接,获取倍速处理后的音频数据;
24.对倍速处理后的音频数据进行语音识别,根据语音识别结果进行文字转写,并将转写的文字与风控禁词库进行匹配,根据匹配结果确定采集的音频数据中是否存在禁词信
息,根据禁词信息获取电力现场施工过程中的风险情况。
25.在进行电力现场作业时,电力现场内设备以及作业人员会针对电力现场存在的故障情况等发出对应的告警,即风控禁词库中的内容。在将音频数据进行语音识别后,能够通过与风控禁词库中的内容进行匹配,从而确定电力现场作业过程中出现的故障问题等风险情况,从而实行后续的风控管理。
26.而在确定目标音频切片时,对每个音频切片分别进行语音识别,并根据语音识别结果筛选出包含关键词的音频切片,将包含预设关键词的音频切片作为目标音频切片。所述预设关键词可以根据电力作业工单的内容进行对应设置,可以为电力现场的具体设备名称、作业人员的设备运行评价等与风控管理相关的词语。
27.在对音频数据进行切分时,通过ffmpeg算法对音频数据以最小时间段进行分片截取,并实时判断音频数据分片截取后的剩余长度,当切分后的音频数据剩余长度小于以最小时间段进行分片截取的切片长度时,完成音频切分,并不处理剩余的音频数据。
28.音频切分后,能够将音频数据拆分为更小时间单位的音频切片,在后续进行去噪处理时,能够针对音频数据中的部分进行去噪,从而降低数据处理量,进一步提高语音识别的效率。
29.在根据语音识别结果进行文字转写,并将转写的文字与风控禁词库进行匹配时,先对转写后的文字进行信息提取,并根据提取的信息对音频数据转写的文字进行截取,并依次将截取的每个句子与禁词库进行匹配。
30.在进行文字转写后,能够将语音识别结果转换为文字形式,在后续进行风控管理,调取音频数据时,能够通过转写的文字确定电力现场作业的具体情况。
31.将截取的每个句子与禁词库进行匹配后,还对存在禁词的句子添加对应标注,在完成转写的文字与禁词库的匹配后,将音频数据转写的文字截取的所有句子按照标注进行分类。
32.在判断存在禁词后,对存在禁词的句子根据禁词添加标注,而由于不同禁词所对应的风险情况不同,因此将句子按照标注进行分类,能够完善每种风险情况的具体内容,从而提高电力现场作业的风险管理效率。
33.对转写后的文字进行信息提取时,提取的信息包括时间段信息和关键词信息,并根据时间段信息对音频数据转写的文字进行截取。
34.时间段信息能够将音频数据内的信息划分为不同时间阶段,对于截取后的句子进行禁词匹配,从而达到分析不同时间阶段内的电力现场作业情况的目的。由于电力现场作业的风险情况也存在有不同阶段,通过阶段性的禁词匹配分析,能够对于电力现场作业的风险情况发展进行分析,从而更好的进行电力现场作业的风控管理。
35.在对目标音频切片进行倍速处理前,还确定目标音频切片对应的目标倍速值。
36.所述确定目标音频切片的目标倍速值的具体过程为:对目标音频切片进行语音识别,获取目标音频切片的初始语音识别结果,将当前预设倍速值取值范围的中值作为初始目标倍速值,根据初始目标倍速值对目标音频切片进行倍速处理,并对倍速处理后的目标音频切片进行语音识别,将倍速处理后的目标音频切片的语音识别结果与初始语音识别结果进行比较,根据比较结果调整预设倍速取值范围的上限或下限,取调整后的预设倍速值取值范围的中值作为更新后的目标倍速值,根据更新后的目标倍速值对目标音频切片进行
倍速处理,并对倍速处理后的目标音频切片进行语音识别,重复执行以上将倍速处理后的目标音频切片的语音识别结果与初始语音识别结果进行比较,根据比较结果调整预设倍速取值范围的上限或下限,并更新目标倍速值的步骤,直至预设倍速取值范围的下限大于或等于预设取值范围的上限,将预设倍速取值范围的下限大于或等于预设取值范围的上限时的预设倍速取值范围的中值作为目标音频切片的目标倍速值。
37.在确定预设倍速值取值范围的上限以及下限时,通过fft算法计算语音识别模型对于不同播放速度的音频数据的理解能力,并基于计算结果确定预设倍速值取值范围的上限与下限。
38.通过fft算法能够计算不同播放速度下,语音识别模型对于音频的理解能力,从而设定倍速值取值范围的上限和下限,保障在倍速后的音频数据能够被语音识别模型所识别,防止因倍速处理而导致目标音频切片内的信息出现偏差。
39.通过基于mfcc算法的语音识别模型对倍速处理后的音频数据进行语音识别。
40.mfcc算法能够对音频数据进行特征提取,进一步降低噪音等其他因素对于音频数据语音识别结果的影响。而语音识别模型可以为常见的机器学习模型或神经网络模型等。
41.以上所述的实施例只是本发明的一种较佳的方案,并非对本发明作任何形式上的限制,在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。
技术特征:
1.一种电力现场作业的风控语音识别方法,其特征在于,包括:实时采集电力现场作业过程中的音频数据,对音频数据进行切分,获取若干个音频切片,从获取的音频切片中确定目标音频切片;对目标音频切片进行倍速处理,并将倍速处理后的目标音频切片与其余未进行倍速处理的音频切片按照原顺序进行拼接,获取倍速处理后的音频数据;对倍速处理后的音频数据进行语音识别,根据语音识别结果进行文字转写,并将转写的文字与风控禁词库进行匹配,根据匹配结果确定采集的音频数据中是否存在禁词信息,根据禁词信息获取电力现场施工过程中的风险情况。2.根据权利要求1所述的一种电力现场作业的风控语音识别方法,其特征在于,在对音频数据进行切分时,通过ffmpeg算法对音频数据以最小时间段进行分片截取,并实时判断音频数据分片截取后的剩余长度,当切分后的音频数据剩余长度小于以最小时间段进行分片截取的切片长度时,完成音频切分,并不处理剩余的音频数据。3.根据权利要求1所述的一种电力现场作业的风控语音识别方法,其特征在于,在根据语音识别结果进行文字转写,并将转写的文字与风控禁词库进行匹配时,先对转写后的文字进行信息提取,并根据提取的信息对音频数据转写的文字进行截取,并依次将截取的每个句子与禁词库进行匹配。4.根据权利要求3所述的一种电力现场作业的风控语音识别方法,其特征在于,将截取的每个句子与禁词库进行匹配后,还对存在禁词的句子添加对应标注,在完成转写的文字与禁词库的匹配后,将音频数据转写的文字截取的所有句子按照标注进行分类。5.根据权利要求3所述的一种电力现场作业的风控语音识别方法,其特征在于,对转写后的文字进行信息提取时,提取的信息包括时间段信息和关键词信息,并根据时间段信息对音频数据转写的文字进行截取。6.根据权利要求1所述的一种电力现场作业的风控语音识别方法,其特征在于,在对目标音频切片进行倍速处理前,还确定目标音频切片对应的目标倍速值。7.根据权利要求6所述的一种电力现场作业的风控语音识别方法,其特征在于,所述确定目标音频切片的目标倍速值的具体过程为:对目标音频切片进行语音识别,获取目标音频切片的初始语音识别结果,将当前预设倍速值取值范围的中值作为初始目标倍速值,根据初始目标倍速值对目标音频切片进行倍速处理,并对倍速处理后的目标音频切片进行语音识别,将倍速处理后的目标音频切片的语音识别结果与初始语音识别结果进行比较,根据比较结果调整预设倍速取值范围的上限或下限,取调整后的预设倍速值取值范围的中值作为更新后的目标倍速值,根据更新后的目标倍速值对目标音频切片进行倍速处理,并对倍速处理后的目标音频切片进行语音识别,重复执行以上将倍速处理后的目标音频切片的语音识别结果与初始语音识别结果进行比较,根据比较结果调整预设倍速取值范围的上限或下限,并更新目标倍速值的步骤,直至预设倍速取值范围的下限大于或等于预设取值范围的上限,将预设倍速取值范围的下限大于或等于预设取值范围的上限时的预设倍速取值范围的中值作为目标音频切片的目标倍速值。8.根据权利要求1所述的一种电力现场作业的风控语音识别方法,其特征在于,通过基于mfcc算法的语音识别模型对倍速处理后的音频数据进行语音识别。
技术总结
本发明提供了一种电力现场作业的风控语音识别方法,所述风控语音识别方法具体为:实时采集电力现场作业过程中的音频数据,对音频数据进行切分,获取若干个音频切片,确定目标音频切片;对目标音频切片进行倍速处理,并将倍速处理后的目标音频切片与其余未进行倍速处理的音频切片按照原顺序进行拼接,获取倍速处理后的音频数据;对倍速处理后的音频数据进行语音识别并进行文字转写,并将转写的文字与风控禁词库进行匹配,确定采集的音频数据中是否存在禁词信息,根据禁词信息获取电力现场施工过程中的风险情况。本发明能够降低数据处理量,提升语音识别的效率,并通过将语音识别结果与风控禁词库的匹配满足电力现场作业的风控管理需求。控管理需求。控管理需求。
技术研发人员:
赖圣聪 杨振 夏陈喆 叶怡君 于杨 雷跃 朱纹 郭和川 林世溪 阮敏峰 陈丹霏 方雯雯 缪婷婷 陈金生 温应鸽 蔡洁
受保护的技术使用者:
国网浙江省电力有限公司双创中心
技术研发日:
2022.11.03
技术公布日:
2023/3/7