噪声声源事件检测方法、装置、电子设备及存储介质与流程

阅读: 评论:0



1.本发明涉及计算机人工智能技术领域,尤其涉及一种噪声声源事件检测方法、装置、电子设备及存储介质。


背景技术:



2.声源事件和定位可以被用于船舶和车辆的检测、环境中(如发动机、汽车、飞机)主要噪声源的定位、通信设备或语音识别处理中的目标选择和干扰抑制,以及机械系统的状态监测。由于能够估计声源强度和声场信息,声源定位方法已被广泛应用于影院系统的声学设计、振动的非接触式测量,会议音频系统及噪声溯源定位检测系统。
3.现有技术通常基于相对时延估计的方法。由于阵列的几何结构,各个阵列接收到的信号都有不同程度的延时,而基于相对时延估计的方法通过互相关、广义互相关(generalized cross-correlation,gcc)或相位差等来估计各个阵列信号之间的时延差,再结合阵列的几何结构来估算声源的方位角信息,准确率偏低。


技术实现要素:



4.本发明实施例的主要目的在于提出一种噪声声源事件检测方法、装置、电子设备及存储介质,提高了准确率和声源检测的扩展性。
5.本发明的一方面提供了一种噪声声源事件检测方法,包括:
6.响应于噪声声源事件检测请求,获取噪声声源的多声道音频;
7.对所述多声道音频执行特征提取,得到第一特征序列
8.通过卷积神经网络对所述第一特征序列执行正则化及降维处理,得到第二特征序列;
9.通过循环卷积神经网络对所述第二特征序列确定时间序列信息,得到第三特征序列;
10.对所述第三特征进行映射及分类,确定所述多声道音频的声音事件和到达方向。
11.根据所述的噪声声源事件检测方法,其中对所述多声道音频执行特征提取,得到第一特征序列,包括:
12.在每个音频通道上计算频谱图的相位和幅度分量;
13.将列连续的所述频谱图的时间帧作为输入,输出所述第一特征序列,所述第一特征序列,所述第一特征序列的尺寸通过所述幅值和相分量确定。
14.根据所述的噪声声源事件检测方法,其中通过卷积神经网络对所述第一特征序列执行正则化及降维处理,得到第二特征序列,包括:
15.通过三层二维卷积学习所述频谱图中的特征,所述二维卷积包括的p滤波器和relu激活函数;
16.将学习后的特征进行正则化,并使用最大池降低维数,以使特征的序列长度保持不变,输出得到所述第二特征序列。
17.根据所述的噪声声源事件检测方法,其中通过循环卷积神经网络对所述第二特征序列确定时间序列信息,得到第三特征序列,包括:
18.对所述第二特征序列进行激活并进行整形;
19.通过双向循环卷积基于所述第二特征序列的时间上下文信息进行学习。
20.根据所述的噪声声源事件检测方法,其中对所述第三特征进行映射及分类,确定所述多声道音频的声音事件和到达方向,包括:
21.通过第一全链接层分支和第二全连接层分支分别将所述第三特征并行映射至第一输出和第二输出,所述第一全链接层分支和所述第二全连接层分支并行;
22.所述第一输出为所述声音事件的检测,用于表征每个时间帧上的多标签分类任务执行结果;
23.所述第二输出通过使用多输出回归,估计每个声音事件类别的到达方向的三维笛卡尔坐标来执行定位和追踪。
24.根据所述的噪声声源事件检测方法,其中方法还包括:
25.通过包括有n个节点的所述第一全连接层,对包括n个声音事件类型采用sigmoid非线性激活函数进行分类,得到声音事件的分类结果;
26.通过包括有3n个节点的所述第二全连接层,对包括n个声音事件类型采用tanh激活进行分类,得到声音事件的到达方向,其中,每个声音事件类型对应三个节点,每个节点分别用于表征空间中x轴、y轴和z轴中的声音事件位置;
27.基于交叉验证对网络超参数进行优化。
28.根据所述的噪声声源事件检测方法,其中方法还包括:
29.对噪声声源事件检测方法进行训练时,只训练声音事件任务分支,将学习到的特征层转移至到达方向任务估计分支;
30.通过对到达方向任务估计分支微调已传输的特征层,并使用声音事件任务分支的真实值作为掩码来学习到达方向任务估计;
31.以及,在推断期间,使用声音事件任务分支先估算声音事件任务预测,将输出与阈值进行二值化,以形成用于到达方向推理的声音事件掩码,并将均值集成用于到达方向预测。
32.本发明实施例的另一方面提供了一种噪声声源事件检测装置,包括:
33.采集模块,用于响应于噪声声源事件检测请求,获取噪声声源的多声道音频;
34.第一特征模块,用于对所述多声道音频执行特征提取,得到第一特征序列;
35.第二特征模块,用于通过卷积神经网络对所述第一特征序列执行正则化及降维处理,得到第二特征序列;
36.第三特征模块,用于通过循环卷积神经网络对所述第二特征序列确定时间序列信息,得到第三特征序列;
37.分类模块,用于对所述第三特征进行映射及分类,确定所述多声道音频的声音事件和到达方向。
38.本发明实施例的另一方面提供了一种电子设备,包括处理器以及存储器;
39.所述存储器用于存储程序;
40.所述处理器执行所述程序实现如前文所描述的方法。
41.本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前文所描述的方法。
42.本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
43.本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
44.图1是本发明实施例的方法的流程示意图。
45.图2是本发明实施例的多声道音频的特征提取流程示意图。
46.图3是本发明实施例的卷积神经网络的特征处理流程示意图。
47.图4是本发明实施例的循环卷积神经网络的确定时间序列信息流程示意图。
48.图5是本发明实施例的声音事件和到达方向的分类流程示意图。
49.图6是本发明实施例的多声道音频的的详细流程示意图。
50.图7是本发明实施例的噪声声源事件检测训练流程示意图。
51.图8是本发明实施例的噪声声源事件检测分析装置图。
具体实施方式
52.下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特有的意义。因此,“模块”、“部件”或“单元”可以混合地使用。“第一”、“第二”等只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。在本后续的描述中,对方法步骤的连续标号是为了方便审查和理解,结合本发明的整体技术方案以及各个步骤之间的逻辑关系,调整步骤之间的实施顺序并不会影响本发明技术方案所达到的技术效果。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
53.术语解释:
54.深度学习:深度学习是机器学习的一种,而机器学习是实现人工智能的必经路径。深度学习的概念源于人工神经网络的研究,含多个隐藏层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。研究深度学习的动机在于建立模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本等。
55.语音处理:语音处理是计算机科学领域以及人工智能领域的一个重要的研究方向,它研究用计算机来处理、,达到人与计算机之间进行有效通讯。语音处理主要应用于语音分类、噪声检测、语音识别等方面。
56.mfcc:指梅尔倒频谱,在信号处理中,梅尔倒频谱系一个可用来代表短期音频的频谱,其原理基于用非线性的梅尔刻度表示的对数频谱及其线性余弦转换上。梅尔频率倒谱系数是一组用来创建梅尔倒频谱的关键系数。由音乐信号当中的片段,可以得到一组足以代表此音乐信号之倒频谱,而梅尔倒频谱系数即是从这个倒频谱中推得的倒频谱。
57n:卷积神经网络(cnn或convnet)是一类深度神经网络,最常用于分析视觉图像。cnn使用多层感知器的变体设计,需要最少的预处理。它们也被称为移位不变或空间不变人工神经网络(siann),基于它们的共享权重架构和平移不变性特征。
58.rnn:循环神经网络(rnn)是一类深度循环神经网络,最常用于分析序列数据,rnn使用lstm等多层感知器的变体设计,需要最少的预处理。
59.声源定位:声源定位技术是指利用多个麦克风在环境不同位置点对声信号进行测量,由于声信号到达各麦克风的时间有不同程度的延迟,利用算法对测量到的声信号进行处理,由此获得声源点相对于麦克风的到达方向(包括方位角、俯仰角)和距离等。
60.如图1所示,本发明实施例提供了一种噪声声源事件检测方法的流程,该方法具体包括但不限于步骤s100-s500。
61.s100,响应于噪声声源事件检测请求,获取噪声声源的多声道音频。
62.在一些实施例中,其中的多声道音频用于表示三维空间中多个重叠声音事件的联合声音,对于多声道音频的采集通过如多个麦克风矩阵对多声道音频进行声源定位和采集;
63.s200,对多声道音频执行特征提取,得到第一特征序列;
64.在一些实施例中,参考图2,其包括了多声道音频的特征提取流程,包括但不限于步骤s210~s220:
65.s210,在每个音频通道上计算频谱图的相位和幅度分量;
66.s220,将列连续的频谱图的时间帧作为输入,输出第一特征序列,第一特征序列,第一特征序列的尺寸通过幅值和相分量确定。
67.示例性地,输入的是多声道音频,在每个音频通道上计算的频谱图的相位和幅度分量分别用作特征,将一系列连续的频谱图时间帧作为输入。输出是t帧的特征序列,总体尺寸为t*m/2*2c,其中2c尺寸由c幅值和c相分量组成。
68.本实施例通过利用谱图的相位和幅度分量进行分离计算每个音频通道作为功能,从而避免任何特定于方法和阵列的特征提取。
69.s300,通过卷积神经网络对第一特征序列执行正则化及降维处理,得到第二特征序列;
70.在一些实施例中,参考图3,其包括卷积神经网络的特征处理流程图,包括但不限于步骤s310~s320:
71.s310,通过三层二维卷积学习频谱图中的特征,二维卷积包括的p滤波器和relu激活函数;
72.s320,将学习后的特征进行正则化,并使用最大池降低维数,以使特征的序列长度保持不变,输出得到第二特征序列。
73.示例性地,基于图2所示的实施例,图2所示的经特征提取的输出被馈送到卷积神经网络,图3的流程在模型架构中,其使用3层2dcnn来学习频谱图中的特征。cnn的卷积层中
包括3*3*2c接收场的p滤波器和relu激活函数。之后将特征进行正则化,并使用最大池(mpi)降低维数,从而保持序列长度t不变。最后一个卷积层之后的输出尺寸为t*p*2。
74.s400,通过循环卷积神经网络对第二特征序列确定时间序列信息,得到第三特征序列;
75.在一些实施例中,参考图4,其公开了循环卷积神经网络的确定时间序列信息流程图,包括但不限于步骤s410~s420:
76.s410,对第二特征序列进行激活并进行整形;
77.s420,通过双向循环卷积基于第二特征序列的时间上下文信息进行学习。
78.示例性地,卷积神经网络的输出激活被进一步整形为长度为2p特征向量的t帧序列,并馈送到双向rnn层,用于从cnn输出激活中学习时间上下文信息。门控循环单元(gru)的q个节点在具有tanh激活的每一层中使用。
79.s500,对第三特征进行映射及分类,确定多声道音频的声音事件和到达方向。
80.在一些实施例中,参考图5,其公开了声音事件和到达方向的流程图,其包括但不限于步骤s510~s520:
81.s510,过第一全链接层分支和第二全连接层分支分别将第三特征并行映射至第一输出和第二输出,第一全链接层分支和第二全连接层分支并行;
82.示例性地,参考图6,两个并行的全链接层(fc)分支,并将其并行映射到两个输出,第一输出是声音事件检测(sed),作为每个时间帧上的多标签分类任务执行,从而为所有声音事件类别产生时间活动。第二输出通过使用多输出回归估计每个声音事件类别的到达方向(doa)的3-d笛卡尔坐标来执行定位和追踪。
83.s520,得到第一输出,第一输出为声音事件的检测,用于表征每个时间帧上的多标签分类任务执行结果;得到第二输出,第二输出通过使用多输出回归,估计每个声音事件类别的到达方向的三维笛卡尔坐标来执行定位和追踪。
84.示例性地,在第映射的步骤中,第一个fc层包含r个节点,每个节点都具有线性激活。sed模块中的最后一个fc层由s型激活的n个节点组成,每个节点对应于要检测的n个声音事件类别之一。使用sigmoid非线性激活函数可以同时激活多个类。doa模块中的最后一个fc层由具有tanh激活的3n个节点组成,其中n个声音事件类别中的每一个分别由3个节点表示,分别对应于x,y和z中的声音事件位置。最后基于交叉验证对网络超参数进行了优化。
85.在一些实施例中,参考图7,其包括噪声声源事件检测训练的流程示意图,其包括但不限于步骤s710~s730:
86.s710,对噪声声源事件检测方法进行训练时,只训练声音事件任务分支,将学习到的特征层转移至到达方向任务估计分支;
87.s720,通过对到达方向任务估计分支微调已传输的特征层,并使用声音事件任务分支的真实值作为掩码来学习到达方向任务估计;
88.s730,在推断期间,使用声音事件任务分支先估算声音事件任务预测,将输出与阈值进行二值化,以形成用于到达方向推理的声音事件掩码,并将均值集成用于到达方向预测。
89.示例性地,在训练期间,首先仅训练sed任务分支,然后将学习到的特征层转移到doa任务估计分支。doa估计分支会微调已传输的特征层,并使用sed真实值作为掩码来学习
doa估计。在推断期间,sed分支先估算sed预测,使用集成来提高sed的性能,然后将输出与阈值进行二值化,以形成用于doa推理的sed掩码,最后将均值集成用于doa预测。
90.图8是本发明实施例的噪声声源事件检测分析装置图。该装置包括了采集模块810、第一特征模块820、第一特征模块830、第一特征模块840及分类模块850。
91.其中,采集模块,用于响应于噪声声源事件检测请求,获取噪声声源的多声道音频;第一特征模块,用于对多声道音频执行特征提取,得到第一特征序列;第二特征模块,用于通过卷积神经网络对第一特征序列执行正则化及降维处理,得到第二特征序列;第三特征模块,用于通过循环卷积神经网络对第二特征序列确定时间序列信息,得到第三特征序列;分类模块,用于对第三特征进行映射及分类,确定多声道音频的声音事件和到达方向。
92.示例性地,在装置中的采集模块、分类模块、训练模块,实施例装置可以实现前述的任意一种噪声声源事件检测方法,即响应于噪声声源事件检测请求,获取噪声声源的多声道音频;对多声道音频执行特征提取,得到第一特征序列;通过卷积神经网络对第一特征序列执行正则化及降维处理,得到第二特征序列;通过循环卷积神经网络对第二特征序列确定时间序列信息,得到第三特征序列;对第三特征进行映射及分类,确定多声道音频的声音事件和到达方向。本发明的实施例将每个声音事件输出类绑定到三个用于估计各自笛卡尔坐标的回归器,结果表明,使用回归有助于在连续空间,还可以估计看不见的到达方向值,本发明的实施例使用相位和作为输入特征的幅值谱图,此类非特定于方法的功能使方法具有通用性,并且易于扩展到不同的阵列结构。
93.本发明实施例还提供了一种电子设备,该电子设备包括处理器以及存储器;
94.存储器存储有程序;
95.处理器执行程序以执行前述的噪声声源事件检测方法;该电子设备具有搭载并运行本发明实施例提供的噪声声源事件检测的软件系统的功能,例如,个人计算机(personal computer,pc)、手机、智能手机、个人数字助手(personal digital assistant,pda)、可穿戴设备、掌上电脑ppc(pocket pc)、平板电脑等。
96.本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的噪声声源事件检测方法。
97.在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
98.本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前述的噪声声源事件检测方法。
99.此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理
解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
100.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
101.在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
102.计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
103.应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
104.在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
105.尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本
发明的范围由权利要求及其等同物限定。
106.以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本技术权利要求所限定的范围内。

技术特征:


1.一种噪声声源事件检测方法,其特征在于,包括:响应于噪声声源事件检测请求,获取噪声声源的多声道音频;对所述多声道音频执行特征提取,得到第一特征序列;通过卷积神经网络对所述第一特征序列执行正则化及降维处理,得到第二特征序列;通过循环卷积神经网络对所述第二特征序列确定时间序列信息,得到第三特征序列;对所述第三特征进行映射及分类,确定所述多声道音频的声音事件和到达方向。2.根据权利要求1所述的噪声声源事件检测方法,其特征在于,所述对所述多声道音频执行特征提取,得到第一特征序列,包括:在每个音频通道上计算频谱图的相位和幅度分量;将列连续的所述频谱图的时间帧作为输入,输出所述第一特征序列,所述第一特征序列,所述第一特征序列的尺寸通过所述幅值和相分量确定。3.根据权利要求2所述的噪声声源事件检测方法,其特征在于,所述通过卷积神经网络对所述第一特征序列执行正则化及降维处理,得到第二特征序列,包括:通过三层二维卷积学习所述频谱图中的特征,所述二维卷积包括的p滤波器和relu激活函数;将学习后的特征进行正则化,并使用最大池降低维数,以使特征的序列长度保持不变,输出得到所述第二特征序列。4.根据权利要求2所述的噪声声源事件检测方法,其特征在于,所述通过循环卷积神经网络对所述第二特征序列确定时间序列信息,得到第三特征序列,包括:对所述第二特征序列进行激活并进行整形;通过双向循环卷积基于所述第二特征序列的时间上下文信息进行学习。5.根据权利要求1所述的噪声声源事件检测方法,其特征在于,对所述第三特征进行映射及分类,确定所述多声道音频的声音事件和到达方向,包括:通过第一全链接层分支和第二全连接层分支分别将所述第三特征并行映射至第一输出和第二输出,所述第一全链接层分支和所述第二全连接层分支并行;所述第一输出为所述声音事件的检测,用于表征每个时间帧上的多标签分类任务执行结果;所述第二输出通过使用多输出回归,估计每个声音事件类别的到达方向的三维笛卡尔坐标来执行定位和追踪。6.根据权利要求5所述的噪声声源事件检测方法,其特征在于,所述方法还包括:通过包括有n个节点的所述第一全连接层,对包括n个声音事件类型采用sigmoid非线性激活函数进行分类,得到声音事件的分类结果;通过包括有3n个节点的所述第二全连接层,对包括n个声音事件类型采用tanh激活进行分类,得到声音事件的到达方向,其中,每个声音事件类型对应三个节点,每个节点分别用于表征空间中x轴、y轴和z轴中的声音事件位置;基于交叉验证对网络超参数进行优化。7.根据权利要求6所述的噪声声源事件检测方法,其特征在于,所述方法还包括:对噪声声源事件检测方法进行训练时,只训练声音事件任务分支,将学习到的特征层转移至到达方向任务估计分支;
通过对到达方向任务估计分支微调已传输的特征层,并使用声音事件任务分支的真实值作为掩码来学习到达方向任务估计;以及,在推断期间,使用声音事件任务分支先估算声音事件任务预测,将输出与阈值进行二值化,以形成用于到达方向推理的声音事件掩码,并将均值集成用于到达方向预测。8.一种噪声声源事件检测装置,其特征在于,包括:采集模块,用于响应于噪声声源事件检测请求,获取噪声声源的多声道音频;第一特征模块,用于对所述多声道音频执行特征提取,得到第一特征序列;第二特征模块,用于通过卷积神经网络对所述第一特征序列执行正则化及降维处理,得到第二特征序列;第三特征模块,用于通过循环卷积神经网络对所述第二特征序列确定时间序列信息,得到第三特征序列;分类模块,用于对所述第三特征进行映射及分类,确定所述多声道音频的声音事件和到达方向。9.一种电子设备,其特征在于,包括处理器以及存储器;所述存储器用于存储程序;所述处理器执行所述程序实现如权利要求1-7中任一项所述的噪声声源事件检测方法。10.一种计算机可读存储介质,其特征在于,所述存储介质存储有程序,所述程序被处理器执行实现如权利要求1-7中任一项所述的噪声声源事件检测方法。

技术总结


本发明提供一种噪声声源事件检测方法、装置、电子设备及存储介质,该噪声声源事件检测方法包括:获取噪声声源的多声道音频;对多声道音频执行特征提取,得到第一特征序列;通过卷积神经网络对第一特征序列执行正则化及降维处理,得到第二特征序列;通过循环卷积神经网络对第二特征序列确定时间序列信息,得到第三特征序列;对第三特征进行映射及分类,确定多声道音频的声音事件和到达方向。本发明的有益效果为:提高了准确率和声源检测的扩展性,易于扩展到不同的阵列结构。易于扩展到不同的阵列结构。易于扩展到不同的阵列结构。


技术研发人员:

石磊 刘立峰 宋卫华 母健康 徐从文 刘广红 王文重 张建军

受保护的技术使用者:

珠海高凌信息科技股份有限公司

技术研发日:

2022.07.29

技术公布日:

2022/11/8

本文发布于:2022-11-28 12:06:29,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/4/10295.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:声源   特征   所述   序列
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图