1.本发明涉及一种基于
感兴趣区域的音频增强编码传输系统及方法。
背景技术:
2.现有
声音采集设备对各个方位声音无差别选择或挑响度最高声音进行统一音频编码,这边感兴趣区域的声音与非感兴趣区域的声音无差统一处理,这里制造无用信息对传输与存储资源占用,无法平衡网络传输与后续数据存储数据量。
技术实现要素:
3.本发明提供了一种基于感兴趣区域的音频增强编码传输系统及方法解决上述提到的技术问题,具体采用如下的技术方案:
4.一种基于感兴趣区域的音频增强编码传输系统,包含:麦克风阵列采样
模块、多声源提取模块、降采样模块、神经网络感兴趣识别模块、声音感兴趣选择模块、声音感兴趣编码模块、打包传输模块、声音感兴趣解码模块、升采样模块、声音选择混合模块和扬声器渲染模块;
5.麦克风阵列采样模块通过多个麦克风采集声音,每个麦克风独立输出高采样率的pcm音频数据和
时间戳至多声源提取模块;
6.多声源提取模块接收麦克风阵列采样模块发送的每个声音源的pcm音频数据和时间戳,获取每个声音源的角度方位,分别针对每个声音源的角度,使用多个麦克风接收到声波的相位之间的差异对余下角度的声波进行过滤,得到需要的每个声音源的高采样率pcm数据,根据每个声音源的角度获取区块标号,把每个声音源的高采样率pcm数据、区块标号和时间戳发送至降采样模块和声音感兴趣编码模块;
7.降采样模块对每个声音源的高采样率pcm数据进行降低采样率处理得到第一低采样率pcm数据,将每个声音源的第一低采样率pcm数据、区块标号和时间戳发送至神经网络感兴趣识别模块,降采样模块再对每个声音源的第一低采样率pcm数据进行降低采样率处理得到第二低采样率pcm数据,将每个声音源的第二低采样率pcm数据、区块标号和时间戳发送至声音感兴趣编码模块;
8.神经网络感兴趣识别模块接收每个声音源的第一低采样率pcm数据、区块标号和时间戳,将语音转为文字,对文字进行分类,判断其是否为感兴趣的声音源,神经网络感兴趣识别模块将每个声音源的分类结果、区块标号和时间戳发送至声音感兴趣选择模块;
9.声音感兴趣选择模块接收神经网络感兴趣识别模块的每个声音源的分类结果、区块标号和时间戳,声音感兴趣选择模块把时间戳按照分片时长t进行分片,将该时间戳除以分片时长t得到时间编号序号,联合时间编号序号和区块标号生成每个声音源的分区时间槽位id,对于分类结果为感兴趣的声音源,把符合声音源对区块标号以及时间编号序号大于等于当前时间编号序号且时间编号序号小于等于当前时间编号序号加调节宽度k的分区时间槽位id标识为感兴趣选择,并将标识为感兴趣选择的分区时间槽位id发送至声音感兴
趣编码模块;
10.声音感兴趣编码模块接收多声源提取模块发送的每个声音源的高采样率pcm数据、区块标号和时间戳,接收降采样模块发送的每个声音源的第二低采样率pcm数据、区块标号和时间戳,接收声音感兴趣选择模块发送的感兴趣选择的分区时间槽位id,声音感兴趣编码模块将高采样率的时间戳除以分片时长t得到时间编号序号,联合时间编号序号和区块标号生成高采样率的分区时间槽位id,声音感兴趣编码模块将低采样率的时间戳除以分片时长t得到时间编号序号,联合时间编号序号和区块标号生成低采样率的分区时间槽位id,对于分区时间槽位id为感兴趣选择分片,选择高采样率pcm数据进行音频编码压缩得声音源的音频增强压缩流,对于分区时间槽位id不是感兴趣选择分片,选择第二低采样率pcm数据进行音频编码压缩得到声音源的音频标准压缩流,声音感兴趣编码模块将各个声音源的音频标准压缩或音频增强压缩流与对应的分区时间槽位id发送至打包传输模块;
11.打包传输模块接收各个声音源的音频标准压缩或音频增强压缩流与对应的分区时间槽位id,进行网络rtp打包发送至声音感兴趣解码模块;
12.声音感兴趣解码模块接收打包传输模块发送的每个声音源的音频标准压缩流或音频增强压缩流与对应的分区时间槽位id,声音感兴趣解码模块对音频压缩流进行音频解码,得到高采样率pcm数据和第二低采样率pcm数据,将每个声音源的高采样率pcm数据与分区时间槽位id发送给声音选择混合模块,把每个声音源的第二低采样率pcm数据与分区时间槽位id发送至升采样模块;
13.升采样模块将第二低采样率pcm数据进行升采样处理得到升采样后pcm数据,再将每个声音源的升采样后pcm数据和分区时间槽位id发送至声音选择混合模块;
14.声音选择混合模块接收发送自声音感兴趣解码模块的每个声音源的高采样率pcm数据与分区时间槽位id和发送自升采样模块的每个声音源的升采样后pcm数据和分区时间槽位id,声音选择混合模块根据设置时间区间与方向区间来选择需要声音混合的声音源,声音选择混合模块把当前时间戳或选择播放时间除以分片时长t得到播放时间编号序号,获取播放时间编号序号符合方向区间的区块标号列表,联合区块标号列表中的区块标号与时间编号序号得到分区时间槽位id,得到容许混合的分区时间槽位id列表,声音选择混合模块判断接收的每个声音源的分区时间槽位id是否在分区时间槽位id列表中,在则参与混合,声音选择混合模块对参与混合的声音源的pcm数据进行混音计算得到混音后pcm数据,把混音后pcm数据发送至扬声器渲染模块;
15.扬声器渲染模块接收到声音选择混合模块的混音后pcm数据,进行数字到模拟的转换,并进行混合声音的播放。
16.进一步地,多声源提取模块根据波达方向估计算法获取每个声音源的角度方位,多声源提取模块将水平角度按照30度等分成12个区块,对每个区块进行标号,根据每个声音源的角度获取区块标号。
17.进一步地,降采样模块将96khz的高采样率pcm数据降低为16khz的第一低采样率pcm数据,再将16khz的第一低采样率pcm数据降低为8khz的第二低采样率pcm数据。
18.进一步地,神经网络感兴趣识别模块使用基于gmm-hmm的声学模型将语音转为文字;
19.把感兴趣词通过预训练好的具有语义知识的词向量进行数据扩展,通过感兴趣词
语料、数据扩展余量和非感兴趣词语料对cnn神经网络模型进行训练得到感兴趣词分类模型,神经网络感兴趣识别模块通过训练好的感兴趣词分类模型对转换后的文字进行分类。
20.进一步地,升采样模块将8khz的第二低采样率pcm数据升为96khz的升采样后pcm数据。
21.一种基于感兴趣区域的音频增强编码传输系统,包含以下步骤:
22.麦克风阵列采样模块通过多个麦克风采集声音,每个麦克风独立输出高采样率的pcm音频数据和时间戳至多声源提取模块;
23.多声源提取模块接收麦克风阵列采样模块发送的每个声音源的pcm音频数据和时间戳,获取每个声音源的角度方位,分别针对每个声音源的角度,使用多个麦克风接收到声波的相位之间的差异对余下角度的声波进行过滤,得到需要的每个声音源的高采样率pcm数据,根据每个声音源的角度获取区块标号,把每个声音源的高采样率pcm数据、区块标号和时间戳发送至降采样模块和声音感兴趣编码模块;
24.降采样模块对每个声音源的高采样率pcm数据进行降低采样率处理得到第一低采样率pcm数据,将每个声音源的第一低采样率pcm数据、区块标号和时间戳发送至神经网络感兴趣识别模块,降采样模块再对每个声音源的第一低采样率pcm数据进行降低采样率处理得到第二低采样率pcm数据,将每个声音源的第二低采样率pcm数据、区块标号和时间戳发送至声音感兴趣编码模块;
25.神经网络感兴趣识别模块接收每个声音源的第一低采样率pcm数据、区块标号和时间戳,将语音转为文字,对文字进行分类,判断其是否为感兴趣的声音源,神经网络感兴趣识别模块将每个声音源的分类结果、区块标号和时间戳发送至声音感兴趣选择模块;
26.声音感兴趣选择模块接收神经网络感兴趣识别模块的每个声音源的分类结果、区块标号和时间戳,声音感兴趣选择模块把时间戳按照分片时长t进行分片,将该时间戳除以分片时长t得到时间编号序号,联合时间编号序号和区块标号生成每个声音源的分区时间槽位id,对于分类结果为感兴趣的声音源,把符合声音源对区块标号以及时间编号序号大于等于当前时间编号序号且时间编号序号小于等于当前时间编号序号加调节宽度k的分区时间槽位id标识为感兴趣选择,并将标识为感兴趣选择的分区时间槽位id发送至声音感兴趣编码模块;
27.声音感兴趣编码模块接收多声源提取模块发送的每个声音源的高采样率pcm数据、区块标号和时间戳,接收降采样模块发送的每个声音源的第二低采样率pcm数据、区块标号和时间戳,接收声音感兴趣选择模块发送的感兴趣选择的分区时间槽位id,声音感兴趣编码模块将高采样率的时间戳除以分片时长t得到时间编号序号,联合时间编号序号和区块标号生成高采样率的分区时间槽位id,声音感兴趣编码模块将低采样率的时间戳除以分片时长t得到时间编号序号,联合时间编号序号和区块标号生成低采样率的分区时间槽位id,对于分区时间槽位id为感兴趣选择分片,选择高采样率pcm数据进行音频编码压缩得声音源的音频增强压缩流,对于分区时间槽位id不是感兴趣选择分片,选择第二低采样率pcm数据进行音频编码压缩得到声音源的音频标准压缩流,声音感兴趣编码模块将各个声音源的音频标准压缩或音频增强压缩流与对应的分区时间槽位id发送至打包传输模块;
28.打包传输模块接收各个声音源的音频标准压缩或音频增强压缩流与对应的分区时间槽位id,进行网络rtp打包发送至声音感兴趣解码模块;
29.声音感兴趣解码模块接收打包传输模块发送的每个声音源的音频标准压缩流或音频增强压缩流与对应的分区时间槽位id,声音感兴趣解码模块对音频压缩流进行音频解码,得到高采样率pcm数据和第二低采样率pcm数据,将每个声音源的高采样率pcm数据与分区时间槽位id发送给声音选择混合模块,把每个声音源的第二低采样率pcm数据与分区时间槽位id发送至升采样模块;
30.升采样模块将第二低采样率pcm数据进行升采样处理得到升采样后pcm数据,再将每个声音源的升采样后pcm数据和分区时间槽位id发送至声音选择混合模块;
31.声音选择混合模块接收发送自声音感兴趣解码模块的每个声音源的高采样率pcm数据与分区时间槽位id和发送自升采样模块的每个声音源的升采样后pcm数据和分区时间槽位id,声音选择混合模块根据设置时间区间与方向区间来选择需要声音混合的声音源,声音选择混合模块把当前时间戳或选择播放时间除以分片时长t得到播放时间编号序号,获取播放时间编号序号符合方向区间的区块标号列表,联合区块标号列表中的区块标号与时间编号序号得到分区时间槽位id,得到容许混合的分区时间槽位id列表,声音选择混合模块判断接收的每个声音源的分区时间槽位id是否在分区时间槽位id列表中,在则参与混合,声音选择混合模块对参与混合的声音源的pcm数据进行混音计算得到混音后pcm数据,把混音后pcm数据发送至扬声器渲染模块;
32.扬声器渲染模块接收到声音选择混合模块的混音后pcm数据,进行数字到模拟的转换,并进行混合声音的播放。
33.进一步地,多声源提取模块获取区块标号的具体方法为:
34.多声源提取模块根据波达方向估计算法获取每个声音源的角度方位,多声源提取模块将水平角度按照30度等分成12个区块,对每个区块进行标号,根据每个声音源的角度获取区块标号。
35.进一步地,降采样模块进行降低采样率处理的我具体方法为:
36.降采样模块将96khz的高采样率pcm数据降低为16khz的第一低采样率pcm数据,再将16khz的第一低采样率pcm数据降低为8khz的第二低采样率pcm数据。
37.进一步地,神经网络感兴趣识别模块将语音转为文字的具体方法为:
38.神经网络感兴趣识别模块使用基于gmm-hmm的声学模型将语音转为文字;
39.神经网络感兴趣识别模块对转换后的文字进行分类的具体方法为:
40.把感兴趣词通过预训练好的具有语义知识的词向量进行数据扩展,通过感兴趣词语料、数据扩展余量和非感兴趣词语料对cnn神经网络模型进行训练得到感兴趣词分类模型,神经网络感兴趣识别模块通过训练好的感兴趣词分类模型对转换后的文字进行分类。
41.进一步地,升采样模块进行升采样处理的具体方法为:
42.升采样模块将8khz的第二低采样率pcm数据升为96khz的升采样后pcm数据。
43.本发明的有益之处在于所提供的一种基于感兴趣区域的音频增强编码传输系统及方法,对感兴趣区域的声音采用高帧率编码,提高感兴趣区域的声音内容信息量,非感兴趣区域采用低帧率编码,平衡网络传输与后续数据存储数据量。
附图说明
44.图1是本发明的一种基于感兴趣区域的音频增强编码传输系统的示意图。
具体实施方式
45.以下结合附图和具体实施例对本发明作具体的介绍。
46.如图1所示为本技术的一种基于感兴趣区域的音频增强编码传输系统,包含:麦克风阵列采样模块1、多声源提取模块2、降采样模块3、神经网络感兴趣识别模块4、声音感兴趣选择模块5、声音感兴趣编码模块6、打包传输模块7、声音感兴趣解码模块8、升采样模块9、声音选择混合模块10和扬声器渲染模块11。
47.其中,麦克风阵列采样模块1通过多个麦克风采集声音,每个麦克风独立输出高采样率的pcm音频数据和时间戳至多声源提取模块2。在本技术中,高采样率的pcm音频数据为96khz。
48.多声源提取模块2用于提取麦克风阵列的多声音源的pcm音频数据。具体地,多声源提取模块2接收麦克风阵列采样模块1发送的每个声音源的pcm音频数据和时间戳,获取每个声音源的角度方位,分别针对每个声音源的角度,使用多个麦克风接收到声波的相位之间的差异对余下角度的声波进行过滤,得到需要的每个声音源的高采样率pcm数据。根据每个声音源的角度获取区块标号,把每个声音源的高采样率pcm数据、区块标号和时间戳发送至降采样模块3和声音感兴趣编码模块6。
49.具体而言,多声源提取模块2根据波达方向估计(direction-of-arrival,doa)算法获取每个声音源的角度方位。之后,多声源提取模块2将水平角度按照30度等分成12个区块,对每个区块进行标号,根据每个声音源的角度获取区块标号。
50.降采样模块3负责把多声源提取模块2的每个声音源的pcm数据降低采样率,用于减轻识别分析时数据计算量与传输打包的数据量。具体地,降采样模块3对每个声音源的高采样率pcm数据进行降低采样率处理得到第一低采样率pcm数据,将每个声音源的第一低采样率pcm数据、区块标号和时间戳发送至神经网络感兴趣识别模块4。具体地,降采样模块3再对每个声音源的第一低采样率pcm数据进行降低采样率处理得到第二低采样率pcm数据,将每个声音源的第二低采样率pcm数据、区块标号和时间戳发送至声音感兴趣编码模块6。本技术中,降采样模块3将96khz的高采样率pcm数据降低为16khz的第一低采样率pcm数据,再将16khz的第一低采样率pcm数据降低为8khz的第二低采样率pcm数据。具体地,降采样模块3采用抽采法降低帧率。降采样模块3把每个声音源的高采样率pcm数据转为16khz。pcm数据以6个采样点为周期,每个周期只保留第一个采样点,得到16khz pcm数据。降采样模块3再把16khz数据转8khz,pcm数据以2个采样点为周期,每个周期只保留第一个采样点,得到8khz的低采音频。
51.神经网络感兴趣识别模块4主要用于判断每个声音源的感兴趣内容。其中,神经网络感兴趣识别模块4接收每个声音源的第一低采样率pcm数据、区块标号和时间戳,将语音转为文字,对文字进行分类,判断其是否为感兴趣的声音源,神经网络感兴趣识别模块4将每个声音源的分类结果、区块标号和时间戳发送至声音感兴趣选择模块5。
52.具体而言,神经网络感兴趣识别模块4使用基于gmm-hmm的声学模型将语音转为文字。且神经网络感兴趣识别模块4把感兴趣词通过预训练好的具有语义知识的词向量进行数据扩展,通过感兴趣词语料、数据扩展余量和非感兴趣词语料对cnn神经网络模型进行训练得到感兴趣词分类模型,神经网络感兴趣识别模块4通过训练好的感兴趣词分类模型对转换后的文字进行分类。
53.声音感兴趣选择模块5根据是否包含感兴趣内容控制各个声音源在各个时间分片是采用高帧率编码。具体而言,声音感兴趣选择模块5接收神经网络感兴趣识别模块4的每个声音源的分类结果、区块标号和时间戳,声音感兴趣选择模块5把时间戳按照分片时长t(例如500ms)进行分片,将该时间戳除以分片时长t得到时间编号序号,联合时间编号序号和区块标号生成每个声音源的分区时间槽位id,对于分类结果为感兴趣的声音源,把符合声音源对区块标号以及时间编号序号大于等于当前时间编号序号且时间编号序号小于等于当前时间编号序号加调节宽度k(如取值40)的分区时间槽位id标识为感兴趣选择,并将标识为感兴趣选择的分区时间槽位id发送至声音感兴趣编码模块6。
54.声音感兴趣编码模块6根据声音感兴趣选择模块5的输出选择性高帧率编码。声音感兴趣编码模块6接收多声源提取模块2发送的每个声音源的高采样率pcm数据、区块标号和时间戳,接收降采样模块3发送的每个声音源的第二低采样率pcm数据、区块标号和时间戳,接收声音感兴趣选择模块5发送的感兴趣选择的分区时间槽位id。声音感兴趣编码模块6将高采样率的时间戳除以分片时长t得到时间编号序号,联合时间编号序号和区块标号生成高采样率的分区时间槽位id。声音感兴趣编码模块6将低采样率的时间戳除以分片时长t得到时间编号序号,联合时间编号序号和区块标号生成低采样率的分区时间槽位id,对于分区时间槽位id为感兴趣选择分片,选择高采样率pcm数据进行音频编码压缩得声音源的音频增强压缩流,对于分区时间槽位id不是感兴趣选择分片,选择第二低采样率pcm数据进行音频编码压缩得到声音源的音频标准压缩流,声音感兴趣编码模块6将各个声音源的音频标准压缩或音频增强压缩流与对应的分区时间槽位id发送至打包传输模块7。
55.打包传输模块7接收各个声音源的音频标准压缩或音频增强压缩流与对应的分区时间槽位id,进行网络rtp打包发送至声音感兴趣解码模块8。
56.声音感兴趣解码模块8接收打包传输模块7发送的每个声音源的音频标准压缩流或音频增强压缩流与对应的分区时间槽位id,声音感兴趣解码模块8对音频压缩流进行音频解码,得到高采样率pcm数据和第二低采样率pcm数据,将每个声音源的高采样率pcm数据与分区时间槽位id发送给声音选择混合模块10,把每个声音源的第二低采样率pcm数据与分区时间槽位id发送至升采样模块9。
57.升采样模块9将第二低采样率pcm数据进行升采样处理得到升采样后pcm数据,再将每个声音源的升采样后pcm数据和分区时间槽位id发送至声音选择混合模块10。具体地,升采样模块9对第二低采样率pcm数据进行插值计算,如第二低采样率pcm数据升采样到96khz升采样后pcm数据,pcm数据两个相邻点采用线性方法插入11个pcm数据,再使用8khz的低通滤波器对升采样后pcm数据过滤,去除因插值引入的高频干扰。升采样模块9将处理后的后升采样后pcm数据与分区时间槽位id发送声音选择混合模块10。
58.声音选择混合模块10接收发送自声音感兴趣解码模块8的每个声音源的高采样率pcm数据与分区时间槽位id和发送自升采样模块9的每个声音源的升采样后pcm数据和分区时间槽位id,声音选择混合模块10根据设置时间区间与方向区间来选择需要声音混合的声音源。
59.声音选择混合模块10按照时间与方向选择要混合的声音。具体地,声音选择混合模块10把当前时间戳或选择播放时间除以分片时长t得到播放时间编号序号,获取播放时间编号序号符合方向区间的区块标号列表,联合区块标号列表中的区块标号与时间编号序
号得到分区时间槽位id,得到容许混合的分区时间槽位id列表。声音选择混合模块10判断接收的每个声音源的分区时间槽位id是否在分区时间槽位id列表中,在则参与混合,声音选择混合模块10对参与混合的声音源的pcm数据进行混音计算得到混音后pcm数据,把混音后pcm数据发送至扬声器渲染模块11。
60.扬声器渲染模块11接收到声音选择混合模块10的混音后pcm数据,进行数字到模拟的转换,并进行混合声音的播放。
61.本技术还揭示一种基于感兴趣区域的音频增强编码传输方法,包含以下步骤:
62.麦克风阵列采样模块1通过多个麦克风采集声音,每个麦克风独立输出高采样率的pcm音频数据和时间戳至多声源提取模块2。
63.多声源提取模块2接收麦克风阵列采样模块1发送的每个声音源的pcm音频数据和时间戳,获取每个声音源的角度方位,分别针对每个声音源的角度,使用多个麦克风接收到声波的相位之间的差异对余下角度的声波进行过滤,得到需要的每个声音源的高采样率pcm数据,根据每个声音源的角度获取区块标号,把每个声音源的高采样率pcm数据、区块标号和时间戳发送至降采样模块3和声音感兴趣编码模块6。
64.降采样模块3对每个声音源的高采样率pcm数据进行降低采样率处理得到第一低采样率pcm数据,将每个声音源的第一低采样率pcm数据、区块标号和时间戳发送至神经网络感兴趣识别模块4,降采样模块3再对每个声音源的第一低采样率pcm数据进行降低采样率处理得到第二低采样率pcm数据,将每个声音源的第二低采样率pcm数据、区块标号和时间戳发送至声音感兴趣编码模块6。
65.神经网络感兴趣识别模块4接收每个声音源的第一低采样率pcm数据、区块标号和时间戳,将语音转为文字,对文字进行分类,判断其是否为感兴趣的声音源,神经网络感兴趣识别模块4将每个声音源的分类结果、区块标号和时间戳发送至声音感兴趣选择模块5。
66.声音感兴趣选择模块5接收神经网络感兴趣识别模块4的每个声音源的分类结果、区块标号和时间戳,声音感兴趣选择模块5把时间戳按照分片时长t进行分片,将该时间戳除以分片时长t得到时间编号序号,联合时间编号序号和区块标号生成每个声音源的分区时间槽位id,对于分类结果为感兴趣的声音源,把符合声音源对区块标号以及时间编号序号大于等于当前时间编号序号且时间编号序号小于等于当前时间编号序号加调节宽度k的分区时间槽位id标识为感兴趣选择,并将标识为感兴趣选择的分区时间槽位id发送至声音感兴趣编码模块6。
67.声音感兴趣编码模块6接收多声源提取模块2发送的每个声音源的高采样率pcm数据、区块标号和时间戳,接收降采样模块3发送的每个声音源的第二低采样率pcm数据、区块标号和时间戳,接收声音感兴趣选择模块5发送的感兴趣选择的分区时间槽位id,声音感兴趣编码模块6将高采样率的时间戳除以分片时长t得到时间编号序号,联合时间编号序号和区块标号生成高采样率的分区时间槽位id,声音感兴趣编码模块6将低采样率的时间戳除以分片时长t得到时间编号序号,联合时间编号序号和区块标号生成低采样率的分区时间槽位id,对于分区时间槽位id为感兴趣选择分片,选择高采样率pcm数据进行音频编码压缩得声音源的音频增强压缩流,对于分区时间槽位id不是感兴趣选择分片,选择第二低采样率pcm数据进行音频编码压缩得到声音源的音频标准压缩流,声音感兴趣编码模块6将各个声音源的音频标准压缩或音频增强压缩流与对应的分区时间槽位id发送至打包传输模块
7。
68.打包传输模块7接收各个声音源的音频标准压缩或音频增强压缩流与对应的分区时间槽位id,进行网络rtp打包发送至声音感兴趣解码模块8。
69.声音感兴趣解码模块8接收打包传输模块7发送的每个声音源的音频标准压缩流或音频增强压缩流与对应的分区时间槽位id,声音感兴趣解码模块8对音频压缩流进行音频解码,得到高采样率pcm数据和第二低采样率pcm数据,将每个声音源的高采样率pcm数据与分区时间槽位id发送给声音选择混合模块10,把每个声音源的第二低采样率pcm数据与分区时间槽位id发送至升采样模块9。
70.升采样模块9将第二低采样率pcm数据进行升采样处理得到升采样后pcm数据,再将每个声音源的升采样后pcm数据和分区时间槽位id发送至声音选择混合模块10。
71.声音选择混合模块10接收发送自声音感兴趣解码模块8的每个声音源的高采样率pcm数据与分区时间槽位id和发送自升采样模块9的每个声音源的升采样后pcm数据和分区时间槽位id,声音选择混合模块10根据设置时间区间与方向区间来选择需要声音混合的声音源,声音选择混合模块10把当前时间戳或选择播放时间除以分片时长t得到播放时间编号序号,获取播放时间编号序号符合方向区间的区块标号列表,联合区块标号列表中的区块标号与时间编号序号得到分区时间槽位id,得到容许混合的分区时间槽位id列表,声音选择混合模块10判断接收的每个声音源的分区时间槽位id是否在分区时间槽位id列表中,在则参与混合,声音选择混合模块10对参与混合的声音源的pcm数据进行混音计算得到混音后pcm数据,把混音后pcm数据发送至扬声器渲染模块11。
72.扬声器渲染模块11接收到声音选择混合模块10的混音后pcm数据,进行数字到模拟的转换,并进行混合声音的播放。
73.作为一种优选的实施方式,多声源提取模块2获取区块标号的具体方法为:
74.多声源提取模块2根据波达方向估计算法获取每个声音源的角度方位,多声源提取模块2将水平角度按照30度等分成12个区块,对每个区块进行标号,根据每个声音源的角度获取区块标号。
75.作为一种优选的实施方式,降采样模块3进行降低采样率处理的我具体方法为:
76.降采样模块3将96khz的高采样率pcm数据降低为16khz的第一低采样率pcm数据,再将16khz的第一低采样率pcm数据降低为8khz的第二低采样率pcm数据。
77.作为一种优选的实施方式,神经网络感兴趣识别模块4将语音转为文字的具体方法为:
78.神经网络感兴趣识别模块4使用基于gmm-hmm的声学模型将语音转为文字。
79.神经网络感兴趣识别模块4对转换后的文字进行分类的具体方法为:
80.把感兴趣词通过预训练好的具有语义知识的词向量进行数据扩展,通过感兴趣词语料、数据扩展余量和非感兴趣词语料对cnn神经网络模型进行训练得到感兴趣词分类模型,神经网络感兴趣识别模块4通过训练好的感兴趣词分类模型对转换后的文字进行分类。
81.作为一种优选的实施方式,升采样模块9进行升采样处理的具体方法为:
82.升采样模块9将8khz的第二低采样率pcm数据升为96khz的升采样后pcm数据。
83.以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的
技术方案,均落在本发明的保护范围内。
技术特征:
1.一种基于感兴趣区域的音频增强编码传输系统,其特征在于,包含:麦克风阵列采样模块、多声源提取模块、降采样模块、神经网络感兴趣识别模块、声音感兴趣选择模块、声音感兴趣编码模块、打包传输模块、声音感兴趣解码模块、升采样模块、声音选择混合模块和扬声器渲染模块;麦克风阵列采样模块通过多个麦克风采集声音,每个麦克风独立输出高采样率的pcm音频数据和时间戳至多声源提取模块;多声源提取模块接收麦克风阵列采样模块发送的每个声音源的pcm音频数据和时间戳,获取每个声音源的角度方位,分别针对每个声音源的角度,使用多个麦克风接收到声波的相位之间的差异对余下角度的声波进行过滤,得到需要的每个声音源的高采样率pcm数据,根据每个声音源的角度获取区块标号,把每个声音源的高采样率pcm数据、区块标号和时间戳发送至降采样模块和声音感兴趣编码模块;降采样模块对每个声音源的高采样率pcm数据进行降低采样率处理得到第一低采样率pcm数据,将每个声音源的第一低采样率pcm数据、区块标号和时间戳发送至神经网络感兴趣识别模块,降采样模块再对每个声音源的第一低采样率pcm数据进行降低采样率处理得到第二低采样率pcm数据,将每个声音源的第二低采样率pcm数据、区块标号和时间戳发送至声音感兴趣编码模块;神经网络感兴趣识别模块接收每个声音源的第一低采样率pcm数据、区块标号和时间戳,将语音转为文字,对文字进行分类,判断其是否为感兴趣的声音源,神经网络感兴趣识别模块将每个声音源的分类结果、区块标号和时间戳发送至声音感兴趣选择模块;声音感兴趣选择模块接收神经网络感兴趣识别模块的每个声音源的分类结果、区块标号和时间戳,声音感兴趣选择模块把时间戳按照分片时长t进行分片,将该时间戳除以分片时长t得到时间编号序号,联合时间编号序号和区块标号生成每个声音源的分区时间槽位id,对于分类结果为感兴趣的声音源,把符合声音源对区块标号以及时间编号序号大于等于当前时间编号序号且时间编号序号小于等于当前时间编号序号加调节宽度k的分区时间槽位id标识为感兴趣选择,并将标识为感兴趣选择的分区时间槽位id发送至声音感兴趣编码模块;声音感兴趣编码模块接收多声源提取模块发送的每个声音源的高采样率pcm数据、区块标号和时间戳,接收降采样模块发送的每个声音源的第二低采样率pcm数据、区块标号和时间戳,接收声音感兴趣选择模块发送的感兴趣选择的分区时间槽位id,声音感兴趣编码模块将高采样率的时间戳除以分片时长t得到时间编号序号,联合时间编号序号和区块标号生成高采样率的分区时间槽位id,声音感兴趣编码模块将低采样率的时间戳除以分片时长t得到时间编号序号,联合时间编号序号和区块标号生成低采样率的分区时间槽位id,对于分区时间槽位id为感兴趣选择分片,选择高采样率pcm数据进行音频编码压缩得声音源的音频增强压缩流,对于分区时间槽位id不是感兴趣选择分片,选择第二低采样率pcm数据进行音频编码压缩得到声音源的音频标准压缩流,声音感兴趣编码模块将各个声音源的音频标准压缩或音频增强压缩流与对应的分区时间槽位id发送至打包传输模块;打包传输模块接收各个声音源的音频标准压缩或音频增强压缩流与对应的分区时间槽位id,进行网络rtp打包发送至声音感兴趣解码模块;声音感兴趣解码模块接收打包传输模块发送的每个声音源的音频标准压缩流或音频
增强压缩流与对应的分区时间槽位id,声音感兴趣解码模块对音频压缩流进行音频解码,得到高采样率pcm数据和第二低采样率pcm数据,将每个声音源的高采样率pcm数据与分区时间槽位id发送给声音选择混合模块,把每个声音源的第二低采样率pcm数据与分区时间槽位id发送至升采样模块;升采样模块将第二低采样率pcm数据进行升采样处理得到升采样后pcm数据,再将每个声音源的升采样后pcm数据和分区时间槽位id发送至声音选择混合模块;声音选择混合模块接收发送自声音感兴趣解码模块的每个声音源的高采样率pcm数据与分区时间槽位id和发送自升采样模块的每个声音源的升采样后pcm数据和分区时间槽位id,声音选择混合模块根据设置时间区间与方向区间来选择需要声音混合的声音源,声音选择混合模块把当前时间戳或选择播放时间除以分片时长t得到播放时间编号序号,获取播放时间编号序号符合方向区间的区块标号列表,联合区块标号列表中的区块标号与时间编号序号得到分区时间槽位id,得到容许混合的分区时间槽位id列表,声音选择混合模块判断接收的每个声音源的分区时间槽位id是否在分区时间槽位id列表中,在则参与混合,声音选择混合模块对参与混合的声音源的pcm数据进行混音计算得到混音后pcm数据,把混音后pcm数据发送至扬声器渲染模块;扬声器渲染模块接收到声音选择混合模块的混音后pcm数据,进行数字到模拟的转换,并进行混合声音的播放。2.根据权利要求1所述的一种基于感兴趣区域的音频增强编码传输系统,其特征在于,多声源提取模块根据波达方向估计算法获取每个声音源的角度方位,多声源提取模块将水平角度按照30度等分成12个区块,对每个区块进行标号,根据每个声音源的角度获取区块标号。3.根据权利要求1所述的一种基于感兴趣区域的音频增强编码传输系统,其特征在于,降采样模块将96khz的高采样率pcm数据降低为16khz的第一低采样率pcm数据,再将16khz的第一低采样率pcm数据降低为8khz的第二低采样率pcm数据。4.根据权利要求1所述的一种基于感兴趣区域的音频增强编码传输系统,其特征在于,神经网络感兴趣识别模块使用基于gmm-hmm的声学模型将语音转为文字;把感兴趣词通过预训练好的具有语义知识的词向量进行数据扩展,通过感兴趣词语料、数据扩展余量和非感兴趣词语料对cnn神经网络模型进行训练得到感兴趣词分类模型,神经网络感兴趣识别模块通过训练好的感兴趣词分类模型对转换后的文字进行分类。5.根据权利要求1所述的一种基于感兴趣区域的音频增强编码传输系统,其特征在于,升采样模块将8khz的第二低采样率pcm数据升为96khz的升采样后pcm数据。6.一种基于感兴趣区域的音频增强编码传输方法,其特征在于,包含以下步骤:麦克风阵列采样模块通过多个麦克风采集声音,每个麦克风独立输出高采样率的pcm音频数据和时间戳至多声源提取模块;多声源提取模块接收麦克风阵列采样模块发送的每个声音源的pcm音频数据和时间戳,获取每个声音源的角度方位,分别针对每个声音源的角度,使用多个麦克风接收到声波的相位之间的差异对余下角度的声波进行过滤,得到需要的每个声音源的高采样率pcm数据,根据每个声音源的角度获取区块标号,把每个声音源的高采样率pcm数据、区块标号和时间戳发送至降采样模块和声音感兴趣编码模块;
降采样模块对每个声音源的高采样率pcm数据进行降低采样率处理得到第一低采样率pcm数据,将每个声音源的第一低采样率pcm数据、区块标号和时间戳发送至神经网络感兴趣识别模块,降采样模块再对每个声音源的第一低采样率pcm数据进行降低采样率处理得到第二低采样率pcm数据,将每个声音源的第二低采样率pcm数据、区块标号和时间戳发送至声音感兴趣编码模块;神经网络感兴趣识别模块接收每个声音源的第一低采样率pcm数据、区块标号和时间戳,将语音转为文字,对文字进行分类,判断其是否为感兴趣的声音源,神经网络感兴趣识别模块将每个声音源的分类结果、区块标号和时间戳发送至声音感兴趣选择模块;声音感兴趣选择模块接收神经网络感兴趣识别模块的每个声音源的分类结果、区块标号和时间戳,声音感兴趣选择模块把时间戳按照分片时长t进行分片,将该时间戳除以分片时长t得到时间编号序号,联合时间编号序号和区块标号生成每个声音源的分区时间槽位id,对于分类结果为感兴趣的声音源,把符合声音源对区块标号以及时间编号序号大于等于当前时间编号序号且时间编号序号小于等于当前时间编号序号加调节宽度k的分区时间槽位id标识为感兴趣选择,并将标识为感兴趣选择的分区时间槽位id发送至声音感兴趣编码模块;声音感兴趣编码模块接收多声源提取模块发送的每个声音源的高采样率pcm数据、区块标号和时间戳,接收降采样模块发送的每个声音源的第二低采样率pcm数据、区块标号和时间戳,接收声音感兴趣选择模块发送的感兴趣选择的分区时间槽位id,声音感兴趣编码模块将高采样率的时间戳除以分片时长t得到时间编号序号,联合时间编号序号和区块标号生成高采样率的分区时间槽位id,声音感兴趣编码模块将低采样率的时间戳除以分片时长t得到时间编号序号,联合时间编号序号和区块标号生成低采样率的分区时间槽位id,对于分区时间槽位id为感兴趣选择分片,选择高采样率pcm数据进行音频编码压缩得声音源的音频增强压缩流,对于分区时间槽位id不是感兴趣选择分片,选择第二低采样率pcm数据进行音频编码压缩得到声音源的音频标准压缩流,声音感兴趣编码模块将各个声音源的音频标准压缩或音频增强压缩流与对应的分区时间槽位id发送至打包传输模块;打包传输模块接收各个声音源的音频标准压缩或音频增强压缩流与对应的分区时间槽位id,进行网络rtp打包发送至声音感兴趣解码模块;声音感兴趣解码模块接收打包传输模块发送的每个声音源的音频标准压缩流或音频增强压缩流与对应的分区时间槽位id,声音感兴趣解码模块对音频压缩流进行音频解码,得到高采样率pcm数据和第二低采样率pcm数据,将每个声音源的高采样率pcm数据与分区时间槽位id发送给声音选择混合模块,把每个声音源的第二低采样率pcm数据与分区时间槽位id发送至升采样模块;升采样模块将第二低采样率pcm数据进行升采样处理得到升采样后pcm数据,再将每个声音源的升采样后pcm数据和分区时间槽位id发送至声音选择混合模块;声音选择混合模块接收发送自声音感兴趣解码模块的每个声音源的高采样率pcm数据与分区时间槽位id和发送自升采样模块的每个声音源的升采样后pcm数据和分区时间槽位id,声音选择混合模块根据设置时间区间与方向区间来选择需要声音混合的声音源,声音选择混合模块把当前时间戳或选择播放时间除以分片时长t得到播放时间编号序号,获取播放时间编号序号符合方向区间的区块标号列表,联合区块标号列表中的区块标号与时间
编号序号得到分区时间槽位id,得到容许混合的分区时间槽位id列表,声音选择混合模块判断接收的每个声音源的分区时间槽位id是否在分区时间槽位id列表中,在则参与混合,声音选择混合模块对参与混合的声音源的pcm数据进行混音计算得到混音后pcm数据,把混音后pcm数据发送至扬声器渲染模块;扬声器渲染模块接收到声音选择混合模块的混音后pcm数据,进行数字到模拟的转换,并进行混合声音的播放。7.根据权利要求6所述的一种基于感兴趣区域的音频增强编码传输方法,其特征在于,多声源提取模块获取区块标号的具体方法为:多声源提取模块根据波达方向估计算法获取每个声音源的角度方位,多声源提取模块将水平角度按照30度等分成12个区块,对每个区块进行标号,根据每个声音源的角度获取区块标号。8.根据权利要求6所述的一种基于感兴趣区域的音频增强编码传输方法,其特征在于,降采样模块进行降低采样率处理的我具体方法为:降采样模块将96khz的高采样率pcm数据降低为16khz的第一低采样率pcm数据,再将16khz的第一低采样率pcm数据降低为8khz的第二低采样率pcm数据。9.根据权利要求6所述的一种基于感兴趣区域的音频增强编码传输方法,其特征在于,神经网络感兴趣识别模块将语音转为文字的具体方法为:神经网络感兴趣识别模块使用基于gmm-hmm的声学模型将语音转为文字;神经网络感兴趣识别模块对转换后的文字进行分类的具体方法为:把感兴趣词通过预训练好的具有语义知识的词向量进行数据扩展,通过感兴趣词语料、数据扩展余量和非感兴趣词语料对cnn神经网络模型进行训练得到感兴趣词分类模型,神经网络感兴趣识别模块通过训练好的感兴趣词分类模型对转换后的文字进行分类。10.根据权利要求6所述的一种基于感兴趣区域的音频增强编码传输方法,其特征在于,升采样模块进行升采样处理的具体方法为:升采样模块将8khz的第二低采样率pcm数据升为96khz的升采样后pcm数据。
技术总结
本发明公开了一种基于感兴趣区域的音频增强编码传输系统及方法,该系统包含:麦克风阵列采样模块、多声源提取模块、降采样模块、神经网络感兴趣识别模块、声音感兴趣选择模块、声音感兴趣编码模块、打包传输模块、声音感兴趣解码模块、升采样模块、声音选择混合模块和扬声器渲染模块。本发明的一种基于感兴趣区域的音频增强编码传输系统及方法,对感兴趣区域的声音采用高帧率编码,提高感兴趣区域的声音内容信息量,非感兴趣区域采用低帧率编码,平衡网络传输与后续数据存储数据量。衡网络传输与后续数据存储数据量。衡网络传输与后续数据存储数据量。
技术研发人员:
金国庆 陈尚武 尹书娟
受保护的技术使用者:
深蓝感知(杭州)物联科技有限公司
技术研发日:
2022.08.09
技术公布日:
2022/11/11