用于对多
声道输入
信号内的空间背景
噪声进行编码和/或解码的方法和设备
1.相关申请的交叉引用
2.本技术要求于2021年5月27日提交的美国临时专利申请号63/193,946以及于2020年6月11日提交的美国临时专利申请号63/037,650的优先权权益,上述美国临时专利申请中的每一个都通过引用以其全文并入本文。
背景技术:
3.位于收听位置处的收听者的收听环境内的声音或声场可以使用高保真立体声信号来描述。高保真立体声信号可以被视为多声道音频信号,其中每个声道对应于收听者的收听位置处的声场的特定指向性模式。高保真立体声信号可以使用三维(3d)笛卡尔坐标系来描述,其中
所述坐标系的原点对应于收听位置,x轴指向前方,y轴指向左侧,并且z轴指向上方。
4.多声道音频信号可以包括具有活动语音或音频的活动部分和无语音或音频的其他非活动部分,所述非活动部分通常仅包括背景噪声。背景噪声可以具有空间特性,如来自特定方向的空调噪声。
5.本文档解决了以高效方式对空间背景噪声进行建模的技术问题,特别是用于在多声道音频信号的活动部分与非活动部分之间提供感知上令人愉悦的过渡。独立权利要求解决了该技术问题。从属权利要求中描述了优选的示例。
技术实现要素:
6.根据一方面,描述了一种用于对包括n个不同声道的多声道输入(音频)信号进行编码的方法,其中n》1,特别地n》2。所述方法包括使用信号和/或语音活动检测器来确定多声道输入信号的当前帧是活动帧还是非活动帧。此外,所述方法包括基于多声道输入信号和/或基于用于对多声道输入信号进行编码的目标比特率来确定下混信号,其中,所述下混信号包括少于或等于n个声道。所述方法进一步包括确定包括(空间)参数集的上混元数据。所述上混元数据可以根据当前帧是活动帧还是非活动帧来确定。另外,所述方法包括将上混元数据编码为比特流。
7.根据另一方面,描述了一种用于对比特流进行解码的方法,所述比特流指示包括n个声道的重建多声道信号(其中n是大于一的正整数,优选地n》2)。所述方法包括基于比特流来确定当前帧是活动帧还是非活动帧。另外,所述方法包括确定重建下混信号,其中,所述重建下混信号包括少于或等于n个声道。所述方法进一步包括基于重建下混信号并基于比特流内包括的上混元数据来生成重建多声道信号。所述重建多声道信号可以根据当前帧是活动帧还是非活动帧来生成。
8.根据另一方面,描述了一种软件程序。所述软件程序可以适于在处理器上执行并且当在处理器上执行时用于执行本文档中概述的方法步骤。
9.根据另一方面,描述了一种存储介质。所述存储介质可以包括软件程序,所述软件
程序可以适于在处理器上执行并且当在处理器上执行时用于执行本文档中概述的方法步骤。
10.根据另一方面,描述了一种计算机程序产品。所述计算机程序可以包括可执行指令,所述可执行指令当在计算机上执行时用于执行本文档中概述的方法步骤。
11.根据另一方面,描述了一种用于对包括n个不同声道的多声道输入信号进行编码的编码单元,其中n是大于一的正整数,优选地n》2。所述编码单元被配置为使用信号和/或语音活动检测器来确定输入信号的当前帧是活动帧还是非活动帧。此外,所述编码单元被配置为基于多声道输入信号和/或基于比特率来确定下混信号,其中,所述下混信号包括少于或等于n个声道。另外,所述编码单元被配置为确定包括参数集的上混元数据,所述参数集用于基于下混信号生成包括n个声道的重建多声道信号。所述上混元数据可以根据当前帧是活动帧还是非活动帧来确定。所述编码单元进一步被配置为将上混元数据编码为比特流。
12.根据另一方面,描述了一种用于对比特流进行解码的解码单元,所述比特流指示包括n个声道的重建多声道信号。所述重建信号包括帧序列。所述解码单元被配置为确定重建下混信号,其中,所述重建下混信号包括少于或等于n个声道。所述解码单元进一步被配置为基于比特流来确定信号的当前帧是活动帧还是非活动帧。另外,所述解码单元被配置为基于重建下混信号并基于比特流内包括的上混元数据来生成重建多声道信号。所述重建多声道信号可以根据当前帧是活动帧还是非活动帧来生成。
13.应当注意,如在本专利申请中概述的方法、设备和系统(包括其优选实施例)可以独立使用,或者与本文档中公开的其他方法、设备和系统结合使用。此外,本专利申请中概述的方法、设备和系统的所有方面可以任意组合。特别地,权利要求的特征可以以任意方式彼此组合。
附图说明
14.下面参照附图以示例性方式解释本发明,在附图中:
15.图1示出了用于对多声道信号进行编码和解码的示例编码单元和解码单元;
16.图2示出了示例空间合成(或重建)模块;
17.图3示出了用于对多声道信号进行spar编码和spar解码的示例编码单元和解码单元;
18.图4a至图4c图示了针对不同下混情况的针对不同下混情况的对高保真立体声信号的非活动帧的编码;
19.图5示出了示例设备架构;
20.图6a示出了用于对多声道信号进行编码的示例方法的流程图;以及
21.图6b示出了用于对多声道信号进行解码的示例方法的流程图。
具体实施方式
22.如上文所概述的,本文档涉及对沉浸式音频信号的空间舒适噪声的高效编码,所述沉浸式音频信号比如是一阶高保真立体声(foa)或hoa(高阶高保真立体声)信号。值得注意的是,foa或hoa信号在本文中更一般地被称为声场表示(sr)信号。sr信号可以包括相对
大量的声道或波形,其中,不同的声道涉及不同的平移功能和/或不同的指向性模式。举例来说,l阶3d foa或hoa信号包括(l+1)2个声道。
23.图1图示了用于对多声道输入信号101进行编码和解码的编码单元100和解码单元150,所述多声道输入信号可以包括sr信号。特别地,多声道输入信号101可以包括一个或多个单声道信号、一个或多个立体声信号、一个或多个双声道信号、一个或多个(传统的)多声道信号(如5.1或7.1信号)、一个或多个音频对象和/或一个或多个sr信号(的可能组合)。不同的信号分量可以被认为是多声道输入信号101的各个声道。
24.编码单元100包括空间分析和下混模块120,所述空间分析和下混模块被配置为将多声道输入信号101下混为包括一个或多个声道的下混信号103。如果输入信号101包括hoa信号,则下混信号103本身可以是sr信号,特别是一阶高保真立体声(foa)信号。下混可以在子带域或qmf域中执行(例如,使用10个或更多个子带)。
25.空间分析和下混模块120进一步被配置为确定spar空间音频分辨率重建或空间重建元数据105,所述元数据被配置为从下混信号103重建多声道输入信号101。空间分析和下混模块120可以被配置为确定子带域中的spar元数据105。spar元数据105在本文中也被称为上混元数据。
26.另外,编码单元100可以包括编码模块140,所述编码模块被配置为执行下混信号103的波形编码(例如,evs编码),从而提供经编码音频数据106。可以使用单声道波形编码器对下混信号103的每个声道进行编码,从而实现高效编码。此外,编码单元100包括量化模块141,所述量化模块被配置为量化spar元数据105并对(经量化的)spar元数据105执行熵编码,从而提供经编码元数据107。经编码音频数据106和经编码元数据107可以被插入到比特流中。通常使用模式和/或比特率控制模块142来控制下混信号103和/或spar元数据105的编解码。
27.通常,空间分析和/或下混模块120的操作取决于目标比特率。特别地,下混信号103的声道数可以取决于目标比特率。更多数量的下混声道通常能够提高性能,因为其允许比参数重建更多的波形重建。另一方面,更多数量的下混声道通常导致比特率增加,因为需要由音频编码模块140进行编码的声道数增加。
28.在低比特率时,仅使用单个声道下混可能是优选的。另一方面,下混声道的数量可以随着比特率的增加而增加。这也适用于本文档所述的dtx操作。
29.图1的解码单元150包括解码模块160,所述解码模块被配置为根据经编码音频数据106得到重建下混信号114。此外,解码单元150包括元数据解码模块161,所述元数据解码模块被配置为根据经编码元数据107得到spar元数据105。
30.另外,解码单元150包括重建模块170,所述重建模块被配置为根据spar元数据105和重建下混信号114得到重建多声道信号111。重建多声道信号111可以包括重建sr信号。特别地,重建多声道信号111可以包括与多声道输入信号101相同类型的声道。重建多声道信号111可以用于扬声器渲染、耳机渲染和/或sr渲染。
31.图2图示了示例重建模块170。重建模块170将重建下混信号114的一个或多个声道作为输入。第一混合器211可以被配置为将重建下混信号114的一个或多个声道上混为数量增加的信号。第一混合器211取决于spar元数据105。
32.重建模块170可以包括一个或多个去相关器201,所述去相关器被配置为根据重建
下混信号114的w声道的表示产生信号,在第二混合器212中处理上述信号以产生数量增加的声道。第二混合器212取决于spar元数据105。将第一混合器211的输出和第二混合器212的输出相加,以提供重建多声道信号111。重建多声道信号111可以采用与多声道输入信号101相同的类型(特别地,可以包括相同数量的声道)。
33.spar元数据105可以由表示第一混合器211和/或第二混合器212所使用的上混矩阵系数的数据构成。混合器211、212可以在子带域(特别是在qmf域)中工作。在这种情况下,spar元数据105包括表示用于多个不同子带(例如,10个或更多个子带)的由第一混合器211和第二混合器212所使用的上混矩阵系数的数据。
34.图2图示了包括w声道(称为w
′
)的表示的一个声道下混信号114的示例。第一混合器211基于w
′
(使用来自spar元数据105的预测系数)生成x声道、y声道和/或z声道的可预测部分的重建。第二混合器212生成不相关的残差信号x
′
、y
′
和/或z
′
的表示。换句话说,第二混合器212使用spar元数据105来分别根据原始残差信号x
′
、y
′
和/或z
′
对与w
′
不相关的信号进行频谱整形,从而提供残差信号x
′
、y
′
和/或z
′
的表示或重建。
35.编码单元100可以被配置为将foa输入信号101转换成下混信号103和参数,即,用于在解码单元150处重新生成输入信号101的spar元数据105。下混信号103的声道数可以在1个至4个声道之间变化。参数可以包括预测参数pr、交叉预测参数c和/或去相关参数p。这些参数可以根据窗口化输入信号101的协方差矩阵来计算。此外,可以在指定数量的子带中计算参数。在舒适噪声的情况下,可以使用数量减少的子带(也称为频带),例如,使用6个子带而不是12个子带。
36.spar参数提取的示例表示可以如下(如参考图3所述):
37.1.根据输入信号101的主w信号来预测输入信号101的所有侧信号(y,z,x)
[0038][0039]
其中,作为示例,预测声道y'的预测系数可以计算为:
[0040][0041]
并且r
ab
=cov(a,b)是与信号a和b相对应的输入协方差矩阵的元素。类似地,z'和x'残差声道具有对应的参数prz和pr
x
。其可以通过将以上公式中的字母“y”替换为字母“z”或“x”来计算。预测参数pr(也称为pr)可以是预测系数[pry,prz,pr
x
]
t
的矢量。
[0042]
预测参数可以在图3所示的预测模块311内确定,从而提供残差声道y
′
、z
′
和x
′
301。
[0043]
在示例性实施方式中,w可以是活动声道(或者换句话说,具有活动预测,以下称为w')。作为示例(但不限于此),允许将x、y、z声道混合到w声道中的活动w
′
声道可以如下定义:
[0044]w′
=w+f*pry*y+f*prz*z+f*pr
x
*x
[0045]
此处,f是混合因子,并且在时间和/或频率上可以是静态的或动态的。在实施方式
中,f可以在活动帧与非活动帧之间变化。换句话说,混合因子可以取决于当前帧是活动帧还是非活动帧。还换句话说,对于活动帧和非活动帧,将x声道、y声道和/或z声道混合到w声道中可能是不同的。因此,可以通过将初始w声道与一个或多个其他声道混合来确定w声道的表示,即,w
′
声道。通过这样做,可以进一步提高感知质量。
[0046]
2.将w和预测的(y'、z'、x')声道从最具声学相关性到最不具声学相关性重新混合。基于所定义的方法,重新混合可以对应于将信号重新排序或重新组合。用于重新混合的示例方法可以是将输入信号w、y'、x'、z'重新排序,假设来自左右的音频提示比前后的更重要,前后对上下提示更重要。重新混合方法在对应的解码单元150处可能是已知的,使得不需要在比特流内传输参数。可以在图3的重新混合模块312内执行重新混合,从而提供重新混合的声道302。
[0047][0048]
3.计算4声道后预测和重新混合下混302的协方差。
[0049]rpr
=[重新混合][预测].r.[预测]h[重新混合]h[0050][0051]
其中,dd表示w之外的一个或多个额外的下混声道(即第2至第n声道),并且u表示需要完全重新生成的一个或多个声道(即第(n+1)至第4声道),因为这些声道未包括在下混信号103内(其中,n是下混信号103内的声道数)。
[0052]
对于具有1至4个声道的wabc重新混合302的示例,d和u表示以下声道:
[0053]
nd个声道u个声道1
‑‑a′
,b
′
,c
′
2a
′b′
,c
′
3a
′
,b
′c′
4a
′
,b
′
,c
′‑‑
[0054]
其中,n是下混信号103内的声道数。计算spar元数据105主要关注的是r
dd
、r
ua
和r
uu
协方差。spar元数据可以在图3的计算模块313内确定。
[0055]
4.由此,确定是否有可能根据被发送的残差声道(即,根据d声道)交叉预测全参数声道(即,u个声道)的任何剩余部分。
[0056]
交叉预测系数c可以如下计算:
[0057]
c=r
ud
(r
dd
+i max(∈,tr(r
dd
)*0.005))-1
[0058]
因此,c对于3声道下混具有形状(1
×
2),并且对于2声道下混具有形状(2
×
1)。
[0059]
5.计算应该由去相关器201填充的参数化声道中的剩余能量。上混声道res
uu
中的残差能量是实际能量r
uu
(后预测)与重新生成的交叉预测能量reg
uu
之间的差值。
[0060]
reg
uu
=cr
ddch
[0061]
res
uu
=r
uu-reg
uu
[0062][0063]
标度参数是常数,其中0≤标度≤1。标度参数可能与频率相关。特别地,不同的标度参数值可以用于不同的频带。去相关参数矩阵p可以是厄米特对称的协方差矩阵,并且因此可能仅需要将来自去相关矩阵的上三角形或下三角形的去相关参数包括在spar元数据105中。对角条目是实值的,而非对角元素可以是复值的。p系数指示在执行非预测和非混合之前,使用w声道的多少去相关分量来重新创建a声道、b声道和c声道。
[0064]
在一些实施方式中,仅计算p的对角线值并将其发送到解码单元150。这些对角线值可以如下计算
[0065][0066]
图3图示了解码单元150的重建模块170的另外的部件。特别地,重建模块170可以包括重新混合模块322,所述重新混合模块被配置为根据上述重新混合方法来重新混合声道。此外,可以在非预测模块321内使用预测参数,以根据重建残差声道生成重建多声道信号111的声道。
[0067]
本文档解决了对语音通信系统中背景噪声的空间参数进行建模的技术问题,使得解码单元150可以使用这些空间参数和多声道激励信号来生成高质量的空间舒适噪声。多声道激励信号可以是多声道白噪声信号,其中,所有声道都是用不同的种子生成的并且彼此不相关。
[0068]
为此,编码单元100可以被配置为对环境噪声进行采样,并且对描述环境噪声的一个或多个参数进行编码。可以对噪声的空间方面的一个或多个参数进行估计、编码,并在“无语音活动”期间将其发送到解码单元150。解码单元150可以被配置为基于一个或多个参数重新创建要播放的噪声。
[0069]
换句话说,描述了一种用相对小的参数集对空间背景噪声进行编码以便允许将一个或多个参数传输到解码单元150的方法。所述一个或多个参数可以用于在传输系统的接收端创建空间舒适噪声。术语空间意指噪声具有与左/右、上/下和/或前/后相关联的背景音。噪声可以是各向同性的,使得在一个方向上可能存在比在另一个方向更强的环境噪声。当通过扩音器播放时,空间噪声可以被构建为在解码单元150处结合头部跟踪来播放。
[0070]
us 10,224,046中提出了在解码器处生成空间舒适噪声的一般方法,所述文献通过引用以其全文并入本文。本文档解决了关于如何在编码单元100处对空间舒适噪声进行建模的技术问题。该文档具体地提出了在编码单元100处对空间舒适噪声的一个或多个空间参数进行建模和/或量化以使得可以在解码单元150处生成空间舒适噪声的过程。
[0071]
该文档中描述的方法将环境噪声的空间特性表征为不同于表征环境噪声频谱的机制。具体地,该文档描述了在利用单声道编解码器舒适噪声编码器时一个或多个空间舒适噪声参数的创建,其中,空间舒适噪声参数表征噪声的空间分量。可以在解码单元150处使用空间分量和频谱分量来生成空间舒适噪声。
[0072]
输入音频信号101可以被提供给编码单元100,其中,输入音频信号101包括一系列帧。这些帧可以例如具有20ms的时间长度。所述一系列帧可以包括音频帧或语音帧的子集
以及仅由背景噪声构成的帧的子集。可以考虑音频帧的示例序列
[0073]a‑‑‑a‑‑s‑‑‑s‑‑‑‑s‑‑‑s‑‑‑s‑‑‑‑s‑‑‑s‑‑‑s‑‑‑‑s‑‑‑s‑‑‑‑s‑‑‑s‑‑‑s‑‑‑s‑‑‑‑s‑‑‑s‑‑‑s‑‑‑‑s‑‑‑s‑‑‑s‑‑‑‑s‑‑‑a‑‑‑a‑‑a‑‑a[0074]
其中,“a”指示活动语音和/或音频帧,并且其中,“s”指示静音帧(本文也称为非活动帧)。
[0075]
对于不连续传输(dtx)系统,其中,通过仅发送噪声整形参数并且通过假设背景噪声特性不像活动语音或音频帧那样频繁地改变,可以在非活动帧期间显著降低编解码器的实际比特率,编码单元100可以将以上序列转换为以下帧序列:
[0076]
ab-ab-sid-nd-nd-nd-nd-nd-nd-nd-sid-nd-nd-nd-nd-nd-nd-nd-sid-nd-nd-nd-nd-ab-ab-ab-ab
[0077]
其中,“ab”指示活动帧的编码器比特流,其中,“sid”指示静音指示帧,所述静音指示帧包括用于舒适噪声产生的一系列比特,并且其中,“nd”指示没有数据帧,即,在这些帧期间没有向解码单元150传输任何内容。
[0078]
因此,编码单元100可以被配置为将输入信号101的不同帧分类为活动(a)或静音(s)帧(也称为非活动帧)。此外,编码单元100可以被配置为确定用于“sid”帧(其对应于例如一系列s帧中的当前s帧)内的舒适噪声产生的数据并对其进行编码。对于一系列s帧,可以重复地、特别是周期性地发送sid帧。举例来说,sid帧可以每第8帧发送一次(当使用20ms帧时,其对应于后续sid帧之间160ms的时间间隔)。在所述一系列s帧中的一个或多个后续s帧期间不能传输数据。因此,编码单元100可以被配置为执行dtx(不连续传输)或切换到dtx模式。
[0079]
换句话说,编码单元100可以被配置为针对每个活动帧向解码单元150发送音频数据106和经编码元数据107。另一方面,编码单元100可以被配置为仅发送非活动帧的一部分(即sid帧)的经编码元数据107(而不发送音频数据106)。对于剩余的非活动帧(即,对于nd帧),可以根本不发送数据(甚至不发送经编码元数据107)。相对于为活动帧发送的经编码元数据107,可以减少和/或压缩为sid帧发送的经编码元数据107。
[0080]
编码单元100可以包括语音活动检测器,所述语音活动检测器被配置为将编码器切换到dtx模式。如果设置了dtx标志(例如,下面提到的combinedvad标志),则可以基于输入帧以不连续的模式生成数据包,否则可以将帧编码为语音帧和/或音频活动帧。
[0081]
编码单元100可以被配置为确定单声道下混信号103,并且单声道下混信号103可以用于通过对单声道下混信号103操作信号活动检测器或语音活动检测器(sad/vad)来检测非活动帧。对于声场b格式输入信号101的示例,sad/vad可以对w声道信号的表示进行操作。在替代示例中,sad/vad可以对输入信号101的多个(特别是所有)声道信号进行操作。然后,可以将各个声道信号的各个结果组合成单个combinedvad标志。如果设置了combinedvad标志,则可以认为帧是非活动的。另一方面,如果没有设置combinedvad标志,则可以认为帧是活动的。
[0082]
因此,vad和/或sad可以用于将帧序列中的帧分类为活动帧或非活动帧。编码和/或生成舒适噪声可以应用于非活动帧。可以执行编码单元100内的舒适噪声的编码(特别是噪声整形参数的编码),使得解码单元150能够为声场生成高质量的舒适噪声。由解码单元150生成的舒适噪声优选地与输入信号101内的背景噪声的频谱特性和/或空间特性相匹
配。这不一定意味着输入背景噪声的波形重建。由声场解码单元150为一系列非活动帧生成的舒适噪声优选地使得舒适噪声相对于正好在前的活动帧内的噪声听起来是连续的。因此,解码单元150处的活动帧与非活动帧之间的过渡优选地是平滑且非突发的。
[0083]
解码单元150可以被配置为生成随机白噪声作为激励信号。激励信号可以包括多个白噪声声道,其中,不同声道中的白噪声通常彼此不相关。来自编码单元100的比特流可以仅包括噪声整形参数(作为经编码元数据107),并且解码单元150可以被配置为使用已经在比特流内提供的噪声整形参数来对(在频谱上和空间上)不同的声道内的随机白噪声进行整形。通过这样做,可以以高效的方式产生空间舒适噪声。
[0084]
在下文中,描述了一种用于在编码单元150处确定空间舒适噪声参数和/或频谱舒适噪声参数的方法。如以上所指示的,“活动帧”可以是在其中检测到语音和/或音频信号的帧。“无活动或非活动帧”可以是在其中没有检测到语音和言语使得只存在背景噪声的帧。可以使用语音和/或言语检测(vad和/或sad)算法将帧分类为活动帧和非活动帧。
[0085]
wyzx可以是b格式声场信号的四个声道。缩写cng可以指舒适噪音产生。缩写spar可以指spatial重建器。如在图3的上下文中概述的,spar方案可以是一种算法,其采用具有n个声道的输入101(优选地,n=4的foa输入)并且生成下混103使得下混声道的数量n(dmx_ch)为1≤n≤n,以及空间元数据105(所谓的spar参数)。此外,spar方案使用spar参数集105从具有n个声道103的(重建)下混103、114中重建具有n个声道的多声道信号111。
[0086]
foa输入信号101的spar参数105可以包括pr(预测系数)、c(交叉项)系数和p(去相关器)系数。ypred或y
′
可以是根据一个或多个其他声道信号(特别是根据w声道信号)进行线性预测之后的y声道信号的残差。xpred或x
′
可以是根据一个或多个其他声道信号(特别是根据w声道信号)进行线性预测之后的x声道信号的残差。zpred或z
′
可以是根据一个或多个其他声道信号(特别是根据w声道信号)进行线性预测之后的z声道信号的残差。
[0087]
应当注意,尽管本文档主要涉及声场信号中空间噪声的建模,但是本文所描述的方法不限于声场信号,并且可以应用于任何多维噪声场和/或任何种类的多声道信号。特别地,本文所描述的方法可以应用于具有大于1且优选地大于2(即,大于立体声)的维度n的输入信号101的基于声道和声场的编码器。
[0088]
用于对空间舒适噪声进行编码的方法可以包括用于单声道下混信号103(例如,声场信号的w声道信号)的帧的vad和/或sad。如果检测到帧是非活动帧,则可以执行空间舒适噪声参数的编码。
[0089]
可以为多个不同的频带或子带确定帧的不同声道信号的协方差。协方差矩阵可以如以上所概述的来确定,但是针对数量减少的频带。协方差的平滑(即,协方差矩阵的平滑)可以跨多个后续帧执行。因此,可以使用滤波器跨多个帧对协方差进行(低通)滤波。不同的滤波器可以用于不同的频带。换句话说,可以在不同的频带中使用不同的平滑函数和/或不同的遗忘因子。因此,可以执行协方差的时间平滑。作为这种情况的结果,背景噪声的编码参数的数据速率可能降低。此外,可以避免空间舒适噪声的听觉不连续性。us 63.057.533中描述了时间协方差平滑的示例,所述文献通过引用以其全文并入本文。
[0090]
针对舒适噪声产生的协方差估计r
dtx
优选地利用相对广泛的协方差平滑。通过增加舒适噪声建模的遗忘因子,可以稳定对噪声空间特性的感知,从而避免在感知上可能令人讨厌的听起来不稳定的噪声。因此,可以确定帧的经平滑的协方差r
dtx
,并且可以基于经
平滑的协方差r
dtx
来确定spar元数据105。
[0091]
为了允许活动帧与随后的非活动帧之间的平滑过渡,只要sad和/或vad检测到非活动帧,协方差计算方案就可以从(用于活动帧的)正常协方差估计切换到噪声协方差估计。
[0092]
帧可以包括相对短的突发或瞬变(例如,语音突发或敲击)。这种瞬变可能相对短,例如,200ms。这种突发可能会中断非活动帧序列。中断通常会导致协方差计算的重置(因为活动帧的短突发不会使用平滑方案或经修改的平滑方案来计算)。编码单元100可以被配置为从用于确定协方差估计的平滑方案中移除携带瞬变或短突发的帧。一旦检测到瞬变或语音突发,则协方差估计可以保持恒定,直到突发或瞬变结束。对于突发或瞬变相对短的情况,例如,200ms或更短,协方差平滑可以在瞬变之后继续(基于突发或瞬变之前存储的协方差)。因此,可以使用正好在突发或瞬变之前的帧的存储协方差来继续协方差平滑。换句话说,可以通过排除与瞬变或突发相对应的一个或多个活动帧来继续协方差的加权平均。
[0093]
另一方面,如果突发持续相对长的时间,则可以重置协方差估计,并且重置之前的协方差估计可以不用于平均。
[0094]
通过这样做,可以考虑到背景噪声的空间方面在时间上相对稳定。通过从经平滑的协方差计算中移除瞬变、敲击、碰撞、滴答声等,可以以可靠的方式避免对背景噪声的空间方面的可感知的破坏。特别地,可以避免由于检测到相对短的活动帧序列而导致的协方差重置,上述协方差重置可能导致明显的伪像。
[0095]
spar元数据105的计算可以包括预测系数(pr)、交叉项系数c(如果1《n《4)和/或去相关器系数(p)的计算(如以上所概述的),其中,n是下混信号103内的声道数。
[0096]
如以上所指示的,对于非活动帧,可以为与活动帧的情况相比数量减少的频带(例如,6个频带而不是12个频带)计算协方差。减少非活动帧的频带数量背后的假设是,由于背景噪声的宽带性质,捕获噪声参数通常需要更低的频率分辨率。通过减少频带数量,可以降低数据速率,即比特率。此外,只有实值系数可以从编码单元100发送到解码单元150。因此,包括数量减少的频带的简化模型可以用于对背景噪声进行建模。该模型允许以高效的方式对宽带噪声的空间特性进行建模。
[0097]
对于两声道下混103(其包括例如w声道信号的表示和ypred或y'声道信号)的情况,从编码单元100到解码单元150的比特流内包括的数据可以包括(对于输入信号101的帧):
[0098]
·
由编码模块140编码的w声道信号的表示;
[0099]
·
由编码模块140编码的ypred声道信号。如以上所概述的,ypred声道信号可以是y声道信号的无法使用一个或多个预测系数根据w声道信号预测的不相关部分;
[0100]
·
y、z和x声道信号的(实值)预测系数[pry,prz,pr
x
]
t
;
[0101]
·
对于dtx期间的非活动帧,可以不向解码单元150发送直接系数(如交叉预测系数或c系数);以及
[0102]
·
(实值)去相关器系数p,其指示需要用来产生x声道信号和z声道信号的去相关w声道信号的电平。
[0103]
图4b中图示了在两声道下混信号103的情况下可以由编码单元100执行的处理。
[0104]
对于全参数w下混103(仅包括w声道信号作为下混信号103)的情况,从编码单元
100到解码单元150的比特流内包括的数据可以包括(对于输入信号101的帧):
[0105]
·
由编码模块140编码的w声道信号的表示;
[0106]
·
y、z和x声道信号的(实值)预测系数[pry,prz,pr
x
]
t
;以及
[0107]
·
(实值)去相关器系数p,其指示需要用来产生y声道信号、x声道信号和z声道信号的去相关w声道信号的电平。
[0108]
图4a中图示了在一个声道下混信号103的情况下可以由编码单元100执行的处理。图4c图示了三个声道下混信号103的情况。
[0109]
对于下混到单个单声道的情况(例如3-1-3或4-1-4下混,表示具有3个或4个声道的多声道输入信号101被下混到1个声道并上混到3个或4个声道),仅关于单声道(w
′
)下混信号103(其可以是w声道的表示)的音频数据106被包括在比特流中。spar元数据105可以用于基于重建下混信号114生成foa空间舒适噪声。如本文档所概述的,当编码单元100检测到非活动帧时,调整spar元数据105的计算。特别地,可以对活动帧之后的第一个非活动帧进行编码以提供sid帧。为此,可以在第一非活动帧的比特流内提供经编码spar元数据107。此外,在一系列非活动帧期间,可以重复地、特别是周期性地提供另外的sid帧。
[0110]
对于一个声道下混示例,解码单元150可以被配置为基于音频数据106生成重建下混信号114。该重建下混信号114可以被称为w
cng
,其在非活动帧期间可以包括使用白噪声作为激励信号并使用由单声道音频编解码器(例如,evs)进行编解码的频谱成形参数对下混中的w声道的未编码表示中存在的背景噪声进行参数重建。可以使用去相关器201(例如,时域或滤波器组域去相关器)从w
cng
生成用于重建y、x和z声道信号的三个去相关声道。替代性地,可以通过生成具有不同种子的不相关舒适噪声并根据w
cng
对未校正的舒适噪声进行频谱整形来生成用于重建y、x和z声道信号的三个去相关声道。可以将spar元数据105应用于w
cng
和去相关声道,以产生具有原始背景噪声的频谱和空间特性的声场格式的舒适噪声。
[0111]
对于两声道下混示例(对于一阶声场为4-2-4),可以将单声道下混(w
′
)声道和一个预测声道的舒适噪声参数提供给解码单元150。解码单元150可以应用用于根据两声道下混103和spar元数据105生成foa空间舒适噪声的方法。这两个下混声道可以是不相关的舒适噪声信号,一个具有根据原始w声道表示进行整形的频谱,而另一个具有根据原始残差声道进行整形的频谱。
[0112]
对于sid帧,两个独立的编码器模块140实例分别对关于单声道(w')声道的频谱信息和关于残差声道的频谱信息进行编码。此外,解码单元150的两个独立实例可以产生具有不同种子的不相关舒适噪声信号。不相关舒适噪声信号可以分别基于未编码的下混中的w声道的表示和残差声道进行频谱整形。重建的w声道可以被称为w
cng
,并且重建的残差声道可以被称为p
cng
。
[0113]
与去相关w
cng
和应用去相关系数相比,p
cng
通常是原始不相关残差声道的更好近似(如在仅利用单个下混声道的全参数方法中进行的)。作为这种情况的结果,当使用多声道下混信号103时,背景噪声的感知质量通常更高。
[0114]
这两个去相关声道可以通过以下方式来创建:通过时域或滤波器组域去相关器运行w
cng
,或者产生具有不同种子的不相关舒适噪声,以及按照w
cng
对不相关舒适噪声声道进行频谱整形。然后,可以使用spar元数据105将w
cng
、p
cng
舒适噪声信号和这两个去相关信号上混为foa输出。
[0115]
由于下混信号103在活动帧和非活动帧中以相同的下混配置连续运行,因此背景噪声通常听起来很平滑,即使在过渡帧期间也是如此。此外,由于解码单元150正在使用由spar编码器120计算的预测系数和去相关系数,因此空间属性被复制在由spar解码器150产生的舒适噪声中。
[0116]
可以将c系数或交叉预测系数设置为0,从而进一步降低dtx期间非活动帧的数据速率。舒适噪声建模的替代实施方式可以包括c参数。
[0117]
在舒适噪声建模的示例实施方式中,不使用p矩阵的上三角形参数或下三角形参数。仅p矩阵的实值对角元素可以用于对舒适噪声进行建模。在舒适噪声建模的替代实施方式中,可以考虑p矩阵的上三角参数或下三角参数。
[0118]
对于4-3-4下混的情况,可以为w下混声道的单声道表示和两个预测声道生成和发送单声道编解码器cng参数。然后,可以根据三声道下混103和spar元数据105产生foa空间舒适噪声。这三个下混声道可以是不相关的舒适噪声信号,一个具有在下混中成形为未编码的w声道表示的频谱,而另外两个具有在下混中成形为未编码的y残差声道和x残差声道的频谱。
[0119]
图4a、图4b和图4c分别图示了在用一个、两个或三个声道下混103对foa输入信号101进行编码时空间舒适噪声参数的逐帧计算。y'指示根据w声道预测y声道之后的残差。x'指示根据w声道预测x声道。
[0120]
在优选示例中,可以执行参数pr(预测系数)和/或p(去相关器系数)的均匀量化。量化方案可以取决于噪声的方向。特别地,分配给不同声道的量化点的数量可以取决于噪声的方向。
[0121]
预测系数(pr)的量化可以如下执行:
[0122]
·
对于4-1-4的情况,预测系数可以用均匀量化来量化。系数可以用9个均匀分布的量化点在-1.2与1.2之间量化。
[0123]
·
对于4-2-4的情况,与y'和x'相对应的预测系数可以用9个均匀分布的量化点在-1与1之间量化。与z'声道相对应的预测系数可以用7个均匀分布的量化点在-1与1之间量化。y'和x'的量化点的数量相对于z'增加可能是由y'和x'声道相对于z'声道的感知重要性增加而引起的。
[0124]
·
对于4-3-4的情况,与y'相对应的预测系数可以用9个均匀分布的量化点在-1与1之间量化。与x'声道相对应的预测系数可以用7个均匀分布的量化点在-1与1之间量化。与z'声道相对应的预测系数可以用5个均匀分布的量化点在-1与1之间量化。
[0125]
去相关系数(p)的量化可以如下;
[0126]
·
去相关系数可以在0与1.6之间量化。
[0127]
·
对于4-1-4的情况,可以通过提升去相关系数来添加附加扩散(这仅在去相关系数相对较低时才可以执行,例如,低于0.4)。然后,可以使用7个均匀分布的量化点对(提升的)去相关系数进行量化。通过提升去相关系数,可以实现非均匀量化。
[0128]
■
对于4-2-4的情况,可以不添加提升,并且可以使用7个均匀分布的量化点来量化去相关系数。
[0129]
■
对于4-3-4的情况,可以不添加提升,并且可以使用3个均匀分布的量化点来量化去相关系数。
[0130]
应当注意,符号n-n-n指示输入信号101的声道数n、下混信号103的声道数n和重建信号111的声道数n。
[0131]
图6a示出了用于对包括n个不同声道的多声道输入信号101进行编码的示例方法600的流程图,其中n是大于一的正整数,优选地n》2。多声道输入信号101可以是sr信号,特别是如foa信号等高保真立体声信号。输入信号101包括帧序列,其中,每一帧可以覆盖输入信号101的特定时间长度,例如,10ms与30ms之间的时间长度。多声道输入信号101的帧通常包括多声道pcm数据块。特别地,帧可以包括多声道输入信号101的每个声道的特定时间段(例如,20ms)的音频样本(例如,20khz或更高、或40khz或更高、特别是48khz的特定采样率)。
[0132]
可以对帧序列中的每一帧重复方法600。方法600可以包括,针对帧序列中的当前帧,使用信号和/或语音活动检测器来确定601当前帧是活动帧还是非活动帧。换句话说,当前帧可以被分类为活动帧(包括信号,特别是语音)或者非活动帧((仅)包括背景噪声)。为此,可以例如针对当前帧内音频信号的能量和/或针对当前帧内音频信号的频谱组成来分析当前帧的样本。可以基于多声道输入信号101的单个声道(例如,w声道)或者基于多声道输入信号101的多个声道、特别是所有声道来执行sad和/或vad。
[0133]
此外,方法600可以包括基于多声道输入信号101和/或基于操作和/或目标比特率来确定602下混信号103,其中,下混信号103通常包括少于或等于n个声道。特别地,下混信号103包括n个声道,通常n≤n,优选地n《n。下混信号103的声道数n可以等于多声道输入信号101的声道数n,特别是对于相对高的比特率。可以通过从多声道输入信号101中选择一个或多个声道来生成下混信号103。下混信号103可以例如包括foa信号的w声道。此外,下混信号103可以包括foa信号的一个或多个残差声道(其可以使用本文所描述的预测操作来得到)。
[0134]
通常根据比特流的目标数据速率来确定下混信号103,特别是下混信号103的声道数n。
[0135]
方法600可以进一步包括确定603包括参数集的上混元数据105,特别是spar元数据。上混元数据105可以被确定为使得其允许基于下混信号103(或基于对应的重建下混信号114)来生成包括n个声道的重建多声道信号111。上混元数据105的参数集描述和/或模拟了多声道输入信号101的当前帧内包括的音频内容(特别是噪声)的一个或多个空间特性。
[0136]
如上文所指示的,多声道输入信号101可以包括具有w声道、y声道、z声道和x声道的高保真立体声信号,特别是foa信号。上混元数据105的参数集包括预测系数,所述预测系数用于基于w声道来预测y声道、z声道和x声道,从而提供分别被称为y
′
声道、z
′
声道和x
′
声道的残差声道。预测系数在本文中被称为pr或pr。下混信号103可以包括w声道的表示和一个或多个残差信号(特别地,具有最高能量的一个或多个残差信号)。
[0137]
如果下混信号除w声道表示之外还包括第一残差声道,则可以确定交叉预测参数(可能作为上混元数据105的一部分),其中,交叉预测参数取决于下混信号中包括的一个或多个残差声道与一个或多个剩余残差声道(其未包括在下混信号103中)之间的协方差。一个或多个交叉预测系数在本文中被称为c。
[0138]
此外,可以基于残差声道的协方差来确定用于在重建尚未被包括在下混信号103中的残差声道时生成去相关声道的去相关参数。去相关参数在本文中可以被称为p,并且可
以是上混元数据的一部分。
[0139]
上混元数据105可以根据当前帧是活动帧还是非活动帧来确定。特别地,包括在上混元数据105内的参数集可以取决于当前帧是活动帧还是非活动帧。如果当前帧是活动帧,则与当前帧是非活动帧的情况相比,上混参数105的参数集可以更大和/或可以包括更多数量的不同参数。
[0140]
特别地,如果当前帧是非活动帧,则交叉预测参数可能不是当前帧的上混元数据105的一部分。另一方面,如果当前帧是活动帧,则交叉预测参数可以是当前帧的上混元数据105的一部分。
[0141]
替代性地或另外,如果当前帧是活动帧,在多于一个残差声道被包括在下混信号103中的情况下,当前帧的上混元数据105的参数集可以包括用于未包括的残差声道与其自身或者与未包括的残差声道中的另一个残差声道的每个可能组合的去相关参数。另一方面,如果当前帧是非活动帧,则当前帧的上混元数据105的参数集可以包括仅用于未包括的残差声道与其自身的组合的去相关参数。
[0142]
因此,对于活动帧和非活动帧,包括在上混元数据105中的参数类型可能不同。特别地,对于非活动帧,可以省略与重建背景噪声的空间特性不太相关的一个或多个参数。作为这种情况的结果,可以降低用于对背景噪声进行编码的数据速率,而不影响感知质量。
[0143]
参数集可以包括多个不同频带的对应参数。换句话说,可以为多个不同的频带(本文也称为子带)确定给定类型的参数(例如,pr、c和/或p参数)。为其确定参数的不同频带的数量可以取决于当前帧是活动帧还是非活动帧。特别地,如果当前帧是活动帧,则与当前帧是非活动帧的情况相比,不同频带的数量可能更多。
[0144]
因此,可以根据当前帧是活动帧还是非活动帧来调整描述多声道输入信号的空间特性的参数集的频率分辨率。特别地,与非活动帧相比,活动帧可以使用更高的频率分辨率。通过这样做,可以降低用于对背景噪声进行编码的数据速率,而不影响感知质量。
[0145]
方法600可以进一步包括将上混元数据105编码604为比特流(其中,比特流可被传输或提供给对应的解码单元150)。可以对上混元数据105的参数集进行熵编码,以提供要插入到比特流中的经编码元数据107。作为这种情况的结果,提供了空间背景噪声的高效编码。
[0146]
方法600可以进一步包括,当特别是仅当当前帧是活动帧时,将下混信号103编码为比特流。可以使用单声道音频编码器(如evs(增强型语音服务)编码器)(的一个或多个实例)对下混信号103的一个或多个声道进行单独编码,以提供要插入到比特流中的音频数据106。
[0147]
方法600可以包括使用量化器来量化参数集中的参数以将当前帧的上混元数据105编码604为比特流的。换句话说,量化器可以用于量化要编码为比特流的参数集。量化器,特别是量化器的量化步长和/或量化步骤的数量,可以取决于当前帧是活动帧还是非活动帧。特别地,与非活动帧相比,活动帧的量化步长可以更小和/或量化步骤的数量可以更多。替代性地或另外,量化器,特别是量化器的量化步长和/或量化步骤的数量,可以取决于下混信号的声道数。通过这样做,可以进一步提高以高感知质量对空间背景噪声进行编码的效率。
[0148]
替代性地或另外,量化器,特别是量化器的量化步长和/或量化步骤的数量,可以
取决于上混元数据105针对其进行编码的声道和/或声道类型。不同的声道和/或不同类型的声道可以涉及不同的方向。举例来说,与x声道和/或z声道相比,y声道的量化步长可以更小和/或量化步骤的数量可以更多,因为左/右提示在感知上可能比前/后或上/下提示更重要。
[0149]
所述方法可以包括通过对帧序列中的多个帧执行时间平滑来确定多声道输入信号的当前帧的协方差,特别是协方差矩阵和/或一组协方差值。时间平滑可以根据当前帧是活动帧还是非活动帧来执行。举例来说,时间平滑的遗忘因子可以取决于当前帧是活动帧还是非活动帧。特别地,如果当前帧是活动帧,则与当前帧是非活动帧的情况相比,遗忘因子可能更短。换句话说,与非活动帧相比,可以对活动帧执行较少的时间平滑。在示例中,如果当前帧是活动帧,则可以在不进行时间平滑的情况下确定当前帧的协方差。另一方面,如果当前帧是非活动帧,则可以通过时间平滑来确定当前帧的协方差。
[0150]
遗忘因子可能与频率相关。特别地,不同的遗忘因子(即,不同的遗忘因子值)可以至少用于多个不同频带中的一些频带。因此,对于不同的频率和/或频带,协方差的时间平滑可能不同。通过这样做,可以进一步提高空间背景噪声的感知质量。
[0151]
在非活动帧期间可以执行更多的平滑(与活动帧相比),因为背景噪声的空间特性通常被假定为比活动语音或普通音频更稳定。这也可以在解码器输出端提供更稳定的空间舒适噪声体验。
[0152]
遗忘因子可以取决于不同频带的带宽。特别地,频带的遗忘因子可以取决于频带的带宽。遗忘因子可以随着频带的频率分辨率而增加(反之亦然)。
[0153]
可以基于当前帧的协方差以精确的方式确定上混元数据的一个或多个参数(特别是一个或多个预测参数、一个或多个交叉预测系数和/或一个或多个去相关参数)。
[0154]
因此,可以对包括背景噪声的非活动帧执行协方差的时间平滑(这是描述空间特性的基础)。通过这样做,可以提高解码单元150处的重建背景噪声的感知质量。此外,可以提高数据速率效率(由于熵编码的性能提高)。
[0155]
方法600可以包括从帧序列中识别与瞬变噪声或谈话突发相对应的一个或多个帧。瞬变噪声和/或谈话突发可以是最多持续预定突发持续时间阈值的声学事件。突发持续时间阈值可以例如设置在100ms与300ms之间,例如,200ms。在不进行时间平滑的情况下捕获瞬变噪声和/或谈话突发的空间参数可能是感知上重要的,使得解码单元150可以在其正确的空间位置处重建瞬变噪声和/或谈话突发。然而,保持协方差平滑滤波器状态以对空间背景噪声进行建模(没有瞬变噪声和/或谈话突发的影响)也可能是感知上重要的,因为背景噪声的协方差的突发变化可能导致听觉上的不连续和/或伪像。
[0156]
方法600可以包括在执行时间平滑时忽略一个或多个识别出的帧(其包括瞬变噪声和/或谈话突发),和/或从时间平滑计算中移除一个或多个识别出的帧以确定当前帧的协方差。换句话说,可以从协方差的时间平滑操作中移除包括相对短的瞬变噪声和/或谈话突发的一个或多个中间活动帧。作为这种情况的结果,可以改善空间背景噪声的感知质量。因此,可以避免解码单元150处的重建空间背景噪声的空间特性的突发变化,这使得感知质量改善。
[0157]
方法600可以包括确定当前帧是(正好)在帧序列中的一组一个或多个先前非活动帧之后相隔少于预定突发持续时间阈值的活动帧。然后,可以在不考虑当前帧的情况下确
定当前帧的协方差。然后,可以基于参考协方差来确定当前帧的协方差,所述参考协方差是基于所述一组一个或多个先前非活动帧确定的。因此,在协方差的时间平滑期间,可以忽略非活动帧序列之后的活动帧,从而提高解码单元150处的空间背景噪声的感知质量。
[0158]
替代性地,方法600可以包括确定当前帧是(正好)在帧序列中的一组一个或多个先前非活动帧之后相隔大于预定突发持续时间阈值的活动帧。换句话说,可以确定当前帧不是相对短的瞬变和/或突发的一部分,而是包括语音和/或信号。然后,可以基于来自当前帧的样本、特别是仅基于所述样本来确定当前帧的协方差。因此,在检测到多声道输入信号101内的语音和/或信号开始之后,可以执行协方差计算的重置。作为这种情况的结果,可以改善重建多声道信号111的感知质量。
[0159]
方法600可以包括确定当前帧是非活动帧。在这种情况下,可以将当前帧的协方差存储为参考协方差,以执行时间平滑从而确定帧序列中(正好)在当前帧之后的一个或多个后续帧的协方差。通过将非活动帧的协方差存储为用于计算一个或多个后续(非活动)帧的协方差的参考协方差,可以以高效的方式执行时间平滑。
[0160]
此外,方法600可以包括,针对帧序列中(正好)在当前帧之后的后续帧,并且在当前帧是非活动帧的情况下,使用信号和/或语音活动检测器来确定后续帧是活动帧还是非活动帧。如果后续帧是非活动帧,则基于当前帧的样本、特别是基于当前帧的协方差并且基于后续帧的样本(同时考虑遗忘因子)来确定后续帧的协方差。通过这样做,可以以可靠和高效的方式执行时间平滑。
[0161]
方法600可以包括确定多声道输入信号101的当前帧在多个不同频带内的协方差,特别是协方差矩阵。如以上所指示的,频带的数量可以取决于当前帧是活动帧还是非活动帧。特别地,如果当前帧是活动帧,则与当前帧是非活动帧的情况相比,频带的数量可能更多。然后,可以基于当前帧的协方差来确定上混元数据105的一个或多个参数。特别地,可以基于多个频带的对应的多个协方差来确定多个频带的多个参数。作为这种情况的结果,可以以可靠和精确的方式来确定与频率相关的参数。
[0162]
如果确定当前帧是非活动帧,则可以确定帧序列中正好在当前帧之前的前一帧是否是非活动帧。换句话说,可以确定当前帧是sid(静音指示符)帧还是nd(无数据)帧。如果前一帧是非活动帧,并且自最后一个sid帧以来的连续非活动帧的数量小于预先计算的sid帧间隔(即,当前帧是nd帧),则可以避免将当前帧的下混信号103和/或上混元数据105编码604为比特流,从而进一步降低用于用信号传输空间背景噪声的数据速率。另一方面,如果前一帧是活动帧,或者自最后一个sid帧以来的连续活动帧的数量等于预先计算的sid帧间隔(即,当前帧是sid帧),则当前帧的下混信号103和上混元数据105可以被编码为比特流,从而提供空间背景噪声的精确信号传输。
[0163]
如果当前帧是活动帧,则可以使用单声道音频编码器的实例(如evs)对下混信号103的每个声道进行单独编码,其中,单声道音频编码器可以被配置为将下混信号103的声道内的音频信号编码为(经编码的)激励信号和(经编码的)频谱数据。
[0164]
如果当前帧是非活动(sid)帧,则可以使用单声道音频编码器的实例(如evs)对下混信号103的每个声道进行单独编码。然而,在这种情况下,可以不将(经编码的)激励信号插入到比特流中。另一方面,可以将(经编码的)频谱数据插入到比特流中。作为这种情况的结果,可以以高效的方式将关于背景噪声的频谱特性的频谱数据插入到比特流中。
[0165]
在对应的解码单元150处,下混信号103的一个或多个声道的激励信号可以用白噪声代替(其中,不同声道的白噪声通常彼此独立)。此外,(经编码的)频谱数据可以用于将频谱特性添加到下混信号103的一个或多个声道,以提供重建下混信号114。
[0166]
方法600可以包括可变速率dtx,其中,sid帧的传输频率是可变的。sid帧的传输频率可以根据背景噪声的空间特性和/或频谱特性或输入信号101的信噪比的变化而变化。如以上所概述的,输入信号101的帧可以被分类为活动帧或者非活动帧。输入信号101的帧序列可以包括非活动帧子序列。为了提供关于非活动帧子序列内包括的噪声的空间特性和/或频谱特性的信息,编码单元100可以被配置为重复地、特别是周期性地将sid帧插入到比特流中。每个sid帧可以包括在本文档中描述的上混元数据105。sid帧的频率或重复率可以根据输入信号101进行调整。
[0167]
特别地,可以分析当前非活动帧,以便确定当前非活动帧内的噪声的空间特性和/或频谱特性相对于先前非活动帧是否发生了变化。举例来说,可以确定当前非活动帧的上混元数据105与先前非活动帧的上混元数据105之间的距离度量的值是否大于预定距离阈值。如果是这种情况,则可以为当前非活动帧插入sid帧,以便将变化的上混元数据105用信号传输到解码单元150。另一方面,如果距离度量的值小于距离阈值,则当前非活动帧可以被视为nd帧。
[0168]
如以上所概述的,输入音频信号101可以被提供给编码单元100,其中,输入音频信号101包括一系列帧。这些帧可以例如具有20ms的时间长度。所述一系列帧可以包括音频帧或语音帧的子集以及仅由背景噪声构成的帧的子集。可以考虑音频帧的示例序列a
‑‑‑a‑‑
st
‑‑‑s‑‑‑‑s‑‑‑s‑‑‑s‑‑‑‑s‑‑‑s‑‑‑s‑‑‑‑s‑‑‑s‑‑‑‑s‑‑‑s‑‑‑s‑‑‑
st
‑‑‑‑s‑‑‑s‑‑‑s‑‑‑‑s‑‑‑s‑‑‑s‑‑‑‑s‑‑‑a‑‑‑a‑‑a‑‑a[0169]
其中,“a”指示活动语音和/或音频帧,并且其中,“s”指示静音帧(在本文中也称为非活动帧),并且“st”指示静音传输帧,针对所述静音传输帧检测到了背景噪声的频谱特性和/或空间特性的变化,因此将对空间参数和/或频谱参数进行编码并将其发送到解码单元150。
[0170]
对于不连续传输(dtx)系统,通过仅发送噪声整形参数并且假设背景噪声特性不像活动语音或音频帧那样频繁地改变,编解码器的实际比特率在非活动帧期间显著降低,编码单元100可以将以上序列转换为以下帧序列:
[0171]
ab-ab-sid-nd-nd-nd-nd-nd-nd-nd-nd-nd-nd-nd-nd-sid-nd-nd-nd-nd-nd-nd-nd-ab-ab-ab-ab
[0172]
其中,“ab”指示活动帧的编码器比特流,其中,“sid”指示静音指示帧,所述静音指示帧包括用于舒适噪声产生的一系列比特,并且其中,“nd”指示没有数据帧,即,在这些帧期间没有向解码单元150传输任何内容。注意,以上序列中sid帧的传输频率不是预先确定的,而是取决于输入背景噪声的频谱特性和/或空间特性的变化。
[0173]
因此,方法600可以包括,在当前帧是非活动帧的情况下,基于当前帧的协方差矩阵的变化来检测背景噪声的空间特性和/或频谱特性的变化。只有在变化大于预定阈值时,才可以发送sid帧。
[0174]
换句话说,方法600可以包括确定当前帧是在(正好在当前帧之前的)由一个或多个先前非活动帧构成的子序列之后的非活动帧。此外,方法600可以包括确定当前帧内包括
的背景噪声的空间特性和/或频谱特性、和/或当前帧的信噪比是否相对于一个或多个先前非活动帧的子序列中的背景噪声的对应空间特性和/或频谱特性和/或相对于由一个或多个先前非活动帧构成的子序列的信噪比发生改变。
[0175]
方法600可以进一步包括当特别是仅当确定当前帧内包括的背景噪声的空间特性和/或频谱特性、和/或当前帧的信噪比相对于由一个或多个先前非活动帧构成的子序列发生改变时,将当前帧的上混元数据105编码604为比特流。因此,当特别是仅当当前帧内包括的背景噪声的空间特性和/或频谱特性、和/或当前帧的信噪比发生改变时,当前帧才可以被编码为sid帧。
[0176]
替代性地或另外,方法600可以包括确定当前帧是一个或多个先前非活动帧之后的非活动帧。另外,方法600可以包括确定当前帧的协方差和/或上混元数据105与一个或多个先前非活动帧的先前协方差和/或先前上混元数据105之间的距离度量的值(例如,均方误差)。换句话说,这可以通过当前帧的协方差与一个或多个先前非活动帧的对应先前协方差偏离多少和/或通过当前帧的上混元数据105与一个或多个先前非活动帧的先前上混元数据105偏离多少来确定。先前上混元数据105可以是已经在上一个sid帧中发送的上混元数据。先前协方差可以是已经用于生成先前上混元数据105的协方差。
[0177]
方法600可以进一步包括确定距离度量的值是否大于预定距离阈值。当特别是仅当距离度量的值大于预定距离阈值时,可以执行将当前帧的上混元数据105编码604为比特流。替代性地,当特别是仅当距离度量的值小于预定距离阈值时,可以避免将当前帧的上混元数据105编码604为比特流。
[0178]
因此,背景噪声参数(即上混元数据105)的传输可以是非周期性的,并且可以取决于输入背景噪声和/或信噪比的空间特性和/或频谱特性的变化。特别地,仅当空间特性和/或频谱特性和/或信噪比的变化高于预定阈值时,背景噪声参数才可以被更新并发送到解码单元150。
[0179]
通过实现sid帧的自适应传输,可以进一步降低数据速率,而不会影响舒适噪声的感知质量。
[0180]
对应的解码方法可以包括,在当前帧是非活动帧的情况下,在解码单元150处确定当前帧是sid帧还是no_data帧。在多个no_data帧上将当前sid帧中的空间背景噪声参数与一个或多个先前sid帧中的空间背景噪声参数交叉渐变。例如,如果p
curr_sid
是当前sid帧的参数,并且p
prev_sid
是前一个sid帧的参数,则背景噪声参数p
curr_sid-p
prev_sid
的变化可以应用于数量为x个的帧(x》1),其中,每个后续帧中的空间参数改变(p
curr_sid-p
prev_sid
)/x。这确保了空间舒适噪声从一个空间位置到另一个空间位置的平滑过渡。
[0181]
方法600可以包括,在当前帧的(正好)前一帧是活动帧的情况下,确定针对所述前一权利要求的下混信号103的声道数,并保持针对所述当前帧的下混信号103的声道数与针对所述前一权利要求的下混信号103的声道数相同。换句话说,在活动帧与非活动帧之间的过渡期间,可以保持下混信号103内的声道数。作为这种情况的结果,可以进一步提高空间背景噪声的感知质量。
[0182]
如以上所概述的,多声道输入信号101可以包括具有w声道、y声道、z声道和x声道的高保真立体声信号。特别地,多声道输入信号101可以是foa信号。方法600可以包括使用混合因子f将w声道与y声道、z声道和/或x声道混合,以生成下混信号103的声道。作为混合
过程的结果,可以获得w声道的表示,其在本文中被称为w
′
声道。通过将来自y、z和/或x声道的信息混合到w声道中,获得了修改后的w
′
声道,其包括比原始w声道更多的空间信息。作为这种情况的结果,可以提高编码方案的感知质量和/或可以减少下混信号103内的下混声道的数量。
[0183]
混合因子(其定义了y、z和/或x声道被混合到w声道中的程度)可以取决于当前帧是活动帧还是非活动帧。特别地,如果当前帧是活动帧,则与当前帧是非活动帧的情况相比,混合因子可以更高。换句话说,对于活动帧,y、z和/或x声道可以以比非活动帧更高的程度混合到w声道中。通过这样做,可以进一步提高编码方案的感知质量。
[0184]
图6b示出了一种用于对比特流进行解码的示例方法610的流程图,所述比特流指示包括n个声道的重建多声道信号111。比特流可以包括音频数据106和/或经编码上混元数据107。重建信号111包括帧序列。
[0185]
方法610包括,针对帧序列中的当前帧,包括基于比特流来确定611当前帧是活动帧还是非活动帧。这可以例如基于比特流内包括的经编码上混元数据107来确定。此外,方法610可以包括确定612重建下混信号114。重建下混信号114通常包括少于n个声道(但是可以包括n个声道)。如果当前帧是活动帧,则可以基于比特流内包括的音频数据106来生成重建下混信号114。另一方面,比特流通常不包括非活动帧的音频数据106。如果当前帧是非活动帧,则可以使用随机噪声生成器来生成重建下混信号114。统计上独立的噪声发生器可以用于重建下混信号114的一个或多个不同声道。
[0186]
方法610进一步包括基于重建下混信号114并基于包括参数集的上混元数据105来生成613重建多声道信号111。重建多声道信号111可以根据当前帧是活动帧还是非活动帧来生成。
[0187]
特别地,方法610可以包括生成重建多声道信号111中不包括在重建下混信号114中的声道的去相关声道。可以基于重建下混信号103(特别是基于重建w声道)来生成去相关声道。此外,方法610可以包括基于上混元数据105向去相关声道添加空间属性,以生成重建多声道信号111的除重建下混信号114内包括的一个或多个重建声道之外的重建声道。
[0188]
通过根据信号111的帧是活动帧还是非活动帧来调整重建多声道信号111(特别是多声道信号111的一个或多个重建声道)的重建,可以提供高质量的空间背景噪声。
[0189]
如在对应的编码方法600的上下文中所概述的,上混元数据105通常仅针对非活动帧的一部分进行传输。解码单元150可以被配置为对sid帧之后的多个非活动帧使用已在sid帧内传输的上混元数据105。特别地,可以使用上混元数据105,直到接收到新的sid帧。通过这样做,可以以数据速率高效的方式产生高质量的舒适噪声。
[0190]
方法610可以包括确定当前帧是一个或多个先前非活动帧之后的非活动帧,其中,先前上混元数据105被用于为一个或多个先前非活动帧生成重建多声道信号111。此外,方法610可以包括确定比特流包括当前帧的更新后的上混元数据105。换句话说,可以确定当前帧是sid帧(其包括更新后的上混元数据105,用于用信号传输背景噪声的更新后的空间特性和/或频谱特性)。
[0191]
然后,可以基于更新后的上混元数据105来生成当前帧的重建多声道信号111(即,空间背景噪声)。通过接收具有更新后的上混元数据105的sid帧,可以以高效的方式跟踪编码单元100处的背景噪声的变化。
[0192]
方法610可以包括基于更新后的上混元数据105和先前上混元数据105来执行元数据平滑,以确定经平滑的上混元数据105。元数据平滑可以包括在从当前帧开始的一个或多个非活动帧内从先前上混元数据105交叉渐变到更新后的上混元数据105。然后,可以基于经平滑的上混元数据105来确定当前帧的重建多声道信号111。
[0193]
换句话说,空间元数据平滑可以由解码单元150执行,并且在当前sid帧中发送的空间参数可以与在多个no_data(nd)帧上的一个或多个先前sid帧中发送的空间参数交叉渐变。
[0194]
因此,可以在一个或多个帧内执行背景噪声的先前空间特性和/或频谱特性到更新后的空间特性和/或频谱特性之间的平滑过渡。通过这样做,可以进一步提高舒适噪声的感知质量。
[0195]
此外,本文档中描述了与编码方法600相对应的编码单元100和/或与解码方法610相对应的解码单元150。
[0196]
因此,描述了使用空间参数105和用于活动帧的相同或不同下混103对噪声的空间特性进行建模的方法600,从而允许在解码器150处产生在活动帧与无活动帧之间空间一致的舒适噪声。方法600可以包括确定音频输入101的一个或多个帧中是否存在语音信号。响应于确定不存在语音信号,可以使用帧间平均来估计协方差。此外,可以计算空间噪声参数105,并且可以执行对空间噪声参数105的熵编码。熵编码的空间噪声参数107可以被打包到一个或多个帧的比特流中。
[0197]
方法600可以包括,响应于检测到一个或多个帧中的某个帧的瞬变,从协方差平均中移除所述帧。计算空间噪声参数105可以用经平滑的协方差估计来执行,所述协方差估计跨多个帧平滑以避免噪声的空间可变性。方法600可以包括平滑跨瞬变和短谈话突发的协方差,并从计算中移除这些协方差。替代性地或另外,方法600可以包括使用有限的频带集和/或有限的参数集来降低噪声的参数比特率,并且在存在音频时切换回完整集合。替代性地或另外,方法600可以包括与噪声的频谱元素分开计算空间元素,以允许重新使用现有的舒适噪声发生器。
[0198]
图5是用于实施参考图1至图4c描述的特征和过程的移动设备架构。移动设备可以例如包括解码单元150。架构800可以在任何电子设备中实施,所述电子设备包括但不限于:台式计算机、消费类音频/视频(av)设备、无线电广播设备、移动设备(例如,智能电话、平板计算机、膝上型计算机、可穿戴设备)。在示出的示例实施例中,架构800用于智能电话并且包括(多个)处理器801、外围设备接口802、音频子系统803、扩音器804、麦克风805、传感器806(例如,加速度计、陀螺仪、气压计、磁力计、相机)、位置处理器807(例如,gnss接收器)、无线通信子系统808(例如,wi-fi、蓝牙、蜂窝)、以及(多个)i/o子系统809,所述i/o子系统包括触摸控制器810和其他输入控制器811、触摸表面812和其他输入/控制设备813。也可以使用具有更多或更少部件的其他架构来实施所公开的实施例。
[0199]
存储器接口814耦接到处理器801、外围设备接口802和存储器815(例如,闪速存储器、ram、rom)。存储器815存储计算机程序指令和数据,包括但不限于:操作系统指令816、通信指令817、gui指令818、传感器处理指令819、电话指令820、电子消息传送指令821、网络浏览指令822、音频处理指令823、gnss/导航指令824和应用程序/数据825。音频处理指令823包括用于执行参考图1至图4c所描述的音频处理的指令。
[0200]
本文所描述的系统的各方面可以在适当的基于计算机的声音处理网络环境中实施,以便处理数字或数字化音频文件。自适应音频系统的部分可以包括一个或多个网络,所述网络包括任何期望数量的独立机器,所述机器包括用于缓冲和路由在计算机之间传输的数据的一个或多个路由器(未示出)。这种网络可以在各种不同的网络协议上构建,并且可以是因特网、广域网(wan)、局域网(lan)或其任何组合。
[0201]
一个或多个部件、块、过程或其他功能部件可以通过控制系统的基于处理器的计算设备的执行的计算机程序来实施。还应当注意,可以使用硬件、固件和/或体现在各种机器可读或计算机可读介质中的数据和/或指令的任何数量的组合,从行为、寄存器传输、逻辑部件和/或其他特性的角度描述本文公开的各种功能。可以体现这种格式化数据和/或指令的计算机可读介质包括但不限于各种形式的物理(非暂态)、非易失性存储介质,如光、磁或半导体存储介质。
[0202]
虽然已经通过示例并且就具体实施例描述了一种或多种实施方式,但是应当理解,一种或多种实施方式不限于所公开的实施例。相反,其旨在覆盖对本领域技术人员显而易见的各种修改和类似布置。因此,所附权利要求的范围应当被赋予最广泛的解释,以便涵盖所有这样的修改和类似布置。
技术特征:
1.一种用于对包括n个不同声道的多声道输入信号(101)进行编码的方法(600);其中,所述输入信号(101)包括帧序列;其中,所述方法(600)包括:针对所述帧序列中的当前帧,-使用信号和/或语音活动检测器来确定(601)所述当前帧是活动帧还是非活动帧;-基于所述多声道输入信号(101)来确定(602)下混信号(103);其中,所述下混信号(103)包括少于或等于n个声道;-确定(603)包括参数集的上混元数据(105),所述参数集用于基于所述下混信号(103)生成包括n个声道的重建多声道信号(111);其中,所述上混元数据(105)是根据所述当前帧是活动帧还是非活动帧来确定的;以及-将所述上混元数据(105)编码(604)为比特流。2.如权利要求1所述的方法(600),其中,所述方法(600)包括-根据所述当前帧是活动帧还是非活动帧,通过在所述帧序列中的多个帧上执行时间平滑,确定所述多声道输入信号(101)的当前帧的协方差,特别是协方差矩阵;以及-基于所述当前帧的协方差来确定所述上混元数据(105)的一个或多个参数。3.如权利要求2所述的方法(600),其中,-所述时间平滑的遗忘因子取决于所述当前帧是活动帧还是非活动帧;和/或-如果所述当前帧是活动帧,则与所述当前帧是非活动帧的情况相比,所述遗忘因子更短;和/或-如果所述当前帧是活动帧,则与所述当前帧是非活动帧的情况相比,时间平滑的量更少。4.如权利要求3所述的方法(600),其中,所述协方差的时间平滑的遗忘因子与频率相关。5.如权利要求2至4中任一项所述的方法(600),其中,所述方法(600)包括-从所述帧序列中识别与瞬变噪声或谈话突发相对应的一个或多个帧;以及-在执行时间平滑时忽略一个或多个识别出的帧,和/或从用于确定所述当前帧的协方差的时间平滑计算中移除所述一个或多个识别出的帧。6.如权利要求2至5中任一项所述的方法(600),其中,所述方法(600)包括-确定所述当前帧是在所述帧序列中的一组一个或多个先前非活动帧之后相隔小于预定突发持续时间阈值的活动帧;以及-在不考虑所述当前帧的情况下确定所述当前帧的协方差。7.如权利要求6所述的方法(600),其中,所述当前帧的协方差是基于参考协方差确定的,所述参考协方差是基于所述一组一个或多个先前非活动帧确定的。8.如权利要求2至5中任一项所述的方法(600),其中,所述方法(600)包括-确定所述当前帧是在所述帧序列中的一组一个或多个先前非活动帧之后相隔大于预定突发持续时间阈值的活动帧;以及-基于来自所述当前帧的样本、特别是仅基于所述样本确定所述当前帧的协方差。9.如权利要求2至5中任一项所述的方法(600),其中,所述方法(600)包括-确定所述当前帧是非活动帧;以及-将所述当前帧的协方差存储为参考协方差,以执行时间平滑从而确定所述帧序列中在所述当前帧之后的后续帧的协方差。
10.如权利要求2至9中任一项所述的方法(600),其中,所述方法(600)包括:针对所述帧序列中在所述当前帧之后的后续帧,并且在所述当前帧是非活动帧的情况下,-使用所述信号和/或所述语音活动检测器来确定所述后续帧是活动帧还是非活动帧;-如果所述后续帧是非活动帧,则基于所述当前帧的样本、特别是基于所述当前帧的协方差并且基于所述后续帧的样本来确定所述后续帧的协方差。11.如任一前述权利要求所述的方法(600),其中,所述方法(600)包括-确定所述多声道输入信号(101)的当前帧在多个不同频带内的协方差,特别是协方差矩阵;其中,频带的数量取决于所述当前帧是活动帧还是非活动帧;以及-基于所述当前帧的协方差来确定所述上混元数据(105)的一个或多个参数。12.如权利要求11所述的方法(600),其中,如果所述当前帧是活动帧,则与所述当前帧是非活动帧的情况相比,所述频带的数量更多。13.如任一前述权利要求所述的方法(600),其中,如果所述当前帧是活动帧,则与所述当前帧是非活动帧的情况相比,所述上混参数(105)的参数集更大和/或包括更多数量的不同参数。14.如任一前述权利要求所述的方法(600),其中,所述方法(600)包括:-如果确定所述当前帧是非活动帧,则确定所述帧序列中正好在所述当前帧之前的前一帧是否是非活动帧;以及-如果所述前一帧是非活动帧,并且如果自最后一次传输上混元数据(105)以来的连续非活动帧的数量小于预先计算的数量,则避免将所述当前帧的上混元数据(105)编码(604)为所述比特流;和/或-如果所述前一帧是活动帧,或者如果自所述最后一次传输上混元数据(105)以来的连续非活动帧的所述数量等于所述预先计算的数量,则将所述当前帧的上混元数据(105)编码(604)为所述比特流。15.如任一前述权利要求所述的方法(600),其中,所述方法(600)包括:在所述帧序列中正好在所述当前帧之前的前一帧是活动帧的情况下,-确定针对前一权利要求所述的下混信号(103)的声道数;以及-保持针对所述非活动当前帧的所述下混信号(103)的声道数与针对前一权利要求所述的所述下混信号(103)的声道数相同。16.如任一前述权利要求所述的方法(600),其中,所述上混元数据(105)的参数集描述所述多声道输入信号(101)的当前帧内包括的音频内容、特别是噪声的空间特性和/或对所述空间特性进行建模。17.如任一前述权利要求所述的方法(600),其中,-所述多声道输入信号(101)包括声场表示信号,称为sr信号;和/或-所述上混元数据(105)包括空间重建器元数据,称为spar元数据。18.如任一前述权利要求所述的方法(600),其中,-所述多声道输入信号(101)包括具有w声道、y声道、z声道和x声道的高保真立体声信号;并且-所述上混元数据(105)的参数集包括预测系数,所述预测系数用于基于所述w声道的表示来预测所述y声道、所述z声道和所述x声道,从而提供分别被称为y
′
声道、z
′
声道和x
′
声道的残差声道。19.如权利要求18所述的方法(600),其中,-所述方法(600)包括:在所述下混信号(103)除所述w声道的表示之外还包括第一残差声道的情况下,确定交叉预测参数作为所述上混元数据(105)的一部分,所述交叉预测参数取决于所述第一残差声道与一个或多个剩余残差声道之间的协方差;-如果所述当前帧是非活动帧,则所述交叉预测参数不是编码为所述当前帧的比特流的所述上混元数据(105)的一部分;以及-如果所述当前帧是活动帧,则所述交叉预测参数是编码为所述当前帧的比特流的所述上混元数据(105)的一部分。20.如权利要求18至19中任一项所述的方法(600),其中,所述方法(600)包括基于所述残差声道的协方差来确定用于在重建尚未被包括在所述下混信号(103)中的残差声道时生成去相关声道的去相关参数。21.如权利要求20所述的方法(600),其中,在多于一个残差声道尚未被包括在所述下混信号(103)中的情况下,-如果所述当前帧是活动帧,则所述当前帧的上混元数据(105)的参数集包括用于未包括的残差声道与其自身或者与未包括的残差声道中的另一个残差声道的每个可能组合的去相关参数;以及-如果所述当前帧是非活动帧,则所述当前帧的上混元数据(105)的参数集包括仅用于未包括的残差声道与其自身的组合的去相关参数。22.如任一前述权利要求所述的方法(600),其中,-所述参数集包括多个不同频带的对应参数;并且-如果所述当前帧是活动帧,则与所述当前帧是非活动帧的情况相比,所述不同频带的数量更多。23.如任一前述权利要求所述的方法(600),其中,所述方法(600)包括:-确定所述当前帧是在由一个或多个先前非活动帧构成的子序列之后的非活动帧;-确定所述当前帧内包括的背景噪声的空间特性和/或频谱特性、和/或所述当前帧的信噪比相对于所述由一个或多个先前非活动帧构成的子序列是否发生改变;以及-当特别是仅当确定所述当前帧内包括的背景噪声的空间特性和/或频谱特性、和/或所述当前帧的信噪比相对于所述由一个或多个先前非活动帧构成的子序列发生改变时,将所述当前帧的上混元数据(105)编码(604)为所述比特流。24.如任一前述权利要求所述的方法(600),其中,所述方法(600)包括:-确定所述当前帧是一个或多个先前非活动帧之后的非活动帧;-确定所述当前帧的协方差和/或上混元数据(105)与所述一个或多个先前非活动帧的先前协方差和/或先前上混元数据(105)之间的距离度量的值;-确定所述距离度量的值是否大于预定距离阈值;以及-当特别是仅当所述距离度量的值大于所述预定距离阈值时,将所述当前帧的上混元数据(105)编码(604)为所述比特流;和/或-当特别是仅当所述距离度量的值小于所述预定距离阈值时,避免将所述当前帧的上混元数据(105)编码(604)为所述比特流。
25.如任一前述权利要求所述的方法(600),其中,-所述方法(600)包括使用量化器来量化用于将所述当前帧的上混元数据(105)编码(604)为所述比特流的所述参数集中的参数;并且-所述量化器,特别是所述量化器的量化步长和/或量化步骤的数量,取决于以下各项:-所述当前帧是活动帧还是非活动帧;和/或-所述下混信号(103)的声道数;和/或-要为其量化所述参数的声道类型。26.如任一前述权利要求所述的方法(600),其中,所述方法(600)包括:-使用单声道音频编码器的一个或多个实例对所述下混信号(103)的一个或多个声道进行单独编码(604),以提供要插入到所述比特流中的音频数据(106);和/或-对所述上混元数据(105)的参数集进行熵编码,以提供要插入到所述比特流中的经编码元数据(107)。27.如任一前述权利要求所述的方法(600),其中,所述方法(600)包括:当特别是仅当所述当前帧是活动帧时,将所述当前帧的下混信号(103)编码为所述比特流。28.如任一前述权利要求所述的方法(600),其中,所述方法(600)包括:在所述当前帧是非活动帧的情况下,-使用单声道音频编码器的一个或多个实例单独确定所述下混信号(103)的一个或多个声道中的每一个的频谱数据;以及-将所述频谱数据插入到所述比特流中。29.如任一前述权利要求所述的方法(600),其中,对所述帧序列中的每一帧重复所述方法(600)。30.如任一前述权利要求所述的方法(600),其中,n>2。31.如任一前述权利要求所述的方法(600),其中,-所述多声道输入信号(101)包括具有w声道、y声道、z声道和x声道的高保真立体声信号;并且-所述方法(600)包括使用混合因子将所述w声道与所述y声道、所述z声道和/或所述x声道混合,以生成所述下混信号(103)的声道;其中,所述混合因子取决于所述当前帧是活动帧还是非活动帧。32.如权利要求31所述的方法(600),其中,如果所述当前帧是活动帧,则与所述当前帧是非活动帧的情况相比,所述混合因子更高。33.一种用于对比特流进行解码的方法(610),所述比特流指示包括n个声道的重建多声道信号(111);其中,所述重建信号(111)包括帧序列;其中,所述方法(610)包括:针对所述帧序列中的当前帧,-基于所述比特流来确定(611)所述当前帧是活动帧还是非活动帧;-确定(612)重建下混信号(114);其中,所述重建下混信号(114)包括少于或等于n个声道;以及-基于所述重建下混信号(114)并基于所述比特流内包括的上混元数据(105)来生成(613)所述重建多声道信号(111);其中,所述重建多声道信号(111)是根据所述当前帧是活动帧还是非活动帧来生成的。
34.如权利要求33所述的方法(610),其中,所述方法(610)包括:-生成所述重建多声道信号(111)中不包括在所述重建下混信号(114)中的声道的去相关声道;以及-基于所述上混元数据(105)向所述去相关声道添加空间属性,以生成所述重建多声道信号(111)的除所述重建下混信号(114)内包括的所述一个或多个重建声道之外的重建声道。35.如权利要求34所述的方法(610),其中,所述去相关声道是基于所述重建下混信号(114)生成的。36.如权利要求33至35中任一项所述的方法(610),其中,-如果所述当前帧是活动帧,则基于所述比特流内包括的音频数据(106)生成所述重建下混信号(114);和/或-如果所述当前帧是非活动帧,则使用随机噪声发生器和所述比特流内包括的频谱数据生成所述重建下混信号(114)。37.如权利要求33至36中任一项所述的方法(610),其中,所述方法(610)包括:-确定所述当前帧是一个或多个先前非活动帧之后的非活动帧;其中,先前上混元数据(105)被用于生成所述一个或多个先前非活动帧的重建多声道信号(111);-确定所述比特流包括所述当前帧的更新后的上混元数据(105);以及-基于所述更新后的上混元数据(105)生成(613)所述当前帧的重建多声道信号(111)。38.如权利要求37所述的方法(610),其中,所述方法(610)包括:-基于所述更新后的上混元数据(105)和所述先前上混元数据(105)来执行元数据平滑,以确定经平滑的上混元数据(105);以及-基于所述经平滑的上混元数据(105)生成(613)所述当前帧的重建多声道信号(111)。39.如权利要求38所述的方法(610),其中,元数据平滑包括在从所述当前帧开始的一个或多个非活动帧内从所述先前上混元数据(105)交叉渐变到所述更新后的上混元数据(105)。40.一种用于对包括n个不同声道的多声道输入信号(101)进行编码的编码单元(100);其中,所述输入信号(101)包括帧序列;其中,针对所述帧序列中的当前帧,所述编码单元(100)被配置为进行以下操作:-使用信号和/或语音活动检测器来确定所述当前帧是活动帧还是非活动帧;-基于所述多声道输入信号(101)来确定下混信号(103);其中,所述下混信号(103)包括少于或等于n个声道;-确定包括参数集的上混元数据(105),所述参数集用于基于所述下混信号(103)生成包括n个声道的重建多声道信号(111);其中,所述上混元数据(105)是根据所述当前帧是活动帧还是非活动帧来确定的;以及-将所述上混元数据(105)编码为比特流。41.一种用于对比特流进行解码的解码单元(150),所述比特流指示包括n个声道的重建多声道信号(111);其中,所述重建信号(111)包括帧序列;其中,针对所述帧序列中的当前帧,所述解码单元(150)被配置为进行以下操作:-基于所述比特流来确定所述当前帧是活动帧还是非活动帧;
‑
确定重建下混信号(114);其中,所述重建下混信号(114)包括少于或等于n个声道;以及-基于所述重建下混信号(114)并基于所述比特流内包括的上混元数据(105)来生成所述重建多声道信号(111);其中,所述重建多声道信号(111)是根据所述当前帧是活动帧还是非活动帧来生成的。42.一种非暂态计算机可读介质,所述非暂态计算机可读介质存储有指令,所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行权利要求1至39中任一项所述的操作。
技术总结
本文档描述了一种用于对包括N个不同声道的多声道输入信号(101)进行编码的方法(600)。所述方法(600)包括:针对帧序列中的当前帧,使用信号和/或语音活动检测器来确定(601)所述当前帧是活动帧还是非活动帧,以及基于所述多声道输入信号(101)来确定(602)下混信号(103),其中,所述下混信号(103)包括N个声道或更少声道。另外,所述方法(600)包括:确定(603)包括参数集的上混元数据(105),所述参数集用于基于所述下混信号(103)生成包括N个声道的重建多声道信号(111),其中,所述上混元数据(105)是根据所述当前帧是活动帧还是非活动帧来确定的。所述方法(600)进一步包括将所述上混元数据(105)编码(604)为比特流。混元数据(105)编码(604)为比特流。混元数据(105)编码(604)为比特流。
技术研发人员:
M
受保护的技术使用者:
杜比实验室特许公司
技术研发日:
2021.06.10
技术公布日:
2023/3/28