1.本技术涉及
信号处理装置和方法以及程序,并且具体地,涉及即使利用小处理量也可以获得高
声音质量信号的信号处理装置和方法以及程序。
背景技术:
2.在过去,作为用于
音频信号的声音质量增强的处理,即,作为用于声音质量改进的处理,带宽扩展处理和动态范围扩展处理是已知的。
3.例如,作为这种带宽扩展处理,已经提出了一种技术,其中,基于低频子带信号,计算通带是高频的带通滤波器的滤波系数,并且通过使用滤波系数,执行从低频子带信号获得的平坦化信号的滤波,从而生成高频信号(例如,参见ptl1)。
4.[引用列表]
[0005]
[专利文献]
[0006]
[ptl1]:美国专利号9922660
技术实现要素:
[0007]
[技术问题]
[0008]
顺便提及,如果尝试对包括音频信号的目标音频声音执行用于声音质量增强的处理,每个音频信号与多个目标中的一个相对应,使得对所有目标的音频信号均匀地执行该处理,则必然需要执行该处理的次数等于目标的数量。
[0009]
因此,例如,在一些情况下,当前可用的平台(如智能电话、便携式播放器、声音放大器等)不可能完全执行该处理。
[0010]
例如,在目标的数量是相对小的12个的情况下,如果试图对所有的12个目标执行声音质量增强处理,则处理量变得不期望地高达1gcps(每秒周期)至3gcps。
[0011]
鉴于这种情况做出本技术,并且本技术的目的在于即使在小的处理量下也能够获得高声音质量信号。
[0012]
[问题的解决方案]
[0013]
根据本技术的一个方面的信号处理装置包括:选择部,其被提供有多个音频信号并选择要进行声音质量增强处理的音频信号;以及声音质量增强处理部,其对由选择部选择的音频信号执行声音质量增强处理。
[0014]
根据本技术的一个方面的信号处理方法或程序包括以下步骤:提供多个音频信号;以及选择要经过声音质量增强处理的音频信号;以及对所选择的音频信号执行声音质量增强处理。
[0015]
在本技术的一个方面,提供多个音频信号,选择要经历声音质量增强处理的音频信号,并且对所选择的音频信号执行声音质量增强处理。
附图说明
[0016]
图1是描绘信号处理装置的配置实例的示图。
[0017]
图2是描述声音质量增强处理部的配置实例的示图。
[0018]
图3是描绘动态范围扩展部的配置实例的示图。
[0019]
图4是描绘带宽扩展部的配置实例的示图。
[0020]
图5是描绘动态范围扩展部的配置实例的示图。
[0021]
图6是描绘带宽扩展部的配置实例的示图。
[0022]
图7是描绘带宽扩展部的配置实例的示图。
[0023]
图8是用于说明再现信号生成过程的流程图。
[0024]
图9是用于说明高负荷声音质量增强处理的流程图。
[0025]
图10是用于说明中负荷声音质量增强处理的流程图。
[0026]
图11是用于说明低负荷声音质量增强处理的流程图。
[0027]
图12是示出信号处理装置的配置实例的示图。
[0028]
图13是用于说明再现信号生成过程的流程图。
[0029]
图14是描绘信号处理装置的配置实例的示图。
[0030]
图15是描绘信号处理装置的配置实例的示图。
[0031]
图16是用于说明再现信号生成过程的流程图。
[0032]
图17是描述计算机的配置实例的示图。
具体实施方式
[0033]
下面参考附图说明应用本技术的实施方式。
[0034]
《第一实施方式》
[0035]
《关于本技术》
[0036]
本技术旨在使得在执行由目标音频声音表示的多声道音频声音的声音质量增强的情况下,通过使用元数据等选择不同的处理作为要对音频信号执行的处理,即使以小的处理量,也可以获得高声音质量信号。
[0037]
例如,在本技术中,对于每个音频信号,基于元数据等选择要对音频信号执行的声音质量增强处理。换言之,选择要经过声音质量增强处理的音频信号。
[0038]
通过这样做,可以整体上减少用于声音质量增强的处理的处理量并且即使在诸如处理能力低的便携式终端的平台下,也能够获得高声音质量信号。
[0039]
近年来,已经计划对由目标音频声音表示的多通道音频声音进行分配。在这种音频分配中,例如,可以采用mpeg(运动图像专家组)-h格式。
[0040]
例如,作为对mpeg-h格式的压缩信号(音频信号)的声音质量增强处理,可执行动态范围扩展处理和带宽扩展处理。
[0041]
这里,动态范围扩展处理是扩展音频信号的动态范围的处理,即,音频信号的一个采样的采样值的比特计数(量化比特计数)。此外,带宽扩展处理是将高频分量添加到不包括高频分量的音频信号的处理。
[0042]
顺便提及,执行需要高处理负荷的声音质量增强处理并且进一步提高所有多个音频信号的声音质量是不现实的。
[0043]
鉴于此,例如,本技术使得可以通过基于音频信号的元数据等对重要的音频信号执行需要高处理负荷但提供更高的声音质量改善效果的声音质量增强处理和对较不重要的音频信号执行需要较低的处理负荷的声音质量增强处理来执行更适当的声音质量改善。即,即使以小的处理量,也能够获得足够高音质的信号。
[0044]
注意,作为声音质量增强的对象的音频信号可以是任何音频信号,但是下面假定包括在预定内容中的多个音频信号是声音质量增强的对象给出解释。
[0045]
另外,假设包括在内容中的多个音频信号(作为声音质量增强的对象)包括诸如r或l的声道的音频信号,以及诸如声音等的音频目标(在下文中,简称为目标)的音频信号。
[0046]
此外,假定每个音频信号具有添加到其中的元数据,并且元数据包括类型信息和优先级信息。另外,假定目标的音频信号的元数据也包括表示目标的位置的位置信息。
[0047]
类型信息是表示音频信号的类型的信息,即,例如,音频信号的声道名称(诸如l或r),或目标的类型(诸如嗓音或吉他),更具体地,目标的声源的类型。
[0048]
假定优先级信息是表示音频信号的优先级(priority)的信息,并且此处优先级由从1至10的数值表示。具体地,假定表示优先级的数值越小,优先级越高。因此,在这个实例中,优先级“1”是最高优先级,并且优先级“10”是最低优先级。
[0049]
此外,在下面说明的实例中,提前准备三种彼此不同的声音质量增强处理作为声音质量增强处理,三种彼此不同的声音质量增强处理为高负荷声音质量增强处理、中负荷声音质量增强处理以及低负荷声音质量增强处理。然后,基于元数据,从声音质量增强处理中选择要对音频信号执行的声音质量增强处理。
[0050]
高负荷声音质量增强处理是三个声音质量增强处理中需要最高处理负荷但是提供最高声音质量改进效果的声音质量增强处理,并且作为对高优先级的音频信号或高重要性类型的音频信号的声音质量增强处理是特别有用的。
[0051]
作为高负荷声音质量增强处理的具体示例,例如,可以组合执行通过机器学习预先获得的基于dnn(深度神经网络)等的动态范围扩展处理和带宽扩展处理。
[0052]
低负荷声音质量增强处理是三个声音质量增强处理中需要最低处理负荷并提供最低声音质量改进效果的声音质量增强处理,并且作为对低优先级或低重要性类型的音频信号的声音质量增强处理特别有用。
[0053]
作为低负荷声音质量增强处理的具体实例,例如,可组合地执行需要极低负荷的处理,诸如使用预定系数或在编码侧指定的系数的带宽扩展处理、将诸如白噪声的信号作为高频分量添加到音频信号的简单带宽扩展处理、或通过使用预定系数滤波的动态范围扩展处理。
[0054]
中负荷声音质量增强处理是三个声音质量增强处理中需要次最高处理负荷并且还提供次最高声音质量改进效果的声音质量增强处理,并且作为对中间优先级或中间重要性类型的音频信号的声音质量增强处理是特别有用的。
[0055]
作为中负荷声音质量增强处理的具体实例,例如,可组合地执行通过线性预测生成高频分量的带宽扩展处理、通过使用预定系数滤波的动态范围扩展处理等。
[0056]
注意,虽然在下面说明的实例中,作为相互不同的声音质量增强处理的处理的数量是三个,但是相互不同的声音质量增强处理的数量可以是两个或更多个的任何数量。另外,声音质量增强处理不限于动态范围扩展处理或带宽扩展处理。可执行其他处理,或者可
执行仅动态范围扩展处理或仅带宽扩展处理。
[0057]
在此,说明具体实例。例如,假定作为要成为声音质量增强对象的音频信号,存在八个目标ob1至ob7的音频信号。
[0058]
另外,每个目标的类型和优先级被写为(类型、优先级)。
[0059]
现在假定由目标ob1到目标ob7的元数据表示的类型和优先级分别是(嗓音,1)、(鼓,1)、(吉他,2)、(贝司,3)、(混响,9)、(观众,10)和(环境声音,10)。
[0060]
此时,例如,在具有典型处理能力的平台上,对优先级最高“1”的目标ob1和目标ob2的音频信号执行高负荷声音质量增强处理。此外,对优先级为“2”和“3”的目标ob3和目标ob4的音频信号执行中负荷声音质量增强处理,而对优先级低的其他目标(目标ob5到目标ob7)的音频信号执行低负荷声音质量增强处理。
[0061]
与此相反,在具有高处理能力并且能够执行用于提高声音质量的更多数量的处理的再现设备(平台)处,与先前提及的实例不同,对更多数量的目标的音频信号执行高负荷声音质量增强处理。
[0062]
例如,假定由目标ob1到目标ob7的元数据表示的类型和优先级分别是(嗓音,1)、(鼓,2)、(吉他,2)、(贝司,3)、(混响,9)、(观众,10)和(环境声音,10)。
[0063]
此时,对具有高优先级“1”和“2”的目标ob1至目标ob3的音频信号执行高负荷声音质量增强处理,并且对具有优先级“3”和“9”的目标ob4和目标ob5的音频信号执行中负荷声音质量增强处理。然后,仅对具有最低优先级“10”的目标ob6和目标ob7的音频信号执行低负荷声音质量增强处理。
[0064]
此外,在具有低于典型处理能力的处理能力的平台处,与先前提及的两个实例相比,对更少的音频信号执行高负荷声音质量增强处理,并且更有效地执行声音质量增强。
[0065]
例如,假定由目标ob1到目标ob7的元数据表示的类型和优先级分别是(嗓音,1)、(鼓,2)、(吉他,2)、(贝司,3)、(混响,9)、(观众,10)和(环境声音,10)。
[0066]
此时,仅对具有最高优先级“1”的目标ob1的音频信号执行高负荷声音质量增强处理,并且对具有优先级“2”的目标ob2和目标ob3的音频信号执行中负荷声音质量增强处理。然后,对具有等于或大于“3”的优先级的目标ob4至目标ob7的音频信号执行低负荷声音质量增强处理。
[0067]
如上所述,在本技术中,基于元数据中包括的至少优先级信息或类型信息,选择对每个音频信号执行的声音质量增强处理。通过这样做,例如,根据再现装置(平台)的处理能力,可以在执行声音质量增强时设置整体处理负荷,并且在任何类型的再现装置中执行声音质量增强,即,声音质量提高。
[0068]
《信号处理装置的配置实例》
[0069]
接下来,说明上述本技术的更具体的实施方式。
[0070]
图1是描述应用本技术的信号处理装置的一个实施方式的配置实例的示图。
[0071]
例如,在图1中描述的信号处理装置11包括智能电话、便携式播放器、声音放大器、个人计算机、平板电脑等。
[0072]
信号处理装置11具有解码部21、音频选择部22、声音质量增强处理部23、渲染器24以及再现信号生成部25。
[0073]
例如,向解码部21提供多个音频信号,以及解码部21通过编码音频信号的元数据
而获得的编码数据。例如,编码数据是预定编码格式,诸如mpeg-h的比特流等。
[0074]
解码部21对所提供的编码数据执行解码处理,并且将由此获得的音频信号和音频信号的元数据提供给音频选择部22。
[0075]
对于从解码部21提供的多个音频信号中的每个音频信号,并且基于从解码部21提供的元数据,音频选择部22选择要对音频信号执行的声音质量增强处理,并且根据选择的结果将音频信号提供至声音质量增强处理部23。
[0076]
换言之,音频选择部22被提供有来自解码部21的多个音频信号,并且还基于元数据,选择要经过诸如高负荷声音质量增强处理的声音质量增强处理的音频信号。
[0077]
音频选择部22具有选择部31-1~31-m,并且向选择部31-1~31-m中的每一个提供一个音频信号和该音频信号的元数据。
[0078]
具体地,在该实例中,编码数据包括n个目标的音频信号以及(m-n)个声道的音频信号作为要成为声音质量增强的对象的音频信号。然后,向选择部31-1~31-n提供目标的音频信号及其元数据,并且向选择部31-(n+1)至选择部31-m提供声道的音频信号及其元数据。
[0079]
基于从解码部21提供的元数据,选择部31-1~31-m选择将对从解码部21(即,音频信号输出至其的块)提供的音频信号执行的声音质量增强处理,并且根据选择的结果将音频信号提供至声音质量增强处理部23中的块。
[0080]
此外,选择部31-1~31-n经由声音质量增强处理部23将从解码部21提供的目标的音频信号的元数据提供至渲染器24。
[0081]
注意,在以下不需要特别区分选择部31-1~31-m的情况下,它们也简称为选择部31。
[0082]
声音质量增强处理部23对从音频选择部22提供的各音频信号进行三种预定的声音质量增强处理中的任意处理,将由此获得的音频信号作为高声音质量信号输出。这里提到的三种声音质量增强处理是上述的高负荷声音质量增强处理、中负荷声音质量增强处理和低负荷声音质量增强处理。
[0083]
声音质量增强处理部23具有高负荷声音质量增强处理部32-1至高负荷声音质量增强处理部32-m、中负荷声音质量增强处理部33-1至中负荷声音质量增强处理部33-m、以及低负荷声音质量增强处理部34-1至低负荷声音质量增强处理部34-m。
[0084]
在从选择部31-1~31-m提供音频信号的情况下,高负荷声音质量增强处理部32-1至高负荷声音质量增强处理部32-m对所提供的音频信号执行高负荷声音质量增强处理,并且生成高声音质量信号。
[0085]
高负荷声音质量增强处理部32-1至高负荷声音质量增强处理部32-n将通过高负荷声音质量增强处理获得的目标的高声音质量信号提供至渲染器24。
[0086]
此外,高负荷声音质量增强处理部32-(n+1)至高负荷声音质量增强处理部32-m将通过高负荷声音质量增强处理获得的声道的高声音质量信号提供给再现信号生成部25。
[0087]
注意,在以下不需要特别区分高负荷声音质量增强处理部32-1至高负荷声音质量增强处理部32-m的情况下,它们也简称为高负荷声音质量增强处理部32。
[0088]
在从选择部31-1~31-m提供音频信号的情况下,中负荷声音质量增强处理部33-1至中负荷声音质量增强处理部33-m对所提供的音频信号执行中负荷声音质量增强处理,并
且生成高声音质量信号。
[0089]
中负荷声音质量增强处理部33-1至中负荷声音质量增强处理部33-n将通过中负荷声音质量增强处理获得的目标的高声音质量信号提供至渲染器24。
[0090]
此外,中负荷声音质量增强处理部33-(n+1)至中负荷声音质量增强处理部33-m将通过中负荷声音质量增强处理获得的声道的高声音质量信号提供至再现信号生成部25。
[0091]
另外,在以下不需要特别区分中负荷声音质量增强处理部33-1至中负荷声音质量增强处理部33-m的情况下,它们也简称为中负荷声音质量增强处理部33。
[0092]
在从选择部31-1~31-m提供音频信号的情况下,低负荷声音质量增强处理部34-1至低负荷声音质量增强处理部34-m对所提供的音频信号执行低负荷声音质量增强处理,并且生成高声音质量信号。
[0093]
低负荷声音质量增强处理部34-1至低负荷声音质量增强处理部34-n将通过低负荷声音质量增强处理获得的目标的高声音质量信号提供至渲染器24。
[0094]
此外,低负荷声音质量增强处理部34-(n+1)至低负荷声音质量增强处理部34-m将通过低负荷声音质量增强处理获得的声道的高声音质量信号提供至再现信号生成部25。
[0095]
另外,在以下不需要特别区分低负荷声音质量增强处理部34-1至低负荷声音质量增强处理部34-m的情况下,它们也简称为低负荷声音质量增强处理部34。
[0096]
基于从声音质量增强处理部23提供的元数据,渲染器24根据诸如下游侧的扬声器的再现设备,对从高负荷声音质量增强处理部32、中负荷声音质量增强处理部33、以及低负荷声音质量增强处理部34提供的目标的高声音质量信号执行渲染处理。
[0097]
例如,在渲染器24处,执行作为渲染处理的vbap(矢量基幅偏移,vector based amplitude panning),并且获得目标再现信号,该目标再现信号将每个目标的声音定位在由包含在目标的元数据中的位置信息表示的位置处。目标再现信号是包括(m-n)个声道的音频信号的多声道音频信号。
[0098]
渲染器24将通过渲染处理获得的目标再现信号提供给再现信号生成部25。
[0099]
再现信号生成部25执行合成从渲染器24提供的目标再现信号和从高负荷声音质量增强处理部32、中负荷声音质量增强处理部33、以及低负荷声音质量增强处理部34提供的声道的高声音质量信号的合成处理。
[0100]
例如,在合成处理中,将同一声道的目标再现信号和高声音质量信号相加(合成),并且生成(m-n)个声道的再现信号。如果在(m-n)个扬声器处再现这些再现信号,则再现每个声道的声音或每个目标的声音,即,内容的声音。
[0101]
再生信号生成部25将通过合成处理获得的再生信号输出至下游侧。
[0102]
《声音质量增强处理部的配置实例》
[0103]
接着,说明高负荷声音质量增强处理部32、中负荷声音质量增强处理部33、低负荷声音质量增强处理部34的配置实例。
[0104]
例如,如图2所示配置高负荷声音质量增强处理部32、中负荷声音质量增强处理部33、低负荷声音质量增强处理部34。应注意,图2描述了渲染器24设置在高负荷声音质量增强处理部32至低负荷声音质量增强处理部34的下游侧的实例。
[0105]
在图2所示的实例中,高负荷声音质量增强处理部32具有动态范围扩展部61和带宽扩展部62。
[0106]
动态范围扩展部61基于预先通过机器学习生成的dnn来对从选择部31提供的音频信号执行动态范围扩展处理,并且将由此获得的音频信号提供给带宽扩展部62。
[0107]
带宽扩展部62基于通过机器学习预先生成的dnn对从动态范围扩展部61提供的音频信号执行带宽扩展处理,并且将由此获得的高声音质量信号提供给渲染器24。
[0108]
中负荷声音质量增强处理部33具有动态范围扩展部71和带宽扩展部72。
[0109]
动态范围扩展部71通过多级的全通滤波器对从选择部31提供的音频信号执行动态范围扩展处理,并且将由此获得的音频信号提供至带宽扩展部72。
[0110]
带宽扩展部72使用线性预测对从动态范围扩展部71提供的音频信号执行带宽扩展处理,并且将由此获得的高声音质量信号提供给渲染器24。
[0111]
另外,低负荷声音质量增强处理部34具有动态范围扩展部81和带宽扩展部82。
[0112]
动态范围扩展部81对从选择部31提供的音频信号执行与在动态范围扩展部71的情况下执行的动态范围扩展处理类似的动态范围扩展处理,并且将由此获得的音频信号提供给带宽扩展部82。
[0113]
在从动态范围扩展部81提供的音频信号上,带宽扩展部82使用在编码侧上指定的系数执行带宽扩展处理,并且将由此获得的高声音质量信号提供给渲染器24。
[0114]
《动态范围扩展部的配置实例》
[0115]
而且,下面解释在图2中描述的动态范围扩展部61、带宽扩展部62等的配置实例。
[0116]
图3是描绘动态范围扩展部61的更详细的配置实例的示图。
[0117]
图3所示的动态范围扩展部61具有fft(快速傅里叶变换)处理部111、增益计算部112、差分信号生成部113、ifft(快速傅里叶逆变换)处理部114和合成部115。
[0118]
在动态范围扩展部61处,通过使用dnn的预测计算来预测差分信号,并且合成差分信号和音频信号,差分信号为在解码部21处解码获得的音频信号和编码该音频信号之前的原始声音信号之间的差。通过这样做,可获得更接近原始声音信号的高声音质量音频信号。
[0119]
fft处理部111对从选择部31提供的音频信号执行fft,并且将由此获得的信号提供至增益计算部112和差分信号生成部113。
[0120]
增益计算部112包括通过机器学习预先获得的dnn。即,增益计算部112保持通过机器学习预先获得的并且用于dnn中的计算的预测系数,并且用作预测差分信号的频率特性的包络的预测器。
[0121]
基于保持的预测系数和从fft处理部111提供的信号,增益计算部112计算增益值作为用于生成与音频信号对应的差分信号的参数,并且将增益值提供给差分信号生成部113。即,作为用于生成差分信号的参数,计算差分信号的频率包络的增益。
[0122]
基于从fft处理部111提供的信号和从增益计算部112提供的增益值,差分信号生成部113生成差分信号并且将差分信号提供至ifft处理部114。ifft处理部114对从差分信号生成部113提供的差分信号执行ifft,并且将由此获得的时域中的差分信号提供至合成部115。
[0123]
合成部115合成从选择部31提供的音频信号和从ifft处理部114提供的差分信号,并且将由此获得的音频信号提供至带宽扩展部62。
[0124]
《带宽扩展部的配置实例》
[0125]
此外,例如,图2中所示的带宽扩展部62被配置为如图4中所示。
[0126]
图4所示的带宽扩展部62具有多相配置低通滤波器141、延迟电路142、低频提取带通滤波器143、特征计算电路144、高频子带功率估计电路145、带通滤波器计算电路146、加法部147、高通滤波器148、平坦化电路149、下采样部150、多相配置电平调整滤波器151和加法部152。
[0127]
多相配置低通滤波器141利用具有多相配置的低通滤波器对从动态范围扩展部61的合成部115提供的音频信号执行滤波,并且将由此获得的低频信号提供给延迟电路142。
[0128]
在多相配置低通滤波器141,通过用具有多相配置的低通滤波器进行滤波,执行信号的低频分量的上采样和提取,并获得低频信号。
[0129]
延迟电路142将从多相配置低通滤波器141提供的低频信号延迟一定延迟时间长度,并将该低频信号提供给加法部152。
[0130]
低频提取带通滤波器143包括具有彼此不同的通带的带通滤波器161-1至带通滤波器161-k。
[0131]
带通滤波器161-k(n.b.1≤k≤k)允许从合成部115提供的音频信号中的作为低频侧的预定通带的子带中的信号通过,并且将由此获得的预定频带中的信号作为低频子带信号提供给特征计算电路144和平坦化电路149。因而,在低频提取带通滤波器143中,获得低频所包含的k个子带中的低频子带信号。
[0132]
注意,在以下不必特别区分带通滤波器161-1至带通滤波器161-k的情况下,它们也简称为带通滤波器161。
[0133]
特征计算电路144基于从带通滤波器161提供的多个低频子带信号或者从合成部115提供的音频信号,计算特征并且将这些特征提供给高频子带功率估计电路145。
[0134]
高频子带功率估计电路145包括通过机器学习预先获得的dnn。也就是说,高频子带功率估计电路145保持通过机器学习预先获得的并用于dnn中的计算的预测系数。
[0135]
高频子带功率估计电路145基于所保持的预测系数和从特征计算电路144提供的特征,针对每个高频子带计算高频子带功率的估计值,并将该估计值提供给带通滤波器计算电路146,该高频子带功率是高频子带信号的功率。以下,将高频子带功率的估计值也称为伪高频子带功率。
[0136]
带通滤波器计算电路146基于从高频子带功率估计电路145提供的多个高频子带中的伪高频子带功率,计算通带是高频子带的带通滤波器的带通滤波系数并且将带通滤波系数提供至加法部147。
[0137]
加法部147将从带通滤波器计算电路146提供的带通滤波系数相加成一个滤波系数,并将该滤波系数提供给高通滤波器148。
[0138]
通过使用高通滤波器对从加法部147提供的滤波系数执行滤波,高通滤波器148从滤波系数中去除低频分量并且将由此获得的滤波系数提供给多相配置电平调整滤波器151。即,高通滤波器148仅允许滤波系数的高频分量通过。
[0139]
通过将从带通滤波器161提供的多个低频子带中的低频子带信号平坦化和相加在一起,平坦化电路149生成平坦化的信号并将该平坦化的信号提供给下采样部150。
[0140]
下采样部150对从平坦化电路149提供的平坦化信号执行下采样,并且将下采样的平坦化信号提供给多相配置电平调整滤波器151。
[0141]
通过使用从高通滤波器148提供的滤波系数对从下采样部150提供的平坦化信号
执行滤波,多相配置电平调整滤波器151生成高频信号并且将高频信号提供给加法部152。
[0142]
加法部152将从延迟电路142提供的低频信号和从多相配置电平调整滤波器151提供的高频信号相加为高声音质量信号并且将高声音质量信号提供给渲染器24或再现信号生成部25。
[0143]
在多相配置电平调整滤波器151中获得的高频信号是不包括在原始音频信号中的高频分量信号,即,例如,在编码音频信号时已经不期望地丢失的高频分量信号。因而,通过将这样的高频信号与作为原始音频信号的低频分量的低频信号合成,可以获得包括更宽频带中的分量的信号,即,具有更高声音质量的高声音质量信号。
[0144]
《动态范围扩展部的配置实例》
[0145]
另外,图2所示的中负荷声音质量增强处理部33的动态范围扩展部71例如如图5所示那样构成。
[0146]
图5所示的动态范围扩展部71具有全通滤波器191-1至全通滤波器191-3、增益调整部192和加法部193。在该实例中,三个全通滤波器191-1至全通滤波器191-3以级联方式连接。
[0147]
全通滤波器191-1对从选择部31提供的音频信号进行滤波,并将由此获得的音频信号提供给下游侧的全通滤波器191-2。
[0148]
全通滤波器191-2对从全通滤波器191-1提供的音频信号执行滤波,并将由此获得的音频信号提供给下游侧的全通滤波器191-3。
[0149]
全通滤波器191-3对从全通滤波器191-2提供的音频信号执行滤波,并将由此获得的音频信号提供至增益调整部192。
[0150]
注意,在以下不必特别区分全通滤波器191-1至全通滤波器191-3的情况下,它们还简称为全通滤波器191。
[0151]
增益调整部192对从全通滤波器191-3提供的音频信号进行增益调整,将增益调整后的音频信号提供给加法部193。
[0152]
加法部193通过将从增益调整部192提供的音频信号和从选择部31提供的音频信号相加,生成声音质量提高(即动态范围扩大)的音频信号,并将该音频信号提供给带宽扩展部72。
[0153]
因为在动态范围扩展部71处执行的处理是滤波和增益调整,所以这些处理可用小于(低于)dnn中的计算处理(如在图3中所描绘的动态范围扩展部61处执行的那些)的处理负荷来实现。
[0154]
《带宽扩展部的配置实例》
[0155]
此外,例如,图2中所示的带宽扩展部72被配置为如图6中所示。
[0156]
图6所示的带宽扩展部72具有多相配置低通滤波器221、延迟电路222、低频提取带通滤波器223、特征计算电路224、高频子带功率估计电路225、带通滤波器计算电路226、加法部227、高通滤波器228、平坦化电路229、下采样部230、多相配置电平调整滤波器231和加法部232。
[0157]
此外,低频提取带通滤波器223具有带通滤波器241-1至带通滤波器241-k。
[0158]
注意,因为多相配置低通滤波器221至特征计算电路224和带通滤波器计算电路226至加法部232具有相同的配置,并且执行与图4所示的带宽扩展部62的多相配置低通滤
波器141至特征计算电路144和带通滤波器计算电路146至加法部152相同的操作,所以省略其说明。
[0159]
此外,因为带通滤波器241-1至带通滤波器241-k也具有与图4所示的带宽扩展部62的带通滤波器161-1至带通滤波器161-k相同的配置并执行相同的操作,所以省略其说明。
[0160]
注意,在以下不必特别区分带通滤波器241-1至带通滤波器241-k的情况下,它们也简称为带通滤波器241。
[0161]
在图6中描述的带宽扩展部72与在图4中描述的带宽扩展部62的不同之处仅在高频子带功率估计电路225中的操作方面不同,并且在其他方面中在配置和操作方面与带宽扩展部62相同。
[0162]
高频子带功率估计电路225保持通过统计学习预先获得的系数,并且基于保持的系数和从特征计算电路224提供的特征,计算伪高频子带功率,并且将伪高频子带功率提供给带通滤波器计算电路226。例如,在高频子带功率估计电路225处,通过使用保持的系数的线性预测,计算高频分量,更具体地,伪高频子带功率。
[0163]
与通过在高频子带功率估计电路145处的dnn中的计算进行的预测相比,高频子带功率估计电路225处的线性预测可以用更小的处理负荷来实现。
[0164]
《带宽扩展部的配置实例》
[0165]
另外,图2所示的低负荷声音质量增强处理部34的动态范围扩展部81例如具有与图5所示的动态范围扩展部71相同的配置。另外,在低负荷声音质量增强处理部34中,也可以不特别设置动态范围扩展部81。
[0166]
另外,图2所示的低负荷声音质量增强处理部34的带宽扩展部82例如如图7所示那样构成。
[0167]
图7所示的带宽扩展部82具有子带分割电路271、特征计算电路272、高频解码电路273、解码高频子带功率计算电路274、解码高频信号生成电路275和合成电路276。
[0168]
要注意的是,在带宽扩展部82具有在图7中描述的配置的情况下,提供给解码部21的编码数据包括高频编码数据,并且高频编码数据被提供给高频解码电路273。高频编码数据是对用于获得后述的高频子带功率估计系数的指标(indices)进行编码而获得的数据。
[0169]
子带分割电路271将从动态范围扩展部81提供的音频信号均匀分割成具有预定带宽的多个低频子带信号,并且将多个低频子带信号提供至特征计算电路272和解码高频信号生成电路275。
[0170]
基于从子带分割电路271提供的低频子带信号,特征计算电路272计算特征,并且将特征提供至解码高频子带功率计算电路274。
[0171]
高频解码电路273对所提供的高频编码数据进行解码,将与由此得到的指标对应的高频子带功率估计系数提供给解码高频子带功率计算电路274。
[0172]
对于多个指标中的每个,在高频解码电路273处,将高频子带功率估计系数与该指标相关联地记录。
[0173]
在这种情况下,在音频信号的编码侧,选择表示最适合于带宽扩展部82处的带宽扩展处理的高频子带功率估计系数的指标,并且对所选择的指标进行编码。然后,通过编码获得的高频编码数据被存储在比特流中并被提供给信号处理装置11。
[0174]
因而,高频解码电路273从预先记录的多个高频子带功率估计系数中选择由通过解码高频编码数据所获得的指标表示的一个高频子带功率估计系数,并将该系数提供给解码高频子带功率计算电路274。
[0175]
解码高频子带功率计算电路274根据从特征计算电路272提供的特征、以及从高频解码电路273提供的高频子带功率估计系数,计算高频子带功率,并且将高频子带功率提供至解码高频信号生成电路275。
[0176]
解码高频信号生成电路275基于从子带分割电路271提供的低频子带信号、以及从解码高频子带功率计算电路274提供的高频子带功率,生成高频信号,并且将高频信号提供至合成电路276。
[0177]
合成电路276合成从动态范围扩展部81提供的音频信号和从解码高频信号生成电路275提供的高频信号,并且将由此获得的高声音质量信号提供给渲染器24或再现信号生成部25。
[0178]
在解码高频信号生成电路275中获得的高频信号是不包括在原始音频信号中的高频分量信号。因而,通过将这样的高频信号与原始音频信号合成,可以获得包括更宽频带中的分量的具有更高声音质量的高声音质量信号。
[0179]
与上述一样,因为在带宽扩展部82通过在带宽扩展处理中使用由提供的指标表示的高频子带功率估计系数预测高频信号,所以与在图6中描述的带宽扩展部72的情况相比,可以以更小的处理负荷实现预测。
[0180]
《再现信号生成处理的说明》
[0181]
接下来,说明信号处理装置11的操作。
[0182]
即,下面参照图8中的流程图说明由信号处理装置11进行的再现信号生成处理。当解码部21解码所提供的编码数据时,开始该再现信号生成处理,并且将通过解码获得的音频信号和元数据提供给选择部31。
[0183]
在步骤s11中,基于从解码部21提供的元数据,选择部31选择要对从解码部21提供的音频信号执行的声音质量增强处理。
[0184]
即,例如,选择部31基于所提供的元数据中包括的优先级信息和类型信息,选择作为高负荷声音质量增强处理、中负荷声音质量增强处理和低负荷声音质量增强处理中的任一个的处理作为声音质量增强处理。
[0185]
具体地,例如,在步骤s11中,在由优先级信息表示的优先级等于或低于预定值的情况下,或者在由类型信息表示的类型是诸如中心声道或嗓音的特定类型的情况下,选择高负荷声音质量增强处理。
[0186]
注意,虽然优先级信息或类型信息中的至少一个被用于声音质量增强处理的选择,但是除了它们,声音质量增强处理可以通过使用表示信号处理装置11等的处理能力的信息来选择。
[0187]
具体地,例如,在由表示处理能力的信息表示的处理能力等于或高于预定值的情况下,改变高负荷声音质量增强处理等的选择优先级的值,使得选择高负荷声音质量增强处理的音频信号的数量增加。
[0188]
在步骤s12中,选择部31确定是否执行高负荷声音质量增强处理。
[0189]
例如,在步骤s11中选择高负荷声音质量增强处理作为选择结果的情况下,在步骤
s12中确定执行高负荷声音质量增强处理。
[0190]
在步骤s12中确定执行高负荷声音质量增强处理的情况下,选择部31将从解码部21提供的音频信号提供至高负荷声音质量增强处理部32,并且此后,处理进行至步骤s13。
[0191]
在步骤s13中,高负荷声音质量增强处理部32对从选择部31提供的音频信号执行高负荷声音质量增强处理,并且输出由此获得的高声音质量信号。注意,稍后提及高负荷声音质量增强处理的细节。
[0192]
例如,在具有增强的声音质量的音频信号是目标的信号的情况下,高负荷声音质量增强处理部32将获得的高声音质量信号提供给渲染器24。在这种情况下,选择部31经由声音质量增强处理部23将包括在从解码部21提供的元数据中的位置信息提供给渲染器24。
[0193]
与此相反,在具有增强的音质的音频信号是声道的信号的情况下,高负荷声音质量增强处理部32将获得的高声音质量信号提供至再现信号生成部25。
[0194]
在执行高负荷声音质量增强处理并且生成高声音质量信号之后,处理进行至步骤s17。
[0195]
另外,在步骤s12中确定为不进行高负荷声音质量增强处理的情况下,在步骤s14中,选择部31确定是否进行中负荷声音质量增强处理。
[0196]
例如,在步骤s11中选择中负荷声音质量增强处理作为选择结果的情况下,在步骤s14中确定执行中负荷声音质量增强处理。
[0197]
在步骤s14中确定执行中负荷声音质量增强处理的情况下,选择部31将从解码部21提供的音频信号提供至中负荷声音质量增强处理部33,并且此后,处理进行至步骤s15。
[0198]
在步骤s15中,中负荷声音质量增强处理部33对从选择部31提供的音频信号执行中负荷声音质量增强处理,并且输出由此获得的高声音质量信号。应注意,稍后提及中负荷声音质量增强处理的细节。
[0199]
例如,在具有增强的声音质量的音频信号是目标的信号的情况下,中负荷声音质量增强处理部33将获得的高声音质量信号提供给渲染器24。在这种情况下,选择部31经由声音质量增强处理部23将包括在从解码部21提供的元数据中的位置信息提供给渲染器24。
[0200]
与此相反,在具有增强的声音质量的音频信号是声道的信号的情况下,中负荷声音质量增强处理部33将获得的高声音质量信号提供给再现信号生成部25。
[0201]
在执行中负荷声音质量增强处理并且生成高声音质量信号之后,处理进行至步骤s17。
[0202]
此外,在步骤s14中确定不执行中负荷声音质量增强处理,即,将执行低负荷声音质量增强处理的情况下,处理进行至步骤s16。在这种情况下,选择部31将从解码部21提供的音频信号提供至低负荷声音质量增强处理部34。
[0203]
在步骤s16中,低负荷声音质量增强处理部34对从选择部31提供的音频信号进行低负荷声音质量增强处理并输出由此获得的高声音质量信号。应注意,稍后提及低负荷声音质量增强处理的细节。
[0204]
例如,在具有增强的声音质量的音频信号是目标的信号的情况下,低负荷声音质量增强处理部34将获得的高声音质量信号提供给渲染器24。在这种情况下,选择部31经由声音质量增强处理部23将包括在从解码部21提供的元数据中的位置信息提供给渲染器24。
[0205]
与此相反,在具有增强的声音质量的音频信号是声道的信号的情况下,低负荷声
音质量增强处理部34将获得的高声音质量信号提供给再现信号生成部25。
[0206]
在执行低负荷声音质量增强处理并且生成高声音质量信号之后,处理进行至步骤s17。
[0207]
在执行步骤s13、步骤s15或步骤s16的处理之后,执行步骤s17的处理。
[0208]
在步骤s17中,音频选择部22确定是否已经处理从解码部21提供的所有音频信号。
[0209]
例如,在步骤s17中,在选择部31-1~31-m中进行了所提供的音频信号的声音质量增强处理的选择,并且根据选择的结果在声音质量增强处理部23中进行了声音质量增强处理的情况下,确定已经处理了所有音频信号。在这种情况下,已经生成对应于所有音频信号的高声音质量信号。
[0210]
在步骤s17中确定尚未处理所有音频信号的情况下,处理返回至步骤s11,并且重复执行上述处理。
[0211]
例如,在选择部31-n尚未执行步骤s11的处理的情况下,对提供给选择部31-n的音频信号执行上述步骤s11至步骤s16的处理。另外,具体地说,在声音选择部22中,选择部31并行地进行步骤s11至步骤s16的处理。
[0212]
与此相反,在步骤s17中确定所有音频信号已经处理的情况下,此后,处理进行至步骤s18。
[0213]
在步骤s18中,渲染器24对从声音质量增强处理部23中的高负荷声音质量增强处理部32、中负荷声音质量增强处理部33以及低负荷声音质量增强处理部34提供的总共n个高声音质量信号执行渲染处理。
[0214]
例如,通过基于从声音质量增强处理部23提供的目标的位置信息和高声音质量信号执行vbap,渲染器24生成目标再现信号,并且将目标再现信号提供给再现信号生成部25。
[0215]
在步骤s19中,再现信号生成部25合成从渲染器24提供的目标再现信号和从高负荷声音质量增强处理部32、中负荷声音质量增强处理部33、以及低负荷声音质量增强处理部34提供的声道的高声音质量信号,并且生成再现信号。
[0216]
再现信号生成部25将获得的再现信号输出到下游侧,并且此后再现信号生成处理结束。
[0217]
以上述方式,基于包括在元数据中的优先级信息和类型信息,信号处理装置11从要求彼此不同的处理负荷的多个声音质量增强处理中选择将对每个音频信号执行的声音质量增强处理,并且根据选择的结果执行声音质量增强处理。通过这样做,可以减少整体的处理负荷,并且甚至利用小的处理负荷,即,小的处理量,可以获得具有足够高的音质的再现信号。
[0218]
《高负荷声音质量增强处理的说明》
[0219]
这里,更详细地解释参考图8说明的在步骤s13中的高负荷声音质量增强处理、在步骤s15中的中负荷声音质量增强处理以及在步骤s16中的低负荷声音质量增强处理。
[0220]
首先,参照图9的流程图,说明由高负荷声音质量增强处理部32进行的与图8的步骤s13的处理对应的高负荷声音质量增强处理。
[0221]
在步骤s41中,fft处理部111对从选择部31提供的音频信号执行fft,并且将由此获得的信号提供至增益计算部112和差分信号生成部113。
[0222]
在步骤s42中,基于保持的预测系数和从fft处理部111提供的信号,增益计算部
112计算用于生成差分信号的增益值,并且将增益值提供给差分信号生成部113。在步骤s42中,基于预测系数和从fft处理部111提供的信号,执行dnn中的计算,并且计算差分信号的频率包络的增益值。
[0223]
在步骤s43中,基于从fft处理部111提供的信号和从增益计算部112提供的增益值,差分信号生成部113生成差分信号并且将该差分信号提供至ifft处理部114。例如,在步骤s43中,通过基于增益值对从fft处理部111提供的信号进行增益调整,生成差分信号。
[0224]
在步骤s44中,ifft处理部114对从差分信号生成部113提供的差分信号执行ifft,并且将由此获得的差分信号提供至合成部115。
[0225]
在步骤s45,合成部115合成从选择部31提供的音频信号和从ifft处理部114提供的差分信号,并将由此获得的音频信号提供给带宽扩展部62的多相配置低通滤波器141、特征计算电路144和带通滤波器161。
[0226]
在步骤s46中,多相配置低通滤波器141利用具有多相配置的低通滤波器对从合成部115提供的音频信号执行滤波,并将由此获得的低频信号提供给延迟电路142。
[0227]
此外,延迟电路142将从多相配置低通滤波器141提供的低频信号延迟一定长度的延迟时间,然后将低频信号提供给加法部152。
[0228]
在步骤s47中,通过允许从合成部115提供的音频信号中的低频侧的子带中的信号通过,带通滤波器161将音频信号分割成多个低频子带信号,并且将多个低频子带信号提供至特征计算电路144和平坦化电路149。
[0229]
在步骤s48中,特征计算电路144基于从带通滤波器161提供的多个低频子带信号或者从合成部115提供的音频信号中的至少任一个来计算特征,并且将该特征提供给高频子带功率估计电路145。
[0230]
在步骤s49中,高频子带功率估计电路145根据预先保持的预测系数和从特征计算电路144提供的特征,针对每个高频子带计算伪高频子带功率,并将该伪高频子带功率提供给带通滤波器计算电路146。
[0231]
在步骤s50中,带通滤波器计算电路146基于从高频子带功率估计电路145提供的多个高频子带中的伪高频子带功率,计算带通滤波系数并且将该带通滤波系数提供给加法部147。
[0232]
另外,加法部147将从带通滤波器计算电路146供给的带通滤波系数相加成一个滤波系数,并将该滤波系数提供给高通滤波器148。
[0233]
在步骤s51中,高通滤波器148使用高通滤波器对从加法部147提供的滤波系数执行滤波,并将由此获得的滤波系数提供给多相配置电平调整滤波器151。
[0234]
在步骤s52中,通过将从带通滤波器161提供的多个低频子带中的低频子带信号平坦化和相加在一起,平坦化电路149生成平坦化信号,并且将平坦化信号提供给下采样部150。
[0235]
在步骤s53,下采样部150对从平坦化电路149提供的平坦化信号执行下采样,并且将下采样的平坦化信号提供给多相配置电平调整滤波器151。
[0236]
在步骤s54中,通过使用从高通滤波器148提供的滤波系数对从下采样部150提供的平坦化信号执行滤波,多相配置电平调整滤波器151生成高频信号并且将高频信号提供给加法部152。
[0237]
在步骤s55,通过将从延迟电路142提供的低频信号和从多相配置电平调整滤波器151提供的高频信号加在一起,加法部152生成高声音质量信号并输出高声音质量信号。在以这种方式生成高声音质量信号之后,高负荷声音质量增强处理结束,并且此后,处理进行到图8中的步骤s17。
[0238]
如上所述,高负荷声音质量增强处理部32组合要求高负荷的动态范围扩展处理和带宽扩展处理,但是可以获得高声音质量信号,并且生成具有较高声音质量的高声音质量信号。通过这样做,对于重要的音频信号,诸如,具有高优先级的音频信号,可获得高声音质量信号。
[0239]
《中负荷声音质量增强处理的说明》
[0240]
接下来,参照图10中的流程图,说明由中负荷声音质量增强处理部33执行的对应于图8中的步骤s15的中负荷声音质量增强处理。
[0241]
在步骤s81中,全通滤波器191对从选择部31提供的音频信号进行多级全通滤波器的滤波,并将由此获得的音频信号提供至增益调整部192。
[0242]
即,在步骤s81,在全通滤波器191-1至全通滤波器191-3处执行滤波。
[0243]
在步骤s82中,增益调整部192对从全通滤波器191-3提供的音频信号执行增益调整,并将增益调整之后的音频信号提供给加法部193。
[0244]
在步骤s83中,加法部193将从增益调整部192提供的音频信号和从选择部31提供的音频信号相加在一起,并且将由此获得的音频信号提供给带宽扩展部72的多相配置低通滤波器221、特征计算电路224和带通滤波器241。
[0245]
在执行步骤s83中的处理之后,通过多相配置低通滤波器221、带通滤波器241以及特征计算电路224执行步骤s84至步骤s86中的处理。应注意,因为这些处理与图9中的步骤s46至步骤s48的处理相似,所以省略其说明。
[0246]
在步骤s87中,基于保持的系数和从特征计算电路224提供的特征,高频子带功率估计电路225通过线性预测计算伪高频子带功率,并且将伪高频子带功率提供给带通滤波器计算电路226。
[0247]
在执行步骤s87的处理之后,带通滤波器计算电路226至加法部232执行步骤s88到步骤s93的处理,并且中负荷声音质量增强处理结束。应注意,因为这些处理与图9中的步骤s50至步骤s55中的处理相似,所以省略其说明。在中负荷声音质量增强处理结束之后,处理进行到图8中的步骤s17。
[0248]
在如上所述的方式中,中负荷声音质量增强处理部33组合动态范围扩展处理和带宽扩展处理,并且增强目标和声道的音频信号的声音质量,该动态范围扩展处理和带宽扩展处理使得可以利用中负荷获得具有一定高程度的声音质量的信号。通过这样做,对于具有某种程度上高的优先级的音频信号,可以以中负荷获得具有一定高程度的声音质量的信号,等等。
[0249]
《低负荷声音质量增强处理的说明》
[0250]
此外,参照图11的流程图,说明由低负荷声音质量增强处理部34执行的对应于图8中的步骤s16的低负荷声音质量增强处理。
[0251]
应注意,因为步骤s121至步骤s123中的处理与图10中的步骤s81至步骤s83中的处理相似,所以省略其说明。
[0252]
在执行步骤s123中的处理之后,将通过步骤s123中的处理所获得的音频信号从动态范围扩展部81提供到带宽扩展部82的子带分割电路271和合成电路276,并且执行步骤s124中的处理。
[0253]
在步骤s124中,子带分割电路271将从动态范围扩展部81提供的音频信号分割成多个低频子带信号,并且将多个低频子带信号提供至特征计算电路272和解码高频信号生成电路275。
[0254]
在步骤s125中,基于从子带分割电路271提供的低频子带信号,特征计算电路272计算特征,并且将特征提供至解码高频子带功率计算电路274。
[0255]
在步骤s126中,高频解码电路273对所提供的高频编码数据进行解码,将与由此得到的指标对应的高频子带功率估计系数输出(提供)到解码高频子带功率计算电路274。
[0256]
在步骤s127中,解码高频子带功率计算电路274基于从特征计算电路272提供的特征以及从高频解码电路273提供的高频子带功率估计系数,计算高频子带功率,并且将高频子带功率提供给解码高频信号生成电路275。例如,在步骤s127中,通过确定与高频子带功率估计系数相乘后的特征的和,计算高频子带功率。
[0257]
在步骤s128中,解码高频信号生成电路275基于从子带分割电路271提供的低频子带信号以及从解码高频子带功率计算电路274提供的高频子带功率,生成高频信号,并且将高频信号提供至合成电路276。例如,在步骤s128中,基于低频子带信号和高频子带功率,对低频子带信号进行频率调制和增益调整,并且生成高频信号。
[0258]
在步骤s129中,合成电路276合成从动态范围扩展部81提供的音频信号和从解码高频信号生成电路275提供的高频信号,并且输出由此获得的高声音质量信号。在以这种方式生成高声音质量信号之后,低负荷声音质量增强处理结束,并且此后,处理进行到图8中的步骤s17。
[0259]
如上所述,低负荷声音质量增强处理部34组合能够以低负荷实现声音质量增强的动态范围扩展处理和带宽扩展处理,并且增强目标和声道的音频信号的声音质量。通过这样做,以低负荷对不是那么重要的音频信号(诸如,具有低优先级的音频信号)执行声音质量增强,整体处理负荷可减小。
[0260]
《第二实施方式》
[0261]
《信号处理装置的配置实例》
[0262]
如上所述,在高负荷声音质量增强处理部32,通过机器学习预先获得的dnn中的计算所使用的预测系数用于估计(预测)频率包络的增益和伪高频子带功率。
[0263]
此时,如果可以识别音频信号的类型,则还可以学习每种类型的预测系数。通过这样做,通过使用根据音频信号的类型的预测系数,能够更精确地并且附加地以更小的处理负荷预测频率包络的增益和伪高频子带功率。
[0264]
具体而言,如果每种类型的音频信号预测系数(即dnn)是机器学习的,则可以用较小规模的dnn更精确地预测增益值和伪高频子带功率,并减少处理负荷。
[0265]
另一方面,如果在处理负荷方面没有问题,则可以独立于音频信号的类型来使用相同的dnn,即,相同的预测系数。在这种情况下,例如,如果各种声源的典型立体声音频内容,其也被称为完整的包等被用于预测系数的机器学习,则是足够的。
[0266]
通过使用包括各种声源的声音的音频内容(例如,完整的包)的机器学习生成并且
共同用于所有类型的预测系数在下面特别地也被称为通用预测系数。
[0267]
在上述第一实施方式中,因为每个音频信号的元数据包括表示音频信号的类型的类型信息,所以能够识别音频信号的类型。鉴于此,例如,如图12中所示,通过根据类型信息选择预测系数可执行声音质量增强。应注意,图12中具有与图1的情况下的对应部分的部分被给予相同的参考标号,并且适当地省略其解释。
[0268]
在图12中描述的信号处理装置11具有解码部21、音频选择部22、声音质量增强处理部23、渲染器24以及再现信号生成部25。
[0269]
另外,声音选择部22具有选择部31-1~31-m。
[0270]
另外,声音质量增强处理部23具有普通声音质量增强处理部302-1至普通声音质量增强处理部302-m、高负荷声音质量增强处理部32-1至高负荷声音质量增强处理部32-m、系数选择部301-1至系数选择部301-m。
[0271]
因此,图12所示的信号处理装置11与图1所示的信号处理装置11的不同之处仅在于声音质量增强处理部23的配置,其他方面相同。
[0272]
系数选择部301-1至系数选择部301-m预先保持对每种类型的音频信号机器学习并且用于dnn中的计算的预测系数,并且这些系数选择部301-1至系数选择部301-m被提供有来自解码部21的元数据。
[0273]
这里所述的预测系数是用于在高负荷声音质量增强处理部32、更具体地动态范围扩展部61的增益计算部112和带宽扩展部62的高频子带功率估计电路145处的处理的预测系数。
[0274]
系数选择部301-1至系数选择部301-m从各自对应于预先保持的多种类型中的一种的预测系数中选择由包括在从解码部21提供的元数据中的类型信息表示的类型的预测系数,并且将预测系数提供给高负荷声音质量增强处理部32-1至高负荷声音质量增强处理部32-m。即,对于每个音频信号,选择将用于对音频信号执行的高负荷声音质量增强处理的预测系数。
[0275]
注意,在不特别需要在下面的系数选择部301-1到系数选择部301-m之间进行区分的情况下,它们也被简称为系数选择部301。
[0276]
普通声音质量增强处理部302-1至普通声音质量增强处理部302-m基本上与高负荷声音质量增强处理部32同样地配置。
[0277]
应当注意,普通声音质量增强处理部302-1至普通声音质量增强处理部302-m中,与增益计算部112和高频子带功率估计电路145对应的块的配置,即dnn配置与高负荷声音质量增强处理部32不同,这些块保持上述通用预测系数。
[0278]
除此以外,例如,在普通声音质量增强处理部302-1至普通声音质量增强处理部302-m中,dnn配置等可根据输入的音频信号是目标的信号还是声道的信号等而不同。
[0279]
在从选择部31-1~31-m提供音频信号之后,基于预先保持的音频信号和通用预测系数,普通声音质量增强处理部302-1到普通声音质量增强处理部302-m执行声音质量增强处理,并且将由此获得的高声音质量信号提供给渲染器24或再现信号生成部25。
[0280]
另外,在以下不需要特别区分普通(general,通用)声音质量增强处理部302-1至普通声音质量增强处理部302-m的情况下,也简称为普通声音质量增强处理部302。另外,以下将在普通声音质量增强处理部302中执行的声音质量增强处理特别称为普通声音质量增
强处理。
[0281]
这样,在图12所示的实例中,各选择部31根据元数据中包含的优先级信息及类型信息,选择普通声音质量增强处理部302或高负荷声音质量增强处理部32中的任一个作为音频信号的提供目的地。
[0282]
《再现信号生成处理的说明》
[0283]
接下来,下面参考图13中的流程图说明由在图12中描述的信号处理装置11执行的再现信号生成处理。
[0284]
在步骤s161中,基于从解码部21提供的元数据,选择部31选择将对从解码部21提供的音频信号执行的声音质量增强处理。
[0285]
例如,在由包括在元数据中的类型信息表示的类型是预测系数被预先保持在系数选择部301处的类型的情况下,选择部31选择高负荷声音质量增强处理。与此相反,例如,在由类型信息表示的类型是预测系数未保持在系数选择部301中的类型的情况下,选择普通声音质量增强处理。
[0286]
在步骤s162中,选择部31确定是否在步骤s161中选择了高负荷声音质量增强处理,即,是否执行高负荷声音质量增强处理。
[0287]
在步骤s162中确定执行高负荷声音质量增强处理的情况下,选择部31将从解码部21提供的音频信号提供至高负荷声音质量增强处理部32,并且此后,处理进行至步骤s163。
[0288]
在步骤s163中,系数选择部301从每个对应于预先保持的多个类型之一的预测系数中选择由包括在从解码部21提供的元数据中的类型信息表示的类型的预测系数,并且将预测系数提供给高负荷声音质量增强处理部32。
[0289]
这里,选择通过机器学习针对类型预先生成的并且将在增益计算部112和高频子带功率估计电路145中的每个中使用的预测系数,并且将预测系数提供给增益计算部112和高频子带功率估计电路145。
[0290]
在选择预测系数之后,进行步骤s164的处理。即,在步骤s164中,进行参照图9说明的高负荷声音质量增强处理。
[0291]
应注意,在步骤s42中,基于从系数选择部301提供的预测系数和从fft处理部111提供的信号,增益计算部112计算用于生成差分信号的增益值。另外,在步骤s49中,高频子带功率估计电路145基于从系数选择部301提供的预测系数和从特征计算电路144提供的特征,计算伪高频子带功率。
[0292]
此外,在步骤s162中确定不执行高负荷声音质量增强处理的情况下,即,在确定执行普通声音质量增强处理的情况下,选择部31将从解码部21提供的音频信号提供至普通声音质量增强处理部302,并且此后,处理进行至步骤s165。
[0293]
在步骤s165中,普通声音质量增强处理部302对从选择部31提供的音频信号执行普通声音质量增强处理,并且将由此获得的高声音质量信号提供给渲染器24或再现信号生成部25。
[0294]
在普通声音质量增强处理中,基本上,执行与参考图9说明的高负荷声音质量增强处理相似的处理,以生成高声音质量信号。
[0295]
应注意,例如,在作为普通声音质量增强处理并且对应于图9中的步骤s42的处理中,预先保持的通用预测系数用于计算用于生成差分信号的增益值。此外,在与图9中的步
骤s49对应的处理中,预先保持的通用预测系数用于计算伪高频子带功率。
[0296]
在以上述方式执行步骤s164或步骤s165中的处理之后,执行步骤s166至步骤s168中的处理,并且再现信号生成处理结束。因为这些处理与图8中的步骤s17至步骤s19中的处理相似,所以省略其说明。
[0297]
以上述方式,基于包含在元数据中的优先级信息和类型信息,信号处理装置择性地执行普通声音质量增强处理或高负荷声音质量增强处理,并且生成再现信号。通过这样做,即使在小的处理负荷,即,小的处理量下,也可以获得具有足够高的声音质量的再现信号。具体地,在该实例中,通过为每种类型的音频信号准备预测系数,能够以小的处理负荷获得高声音质量再现信号。
[0298]
《第二实施方式的第一变形例》
[0299]
《信号处理装置的配置实例》
[0300]
要注意的是,在参考图12解释的实例中,选择高负荷声音质量增强处理或普通声音质量增强处理作为声音质量增强处理。然而,这不是唯一的实例,并且可以选择高负荷声音质量增强处理、中负荷声音质量增强处理、低负荷声音质量增强处理和普通声音质量增强处理中的任意两个或更多个。
[0301]
例如,在高负荷声音质量增强处理、中负荷声音质量增强处理、低负荷声音质量增强处理以及普通声音质量增强处理中的任一个被选择为声音质量增强处理的情况下,信号处理装置11被配置为如图14中所示。应注意,在图14中具有在图1或图12中的情况下的对应部分的部分被给予相同的附图标记,并且适当地省略其解释。
[0302]
在图14中描述的信号处理装置11具有解码部21、音频选择部22、声音质量增强处理部23、渲染器24以及再现信号生成部25。
[0303]
另外,声音选择部22具有选择部31-1~31-m。
[0304]
另外,声音质量增强处理部23具有普通声音质量增强处理部302-1至普通声音质量增强处理部302-m、中负荷声音质量增强处理部33-1至中负荷声音质量增强处理部33-m、低负荷声音质量增强处理部34-1至低负荷声音质量增强处理部34-m、高负荷声音质量增强处理部32-1至高负荷声音质量增强处理部32-m、系数选择部301-1至系数选择部301-m。
[0305]
因此,图14所示的信号处理装置11与图1或图12所示的信号处理装置11的不同之处仅在于声音质量增强处理部23的配置,其他方面的配置相同。
[0306]
在该实例中,基于从解码部21提供的元数据,选择部31选择要对从解码部21提供的音频信号执行的声音质量增强处理。
[0307]
即,选择部31选择高负荷声音质量增强处理、中负荷声音质量增强处理、低负荷声音质量增强处理或普通声音质量增强处理,并且根据选择的结果,将音频信号提供给高负荷声音质量增强处理部32、中负荷声音质量增强处理部33、低负荷声音质量增强处理部34或普通声音质量增强处理部302。
[0308]
《第三实施方式》
[0309]
《信号处理装置的配置实例》
[0310]
另外,在声音质量增强处理部23中设有系数选择部301的情况下,在元数据不包含类型信息等原因而无法识别音频信号的种类的情况下,在系数选择部301中不能选择预测系数,无法进行高负荷声音质量增强处理。
[0311]
鉴于此,例如,可以提供基于音频信号生成元数据的元数据生成部。具体地,在下面解释的实例中,基于音频信号,识别音频信号的类型,并且生成表示识别结果的类型信息作为元数据。
[0312]
在这种情况下,信号处理装置11被配置为例如如图15所示。应注意,在图15中具有在图12中的情况下的对应部分的部分被给予相同的附图标记,并且适当地省略其解释。
[0313]
在图15中描述的信号处理装置11具有解码部21、音频选择部22、声音质量增强处理部23、渲染器24以及再现信号生成部25。
[0314]
此外,音频选择部22具有选择部31-1~31-m以及元数据生成部341-1至元数据生成部341-m。
[0315]
另外,声音质量增强处理部23具有普通声音质量增强处理部302-1至普通声音质量增强处理部302-m、高负荷声音质量增强处理部32-1至高负荷声音质量增强处理部32-m、系数选择部301-1至系数选择部301-m。
[0316]
因此,图15中所示的信号处理装置11与图12中所示的信号处理装置11的不同之处仅在于音频选择部22的配置,并且在其他方面的配置相同。
[0317]
例如,元数据生成部341-1至元数据生成部341-m是诸如通过机器学习等预先生成的dnn的类型分类器,并且预先保持用于实现类型分类器的类型预测系数。即,通过使其通过机器学习等学习类型预测系数,可获得诸如dnn的类型分类器。
[0318]
基于预先保持的类型预测系数和从解码部21提供的音频信号,元数据生成部341-1至元数据生成部341-m通过类型分类器执行计算,从而识别(估计)音频信号的类型。例如,在类型分类器处,基于音频信号的频率特性等进行类型的识别。
[0319]
元数据生成部341-1至元数据生成部341-m生成表示类型的识别结果的类型信息,即,元数据,并且将类型信息提供给选择部31-1~31-m以及系数选择部301-1至系数选择部301-m。
[0320]
注意,在以下不需要特别区分元数据生成部341-1至元数据生成部341-m的情况下,它们也简称为元数据生成部341。
[0321]
此外,包括在元数据生成部341中的类型分类器可以是输出表示关于输入音频信号,音频信号的类型是多种类型中的哪种的信息的类型分类器,或者是各自对应于一种特定类型的多个类型分类器,并且可以输出表示输入音频信号是否是准备的一种特定类型的信息。例如,在为每个类型准备类型分类器的情况下,音频信号被输入到类型分类器,并且基于每个类型分类器的输出来生成类型信息。
[0322]
另外,虽然在这里说明的实例中,在声音质量增强处理部23中设置了普通声音质量增强处理部302和高负荷声音质量增强处理部32,但是也可以设置中负荷声音质量增强处理部33和低负荷声音质量增强处理部34。
[0323]
《再现信号生成处理的说明》
[0324]
接下来,下面参考图16中的流程图,解释由在图15中描述的信号处理装置11执行的再现信号生成处理。
[0325]
在步骤s201,基于预先保持的类型预测系数和从解码部21提供的音频信号,元数据生成部341识别音频信号的类型,并且生成表示识别结果的类型信息。元数据生成部341将生成的类型信息提供给选择部31和系数选择部301。
[0326]
应注意,更具体地,在元数据生成部341处,仅在解码部21处获得的元数据不包括类型信息的情况下执行步骤s201处的处理。这里,假设元数据不包括类型信息继续说明。
[0327]
在步骤s202中,基于包括在从解码部21提供的元数据中的优先级信息以及从元数据生成部341提供的类型信息,选择部31选择要对从解码部21提供的音频信号执行的声音质量增强处理。这里,选择高负荷声音质量增强处理或普通声音质量增强处理作为声音质量增强处理。
[0328]
在选择声音质量增强处理之后,执行在步骤s203到步骤s209中的处理,并且再现信号生成处理结束。因为这些处理与图13中的步骤s162至步骤s168的处理相似,所以省略其说明。应当注意,在步骤s204中,基于从元数据生成部341提供的类型信息,系数选择部301选择预测系数。
[0329]
以上述方式,信号处理装置11基于音频信号生成类型信息,并且基于类型信息和优先级信息选择声音质量增强处理。通过这样做,即使在元数据不包括类型信息的情况下,也可生成类型信息,并且可选择声音质量增强处理和预测系数。由此,即使以小的处理负荷也可以获得高声音质量再现信号。
[0330]
《计算机的配置实例》
[0331]
顺便提及,上述一系列处理也可以通过硬件执行,或也可以通过软件执行。在一系列处理由软件执行的情况下,包括在软件中的程序安装在计算机上。这里,计算机包括并入专用硬件的计算机、通用个人计算机,例如,能够通过在其上安装各种类型的程序来执行各种类型的功能的个人计算机等。
[0332]
图17是描述通过程序执行上述一系列处理的计算机的硬件的配置实例的框图。
[0333]
在计算机中,cpu(中央处理单元)501、rom(只读存储器)502、以及ram(随机存取存储器)503经由总线504互连。
[0334]
总线504进一步与输入/输出接口505连接。输入/输出接口505与输入部506、输出部507、记录部508、通信部509和驱动器510连接。
[0335]
输入部506包括键盘、鼠标、麦克风、图像捕获元件等。输出部507包括显示器、扬声器等。记录部508包括硬盘、非易失性存储器等。通信部509包括网络接口等。驱动器510驱动诸如磁盘、光盘、磁光盘或半导体存储器的可移除记录介质511。
[0336]
在由此配置的计算机中,例如,cpu 501经由输入/输出接口505和总线504将记录在记录部508上的程序加载到ram 503上,并且执行该程序,从而执行上述一系列处理。
[0337]
例如,由计算机(cpu 501)执行的程序可被设置为记录在作为封装介质等的可移动记录介质511上。此外,可以经由有线传输介质或诸如局域网、互联网或数字卫星广播的无线传输介质来提供程序。
[0338]
在计算机处,通过将可移除记录介质511附接至驱动器510,可以经由输入/输出接口505将程序安装在记录部508上。此外,程序可以通过电缆传输介质或无线传输介质在通信部509处接收,并安装在记录部508上。除此以外,程序可以预先安装在rom 502或记录部508上。
[0339]
应注意,由计算机执行的程序可以是按照本说明书中说明的顺序按照时间顺序执行处理的程序,或者可以是并行或者在诸如调用那些处理的定时等必要定时执行处理的程序。
[0340]
此外,本技术的实施方式不限于上述实施方式,而是在不偏离本技术的主旨的范围内可以以各种方式改变。
[0341]
例如,本技术可以被配置为云计算,其中,经由网络在多个装置之间共享一个功能并且通过彼此协作的多个装置处理一个功能。
[0342]
此外,除了在一个设备上执行之外,在上述流程图中解释的每个步骤可以由多个设备共享和执行。
[0343]
此外,在一个步骤包括除了在一个设备上执行之外的多个处理的情况下,包括在一个步骤中的多个处理可以在多个设备之间共享并且由多个设备执行。
[0344]
此外,本技术还可具有以下配置。
[0345]
(1)一种信号处理装置,包括:
[0346]
选择部,被提供有多个音频信号并且选择要经过声音质量增强处理的音频信号;以及
[0347]
声音质量增强处理部,对所述选择部所选择的音频信号进行所述声音质量增强处理。
[0348]
(2)根据(1)所述的信号处理装置,其中,所述选择部基于所述音频信号的元数据选择要经过所述声音质量增强处理的所述音频信号。
[0349]
(3)根据(2)所述的信号处理装置,其中,所述元数据包括表示所述音频信号的优先级的优先级信息。
[0350]
(4)根据(2)或(3)所述的信号处理装置,其中,所述元数据包括表示所述音频信号的类型的类型信息。
[0351]
(5)根据(2)至(4)中任一项所述的信号处理装置,进一步包括:
[0352]
元数据生成部,基于所述音频信号生成所述元数据。
[0353]
(6)根据(1)至(5)中任一项所述的信号处理装置,其中,对于所述音频信号中的每一个,所述选择部从相互不同的多个声音质量增强处理中选择要对所述音频信号执行的声音质量增强处理。
[0354]
(7)根据(6)所述的信号处理装置,其中,所述声音质量增强处理包括动态范围扩展处理或带宽扩展处理。
[0355]
(8)根据(6)所述的信号处理装置,其中,所述声音质量增强处理包括基于通过机器学习获得的预测系数和基于所述音频信号的动态范围扩展处理或带宽扩展处理。
[0356]
(9)根据(8)所述的信号处理装置,进一步包括:
[0357]
系数选择部,对于每种类型的音频信号,保持预测系数,并且基于表示音频信号的类型的类型信息从保持的多个预测系数中选择要用于声音质量增强处理的预测系数。
[0358]
(10)根据(6)的信号处理装置,其中,声音质量增强处理包括基于音频信号通过线性预测生成高频分量的带宽扩展处理。
[0359]
(11)根据(6)所述的信号处理装置,其中,所述声音质量增强处理包括将白噪声添加到所述音频信号的带宽扩展处理。
[0360]
(12)根据(1)至(11)中任一项所述的信号处理装置,其中,所述音频信号包括声道的音频信号或音频目标的音频信号。
[0361]
(13)一种由信号处理装置执行的信号处理方法,所述信号处理方法包括:
[0362]
提供多个音频信号,并且选择要经过声音质量增强处理的音频信号;以及
[0363]
对所选择的音频信号执行声音质量增强处理。
[0364]
(14)一种使计算机执行处理的程序,所述处理包括:
[0365]
提供多个音频信号,并且选择要经过声音质量增强处理的音频信号的步骤;以及
[0366]
对所选择的音频信号执行声音质量增强处理的步骤。
[0367]
[参考标号列表]
[0368]
11:信号处理装置
[0369]
22:音频选择部
[0370]
23:声音质量增强处理部
[0371]
24:渲染器
[0372]
25:再现信号生成部
[0373]
32-1~32-m,32:高负荷声音质量增强处理部
[0374]
33-1~33-m,33:中负荷声音质量增强处理部
[0375]
34-1~34-m,34:低负荷声音质量增强处理部
[0376]
301-1~301-m,301:系数选择部
[0377]
341-1~341-m,341:元数据生成部
技术特征:
1.一种信号处理装置,包括:选择部,被提供有多个音频信号并且选择要经过声音质量增强处理的音频信号;以及声音质量增强处理部,对所述选择部所选择的所述音频信号进行所述声音质量增强处理。2.根据权利要求1所述的信号处理装置,其中,所述选择部基于所述音频信号的元数据选择要经过所述声音质量增强处理的所述音频信号。3.根据权利要求2所述的信号处理装置,其中,所述元数据包括表示所述音频信号的优先级的优先级信息。4.根据权利要求2所述的信号处理装置,其中,所述元数据包括表示所述音频信号的类型的类型信息。5.根据权利要求2所述的信号处理装置,还包括:元数据生成部,基于所述音频信号生成所述元数据。6.根据权利要求1所述的信号处理装置,其中,对于每个音频信号,所述选择部从相互不同的多个声音质量增强处理中选择要对所述音频信号执行的声音质量增强处理。7.根据权利要求6所述的信号处理装置,其中,所述声音质量增强处理包括动态范围扩展处理或带宽扩展处理。8.根据权利要求6所述的信号处理装置,其中,所述声音质量增强处理包括基于通过机器学习获得的预测系数并基于所述音频信号的动态范围扩展处理或带宽扩展处理。9.根据权利要求8所述的信号处理装置,还包括:系数选择部,保持针对每种类型的音频信号的预测系数,并且基于表示所述音频信号的类型的类型信息从保持的多个所述预测系数中选择要用于所述声音质量增强处理的预测系数。10.根据权利要求6所述的信号处理装置,其中,所述声音质量增强处理包括基于所述音频信号通过线性预测生成高频分量的带宽扩展处理。11.根据权利要求6所述的信号处理装置,其中,所述声音质量增强处理包括将白噪声添加到所述音频信号的带宽扩展处理。12.根据权利要求1所述的信号处理装置,其中,所述音频信号包括声道的音频信号或音频目标的音频信号。13.一种由信号处理装置执行的信号处理方法,所述信号处理方法包括:提供多个音频信号,并且选择要经过声音质量增强处理的音频信号;以及对所选择的音频信号执行声音质量增强处理。14.一种使计算机执行处理的程序,所述处理包括:提供多个音频信号,并且选择要经过声音质量增强处理的音频信号的步骤;以及对所选择的音频信号执行声音质量增强处理的步骤。
技术总结
本技术涉及即使以小的处理量也可以获得高音质信号的信号处理装置和方法以及程序。该信号处理装置包括:选择部,被提供有多个音频信号并选择要进行声音质量增强处理的音频信号;以及声音质量增强处理部,对由选择部选择的音频信号执行声音质量增强处理。本技术可应用于便携式终端。用于便携式终端。用于便携式终端。
技术研发人员:
福井隆郎 知念彻
受保护的技术使用者:
索尼集团公司
技术研发日:
2021.03.19
技术公布日:
2022/11/8