1.本发明涉及一种用于处理和播放音频
数据的方法,该方法包括接收混合输入数据和播放重组输出数据的步骤。此外,本发明涉及一种用于处理和播放音频数据的装置、优选dj设备,该装置包括用于接收混合输入信号的音频输入单元、重组单元和用于播放输出数据的播放单元。另外,本发明涉及一种用于显示音频数据(即,在显示器上显示音频数据)的方法和装置。
背景技术:
2.具有上述特性的音频设备用于播放、处理、传输或记录音频数据的各种应用中。特别地,这种类型的方法和装置用于音乐娱乐领域,并且可以在用于现场娱乐和公共广播系统(pa系统)的音响系统中实现。一个示例是dj设备,其常规地适于接收至少两个不同的输入信号,并且包括用于以期望的音量
电平混合这两个输入信号的重组单元。dj设备通常包括称为交叉推子(crossfader)的控制元件,用于增加第一输入信号的音量电平且同时降低第二输入信号的音量电平,以便在这些输入信号之间进行连续融合。
3.近年来,唱片骑师(dj)在现场演出期间的创造性和艺术贡献不仅对特定场地的整体娱乐质量产生了重大影响,而且对现代音乐本身的发展也产生了重大影响。由有影响力的dj开发的某些音频效果、定时和音调变化已被用于常规制作的录音的现代布置中。相应地,本领域强烈期望探索对现有音频信号进行现场修改的新技术,以进一步增加dj在演出期间的创作自由度。
4.除了dj工作的创造性方面之外,dj的一项主要任务还是在两首歌曲之间进行无缝融合。出于此目的,常规的dj设备提供了用于改变一首歌曲的节奏和调以分别匹配另一首歌曲的节奏和调的特征,并提供了对两首歌曲的音频效果(例如均衡器效果)的音量或参数进行交叉渐变的控件。为了实现平滑转变,dj的目标是避免这两首歌曲的人声冲突。因此,通常在两首歌曲中至少一首的人声
轨道中暂停的时间间隔内,例如在器乐独奏部分、结尾部分或在合唱和主歌之间的停顿期间或类似位置处,进行转变。然而,这对dj来说是一个相当大的限制,并且需要在混合过程中对歌曲材料有很好的了解或分析。此外,在许多歌曲中,尤其是流行或嘻哈类型的歌曲中,人声轨道中通常几乎没有足够大的停顿来让dj平滑转变到另一首歌曲。对于这样的歌曲,使用常规技术有时无法避免两个人声一起演奏的冲突或流中的一些中断。类似地,在有时根本不包含任何人声的电子音乐的情况下,dj的目标是避免两首歌曲的贝司(bass)线、合成处等发生冲突。于是,通常在两首歌曲中的至少一首的一个或多个音调/旋律轨道中暂停的时间间隔内,例如,在歌曲的结尾/开始时或在歌曲的停顿或打击乐部分期间,进行转变。
5.关于音频源、尤其是对dj可用的输入数据,常规方法和装置通常限于处理混合输入信号,例如从在线数字音乐商店或流媒体服务获得的混合立体声音频文件。通常在音乐工作室中通过混合多个源轨道(例如多个人声和器乐轨道)、应用音频效果和对项目进行母带处理以获得立体声音频文件来产生音频文件。由于音频文件成品是所有源轨道和效果等
的总和信号,因此有关单个源轨道的信息通常会丢失,并且仅通过直接检查音频文件无法再获得它。
6.近年来,为了
分解混合音频信号以分离出该信号的人声部分,已经有几种基于人工智能和深度神经网络的途径。一些ai系统通常实现卷积神经网络(cnn),该卷积神经网络已经通过多个数据集进行训练,所述多个数据集例如包括人声轨道、器乐轨道以及人声轨道和器乐轨道的混合。这种能够从混合音频信号中分离出源轨道(例如歌声音轨)的常规ai系统的示例包括:pr
é
tet,“singing voice separation:a study on training data”,acoustics,speech and signal processing(icassp),2019,pages 506-510(pr
é
tet,“歌声分离:训练数据研究”,声学、语音和信号处理(icassp),2019年,第506-510页);“spleeter”——由音乐流媒体公司deezer基于上述pr
é
tet的教学提供的开源工具;“phonicmind”(https://phonicmind)——基于深度神经网络的语音和源分离器;“open-unmix”——基于频域深度神经网络的音乐源分离器;或facebook ai research(脸书人工智能研究)的“demucs”——基于波形域深度神经网络的音乐源分离器。这些工具接受标准格式的音乐文件(例如mp3、wav、aiff)并分解整首歌曲以提供该歌曲的分解/分离后的轨道,例如人声轨道、贝司轨道、鼓轨道、伴奏轨道或其任何混合物。然后,用户可以存储这些轨道进行音频制作、分析目的或播放。例如,常规的ai系统可用于通过从市售歌曲中去除人声轨道来设置卡拉ok机。
7.尽管人们可以考虑将源轨道作为输入文件加载到dj系统中,以便在现场演出期间可以重组这些轨道,但是由于多种原因,这种途径并未在dj中流行。
8.第一,商业发行音乐的单个源轨道、例如原始音轨,通常不能单独获得,因为唱片公司或制作人通常只提供完整的混合音频文件。第二,在音频数据需要即时处理和播放的流式传输音乐的情况下,通常不可能预先下载整个音频内容并在播放之前使用软件模块(例如上述工具之一)对其进行预处理。
9.第三,对典型的播放时长为几分钟或更长时间的音频文件的分解涉及相对耗时的复杂计算,尤其是在使用神经网络时,因此需要大量时间和工作来准备演出前的设置,即上传、分解、下载、存储和组织在演出期间可能需要使用的所有轨道。通常,已知使用神经网络进行分解实现了良好的质量和精确的轨道分离,但是,分解通常大小(播放时长为几分钟)的音频文件需要相对较长的时间。另一方面,已知没有神经网络的分解,例如基于简单的数字信号处理的分解,诸如从立体声音频文件中的右声道中减去左声道,也称为相位消除(基于这样的假设,许多人声源轨道被记录在单声道并且同样适用于两个立体声通道),速度很快,并且关于处理时间,其可能适合在现场环境下使用。然而,这些方法提供的质量较低,并且通常不会产生预期的结果。第四,允许播放分离出的轨道的dj系统需要具有用于调节每个轨道音量的单独推子的多声道混合单元。这种额外的推子难以同时为dj操作,并增加了系统的复杂性。
技术实现要素:
10.鉴于上述背景,本发明的目的是提供一种用于处理和播放音频数据的方法和装置,其优选地在现场演出的情况下增加了用户控制音频数据的播放的艺术和创作自由。
11.为了解决上述目的,根据本发明的第一方面,提供了一种用于处理和播放音频数
据的方法,该方法包括以下步骤:提供混合输入数据,所述混合输入数据是通过混合多个源轨道而获得的;由ai系统处理混合输入数据,该ai系统包括被训练为从混合音频数据中分离出预定音的音频数据的神经网络,其中混合输入数据由ai系统处理以获得一组分解轨道,该组分解轨道至少包括表示第一预定音的音频信号的第一分解轨道、表示与所述第一预定音不同的第二预定音的音频信号的第二分解轨道、以及表示与所述第一预定音和所述第二预定音不同的第三预定音的音频信号的第三分解轨道;读取来自用户的控制输入,所述控制输入表示第一音量电平和第二音量电平的期望设置;将从所述一组分解轨道中选择的至少第一选定轨道和第二选定轨道重组,以生成第一重组轨道;将第一音量电平的第一重组轨道与第二音量电平的从所述一组分解轨道中选择的至少第三轨道重组,以获得第二重组轨道;基于第二重组轨道播放音频数据。
12.根据本发明第一方面的一个重要特征,混合输入数据由ai系统处理以生成不同音的至少三个分解轨道。出于此目的,ai系统可以包括一个神经网络,该神经网络被训练为分离两个或三个分解轨道作为输出。替代地,可以在ai系统中使用两个或多个神经网络,其被适当地配置为彼此独立地操作,其中ai系统的不同神经网络被配置为生成不同音的分解轨道。这样的神经网络或神经网络的层可以在分离过程中相互交互以交换数据,以实现协同效应并改善分离结果。
13.ai系统已经通过训练数据进行了训练,这些训练数据既包括混合输入数据,也包括作为混合输入数据的分量的特定音的轨道,即播放时其音包含在混合输入数据的感知声音中的特定音的轨道。如上所述,已知能够从混合音频数据中分离出特定音的轨道的ai系统在本领域中用于其他目的。
14.在本公开的上下文中,并且尤其是本发明的所有方面和实施例中,不同的音对应于源自不同声源(例如不同的乐器、不同的软件乐器或样本、不同的语音等)的音频信号的分量。尤其,某种音可以指以下至少一种:-录制的某种乐器(例如,贝司、钢琴、鼓(包括古典鼓组声音、电子鼓组声音、打击乐器声音)、吉他、长笛、管风琴等)或任何此类乐器组的声音;-由模拟或数字合成器合成的合成声音,例如类似于某种乐器(例如,贝司、钢琴、鼓(包括古典鼓组声音、电子鼓组声音、打击乐声音)、吉他、长笛、管风琴等)或任何此类乐器组的声音;-歌手(例如演唱或说唱歌手)或一组此类歌手的声音;-它们的任何组合。
15.这些音与音频数据频谱内的特定频率分量和频率分量的分布以及音频数据内频率分量的时间分布有关,并且它们可以通过专门用包含这些音的训练数据训练的ai系统来分离。
16.本发明第一方面的另一个重要特征涉及以这样一种方式重组至少三个分解轨道,使得用户不需要为三个或更多分解轨道中的每一个选择单独的音量电平,而是能够仅通过设置第一音量电平和第二音量电平来控制重组结果,从而控制分解轨道的播放。使用两个单独的控制元件(例如按钮或推子)可以容易地实现对第一音量电平和第二音量电平的控制。优选地,由单控制元件实现控制。具体地,在第一重组步骤中,选择至少两个分解轨道,将至少两个分解轨道重组以生成第一重组轨道。然后,用户可以仅为第一重组轨道和任何
第三轨道选择音量设置,然后该方法可以根据设置的音量电平将这些轨道重组以获得第二重组轨道,然后将其根植到播放单元进行播放。
17.例如,可以使用被配置和训练为生成四个轨道(即,鼓轨道、贝司轨道、人声轨道和补充轨道)的ai系统,所述补充轨道包括所有剩余的声音/音,使得补充轨道与鼓轨道、贝司轨道和人声轨道的混合将产生与混合输入信号基本相等的音频信号。在这样的ai系统中,当将贝司、人声和补充轨道重组时,首先,为了获得第一重组轨道,用户可以使用单控制元件来相对于混合的重组的剩余部分的音量控制分解后的鼓轨道的音量。这使dj可以容易地融合两个重要的声音分量,即鼓分量和歌曲的音调(和声或旋律)分量。
18.通过在第一重组步骤中简单地更改分解轨道的选择,例如,对于不同类型的音乐,用户可以在替代配置中使用同一ai系统。在上述示例中,如果在第一重组步骤中选择鼓轨道、贝司轨道和补充轨道进行重组以生成第一重组轨道,用户可以通过简单的控制输入、尤其单控制元件来相对于混合的剩余部分(器乐部分)的音量控制人声的音量,从而容易地在人声(无伴奏合唱)和器乐之间进行融合。
19.与上面给出的示例类似,在本发明第一方面的方法中,通常优选的是,第一预定音、第二预定音和第三预定音中的至少一个选自由限定混合输入数据的和声、调或旋律的鼓音、人声音和音调音构成的组中。这些是dj设备中为了产生某些听觉效果而要受影响的基本声音分量。这些音与音频数据频谱内的特定频率分量和频率分量的分布以及音频数据内频率分量的时间分布有关,并且它们可以通过专门用包含这些音的训练数据训练的ai系统来分离。
20.此外,优选地,第一预定音、第二预定音和第三预定音中的至少一个是补充音,即在分解期间也生成补充轨道,使得所有的分解轨道(包括补充轨道)的混合基本上等于混合输入数据。因此,所有音频分量仍然表示在所有分解轨道的总和中,使得dj可以控制可听声音,从而接近原始混合/原始歌曲的声音或将其偏离到期望的量。
21.根据本发明的第二方面,提供了一种用于处理和播放音频数据的装置、优选为dj设备,该装置包括:音频输入单元,用于提供混合输入数据,所述混合输入数据是通过混合多个源轨道而获得的;ai系统,该ai系统包括被训练为从混合音频数据中分离出预定音的音频数据的神经网络,其中该ai系统被配置为接收和处理混合输入数据并生成一组分解轨道,所述一组分解轨道至少包括表示第一预定音的音频信号的第一分解轨道、表示与所述第一预定音不同的第二预定音的音频信号的第二分解轨道、以及表示与所述第一预定音和所述第二预定音不同的第三预定音的音频信号的第三分解轨道;控制部分,适于由用户控制以生成表示第一音量电平和第二音量电平的期望设置的控制输入;重组单元,被配置为将从所述一组分解轨道中选择的至少第一选定轨道和第二选定轨道重组以生成第一重组轨道,其中重组单元还被配置为将第一音量电平的第一重组轨道与第二音量电平的从该组分解轨道中选择的至少第三轨道重组,以获得第二重组轨道;播放单元,被配置为基于第二重组轨道播放音频数据。
22.本发明第二方面的装置被具体配置为执行上述本发明第一方面的方法及其实施例,从而实现相应的效果和优点。
23.在本发明第二方面的优选实施例中,该装置包括模式控制单元,该模式控制单元被配置为至少在第一操作模式和第二操作模式之间改变该装置的操作模式,其中在所述第
一操作模式中重组单元被配置为将从所述一组分解轨道中选择的第一组选定轨道重组以生成第一重组轨道,并且其中在第二操作模式中重组单元被配置为将从所述一组分解轨道中选择的第二组选定轨道重组以生成第一重组轨道,所述第二组选定轨道不同于所述第一组选定轨道。在本实施例中,可以使用同一ai系统通过简单地改变对待重组的分解轨道的选择来控制不同组的声音分量,其中用户输入仍然影响第一重组轨道、即一组轨道,从而确保快速简单的控制。
24.模式控制单元可以包括可由用户操作以选择性地将该装置设置为第一操作模式或第二操作模式的模式控制元件。在本实施例中,用户仍然对选择有影响,因此可以根据待播放的音乐类型改变对分解轨道的选择,但是,另一方面具有在实际播放过程中不需要控制所有单个分解轨道的优点。
25.当在dj设备中实现时,本发明第一方面的方法和本发明第二方面的装置具有特定的优点。尤其,对分解轨道重组的简化控制以及允许将分解轨道分组适应某种音乐类型的特征使dj的创作工作更加直观和快速,同时保持必要的灵活性。因此,在本发明第二方面的装置中,音频输入单元优选地包括被配置为接收第一混合输入数据的第一输入部分和被配置为接收与所述第一混合输入数据不同的第二混合输入数据的第二输入部分,其中重组单元被配置为将源自第一混合输入数据的音频数据与源自第二混合输入数据的音频数据重组。例如,该装置因此被配置为接收两首不同歌曲的混合输入数据。通过控制两首歌曲的某些分解轨道的音量电平,dj可以更灵活、更平滑地在两首歌曲之间进行融合,并可以通过重组不同歌曲的分解轨道来实现某些新的音频创作和效果。例如,dj可能会在另一首歌曲的器乐上播放一首歌曲的人声。这将在下面关于本发明的其他方面和实施例更详细地讨论。
26.根据本发明的第三方面,上述目的是通过一种用于处理和播放音频数据的方法来实现的,该方法包括以下步骤:(a)接收混合输入数据,所述混合输入数据是通过将至少一个第一源轨道与至少一个第二源轨道混合而获得的总和信号;(b)分解混合输入数据,以获得与所述至少一个第一源轨道类似的至少第一分解轨道;(c)基于第一分解轨道生成输出数据;以及(d)通过音频输出播放输出数据。
27.在本公开的上下文中,混合输入数据表示通过尤其在音乐制作期间混合多个源轨道而获得的音频信号。因此,混合输入数据是从根据本发明的方法的处理开始之前已经完成的先前混合处理而获得的。换言之,本发明的方法使用来自与本发明的处理分开的先前缩混处理的输入数据。尤其,混合输入数据可以是音频文件,例如包含已经在录音棚中通过混合多个源轨道产生的一段音乐的音频文件。例如,第一源轨道可以是通过麦克风记录歌手而获得的人声轨道,而第二源轨道可以是通过麦克风或来自乐器的直接线路信号记录乐器演奏者而获得的器乐轨道。通常,多个人声轨道和/或多个器乐轨道同时或一个接一个地被记录。然后将多个源轨道传送到混合站,在该混合站中单独编辑各源轨道,将各种声音效果应用到源轨道,分配单独的音量电平,并且优选地,最终将一个或多个母带效果(mastering effect)应用于所有轨道的总和。在制作过程结束时,最终的音频混合存储在合适的记录介质上,例如计算机硬盘驱动器上的音频文件中。此类音频文件优选地具有诸如mp3、wav、aiff等常规音频文件格式,以便可以由诸如运行apple移动操作系统(ios)、apple macintosh操作系统(macos)、microsoft windows操作系统或google android操作系统的计算机或智能手机等标准播放装置读取。
28.在本发明的实施例中,混合输入数据优选是音频文件、特别是包含音乐的音频文件。本发明的方法或装置优选地被配置为将这样的音频文件存储到该装置的本地存储部件上,和/或例如通过互联网从远程服务器接收、特别是流式传输)这样的音频文件。本发明的装置因此可以包括被配置为接收音频文件的网络连接部件,例如wifi接口或lan接口。替代地或另外,所述装置可以具有适于接收音频文件的任何其他连接件,例如蓝牙接口或usb端口。该装置可以具有硬盘驱动器以存储音频数据。
29.根据本发明的实施例,接收混合输入数据、分解混合输入数据、生成和播放输出数据的步骤在连续过程中执行。这意味着从输入(接收混合输入数据)到输出(播放输出数据)的音频数据处理是连续进行的,或者即时进行的,即没有明显的时间延迟。例如,分解的音频数据的播放可以在从接收到混合输入数据起小于2秒、优选小于150毫秒、最优选小于50毫秒的时间段内开始。尤其,不需要将音频文件上传到分解服务提供商的远程服务器,在远程服务器上等待分解完成并将分解轨道从服务器下载到本地装置,将分解轨道存储在本地存储器上,然后播放分解轨道。连续处理可以通过执行处理的所有步骤即接收混合输入数据、分解混合输入数据、在单个装置内或在通过电缆和/或在本地网络中和/或通过近场无线连接(wifi、蓝牙、ir等)相互连接的多个本地装置内生成和播放输出数据来实现。另外或替代地,包括接收混合输入数据、分解混合输入数据、生成和播放输出数据的步骤的连续处理可以在单个软件应用(单个软件程序或应用)内实现,该软件应用适于在诸如计算机、平板电脑、智能手机、独立dj硬件控制台等电子控制单元(ecu)上运行。
30.根据本发明的方法,接收并分解上述类型的混合输入数据,从而获得与第一源轨道或第一源轨道的总和类似的第一分解轨道。可选地,可以在分解期间获得与第二源轨道或第二源轨道的总和类似的第二分解轨道。例如,第一分解轨道可以类似于原始音轨或多个音轨的总和信号,例如来自合唱团的每个歌手的原始音轨的总和,或者来自双重音轨的两个或多个音轨的总和信号。同样地,第二分解轨道可以类似于原始器乐轨道,例如单个记录或产生的器乐轨道或多个器乐轨道的总和信号,例如所有器乐轨道的总和信号。在优选实施例中第一分解轨道类似于主人声轨道或孤立的所有主人声轨道的总和,而第二分解轨道类似于混合的剩余部分,即除了(一个或多个)主人声轨道之外的所有轨道的总和。
31.分解结果的质量,即分解后的轨道与相应的源轨道或源轨道的相应混合有多接近,可以通过使用例如用作评估分解算法的标准基准和参考数据库的mudb18数据集(zafar rafii,antoine liutkus,fabian-robert sto..ter,stylianos ioannis mimilakis,and rachel bittner.the musdb18 corpus for music separation,2017)(zafar rafii、antoine liutkus、fabian-robert stylianos ioannis mimilakis和rachel bittner,用于音乐分离的musdb18语料库,2017)来评估。对mudb18数据集的实验通常测量信号失真比(sdr)等测量值,以及通过平均意见分数(mos)对分解结果的感知质量进行评估的人工评价。
32.最高的sdr分数大于5.0,有些甚至大于7.0((d
é
fossez,a.,usunier,n.,bottou,l.,&bach,f.(2019).music source separation in the waveform domain.arxiv preprint arxiv:1911.13254.)(a.d
é
fossez、n.usunier、l.bottou和f.bach(2019),波形域中的音乐源分离,arxiv预印本arxiv:1911.13254)。
33.关于人工评价,例如,可以提供从1到5的2个等级:首先是伪影的质量和缺失(1:很
多伪影并且失真,内容几乎无法识别,5:完美质量,无伪影),其次是其他源轨道的污染(1:污染频繁且响亮,5:无污染)。最高的人工评价等级大于3.0,或者甚至大于4.0。优选地,在本发明的实施例中,在对通过将至少第一源轨道与至少第二源混合而获得的混合轨道进行分解以实现分解轨道的步骤中,分解轨道类似于mos分数大于2.0(优选大于4.0)和/或sdr分数大于3.0db(优选大于5.0db)的第一源轨道。
34.在本发明的一个实施例中,可以提供第二轨道,并且该方法可以进一步包括以下步骤(优选地在连续过程中执行):读取来自用户的控制输入,所述控制输入表示第一分解轨道的第一音量电平和第二轨道的第二音量电平的期望设置;至少将第一音量电平的第一分解轨道与第二音量电平的第二轨道重组以生成重组输出数据;以及播放重组输出数据。第二轨道可以是从第二混合输入数据(例如第二歌曲)获得的独立轨道,或者可以在分解混合输入数据的步骤中获得,因此可以形成与混合输入数据的至少一个第二源轨道类似的第二分解轨道。
35.在本公开的上下文中,可以以例如通过重组处理的任何已知的方式来实现将第一轨道与第二轨道重组,该重组处理包括基于轨道各自的音量电平缩放轨道(例如将第一轨道和第二轨道的信号值与它们各自的第一音量电平和第二音量电平相乘,或使用根据它们的第一音量电平和第二音量电平放大第一轨道和第二轨道的任何合适的放大单元)的第一步骤,以及在软件或硬件混音器中混合缩放/放大轨道的第二步骤(例如通过在相等或相应的时间帧上对缩放/放大轨道的信号值求和)。
36.尤其,根据本发明的实施例,提供了一种用于处理和播放音频数据的方法,该方法包括以下步骤:接收混合输入数据,所述混合输入数据是通过混合至少一个第一源轨道(例如人声轨道)和至少一个第二源轨道(例如器乐轨道)而获得的总和信号;分解混合输入数据,以至少获得类似于所述至少一个第一源轨道的第一分解轨道和类似于所述至少一个第二源轨道的第二分解轨道;读取来自用户的控制输入,所述控制输入表示第一分解轨道的第一音量电平和第二分解轨道的第二音量电平的期望设置;至少将第一音量电平的第一分解轨道与第二音量电平的第二分解轨道重组,以生成重组输出数据;以及播放重组输出数据。
37.根据任何上述实施例的第二轨道的使用特别适用于现场应用,以便基于第一分解轨道和另一轨道创建并立即播放新颖的重组,例如重新混合或混搭。优选地,在本发明中,该方法使用户可以控制第一分解轨道和第二分解轨道的音量电平,并将指定音量电平的第一分解轨道和第二分解轨道重组,从而播放通过对第一分解轨道和第二分解轨道的重组而获得的重组的输出信号。具体地,这使dj可以在歌曲之间进行无缝转变,特别是避免在转变期间重叠人声播放。即使在两首歌曲都包含人声部分的播放时间间隔期间,用户也可以在歌曲之间进行无缝融合,例如通过简单地淡出其中一个人声的音量,从而提供空间来淡入另一首歌曲的人声。在人声转变之前、之后或期间的任何时间,用户可以执行从第一歌曲的器乐轨道到第二歌曲的器乐轨道的转变。
38.本发明的方法实现的另一个优点是,用户能够访问音频混合的各个分量,以便能够以修改的方式重组这些分量来创建所谓的混搭或重混。这为用户在播放音频(例如在现场演出期间)时的创造性或艺术作品提供了许多新选项。例如,用户可以在播放重组输出数据时使用控制输入来操纵分解的人声轨道和分解的器乐轨道之间的音量比,例如根据需要
在人声和器乐之间滑动,在保持器乐的同时交换两首歌曲的人声,或者在保持人声的同时交换两首歌曲的器乐,稍后将更详细地讨论。
39.在本发明的优选实施例中,分解混合输入数据是分段执行的,其中分解和(如果适用的话)重组是基于混合输入数据的第一片段来执行的,从而获得输出数据的第一片段,并且其中在播放输出数据的第一片段的同时执行混合输入数据的第二片段的分解。
40.根据本实施例的混合输入数据的分段和并行分解极大地减少了执行分解计算所需的时间,因此使得可以显著更早地(优选地立即)开始播放输出数据,即没有明显的时延。尤其,不需要分解完整的输入数据(例如完整的音频文件)来获得可播放的分解轨道数据。相反,为了能够开始播放,仅完成一个片段的分解或仅完成音频文件的部分但不是全部片段的分解就足够了,因为部分分解计算、尤其音频文件的其他片段的分解,将在播放之前的片段期间进行。
41.分段分解的另一个技术效果是内存效率更高,并且不需要将所有混合输入数据(特别是整个输入音频文件)立即存储在设备的本地内存中(例如这对于提供计划用于流式传输的音频材料的源来说甚至是不可能的,也可能是不期望的,但对于将整个输入音频文件下载和/或永久存储在硬盘驱动器上是不可能的)。相反,可以基于混合输入数据的连续流、例如来自诸如流媒体音乐服务(spotify、apple music等)之类的远程服务器的连续音频流,即时执行音频数据的分解和重组。因此,可以通过流式传输从远程服务器(优选地,通过互联网)接收混合输入数据。
42.分段分解的另一个优点是输出数据的播放可以在任何期望的位置(在任何期望的播放时间)开始。尤其,首先分解的第一片段不一定必须是音频文件开头的起始片段。尤其,不需要对整个音频文件进行处理和分解,而是可以从包含所需播放位置的片段开始分解。因此,与整个音频文件的大小和播放时长无关,可以快速精确向前和向后跳转到音频文件中的任意位置,且延迟很小甚至没有任何可识别的延迟。
43.根据本发明的另一实施例,可以提供上述类型的方法,其中在步骤(a)中,接收具有预定文件大小和预定播放时长的输入音频文件,其包含播放混合输入数据的音频数据,并该从输入音频文件中提取第一片段,该第一片段包含在小于预定播放时长的第一时间间隔内播放混合输入数据的音频数据;其中在步骤(b)中,对输入音频文件的第一片段进行分解,以获得第一分解轨道的第一片段和可选的第二分解轨道的第一片段;其中在步骤(c)中,优选地,通过至少将第一音量电平的第一分解轨道的第一片段与第二音量电平的第二分解轨道的第一片段重组,从第一分解轨道的第一片段生成输出数据的第一片段,并且其中该方法进一步包括以下步骤:(a2)从输入音频文件中提取第二片段,该第二片段不同于第一片段,并且包含在小于输入音频文件的预定播放时长且相对于第一时间间隔在时间上移位的第二时间间隔内播放混合输入数据的音频数据;(b2)分解输入音频文件的第二片段,以获得第一分解轨道的第二片段和可选的第二分解轨道的第二片段;可选地,(c2)至少将第一音量电平的第一分解轨道的第二片段与第二音量电平的第二分解轨道的第二片段重组,以生成输出数据的第二片段,其中步骤(a2)、(b2)和(c2)中的至少一个在播放输出数据的第一片段的同时执行,并且其中输出数据的第二片段的生成在输出数据的第一片段的播放完成之前完成。
44.在本公开中,文件大小或音频数据大小对应于解码和/或未压缩的数据的总帧数。
根据音频数据的具体采样率,一定数量的帧对应于一定的播放时长。
45.根据本实施例,混合输入数据是具有预定文件大小和预定播放时长的输入音频文件。这样的输入音频文件可以从本地存储装置检索到或可以例如通过互联网等从远程服务器流式传输到。如上所述,输入音频文件(或其图像/副本),优选是在使用压缩格式作为输入的情况下的输入音频文件的解码版本,实际上被划分为至少两个片段,并且基于这些片段执行进一步的处理、尤其分解。一旦片段被分解,分解轨道的片段就立即可以被进一步处理、尤其重组和播放,同时可以开始或继续第二片段的分解。由于片段的大小(以帧为单位)和播放时长通常小于(优选地远小于、例如小于20秒的播放时长)输入音频文件的大小和播放时长(通常为几分钟),因此分解片段所需的时间显著更短,并且可以更早地开始播放输出信号的相应片段。此外,在输出数据的第一片段的播放期间,可以并行地进行对输入音频文件的第二片段的处理、尤其分解第二片段以获得第一分解轨道的第二片段和可选的第二分解轨道。优选地,所有片段都具有固定的相等大小。
46.优选地,输入音频文件被划分成的各个片段的大小适应于分解各个片段所需的处理时间,使得输出数据的第二片段的生成在输出数据的第一片段的播放完成之前完成。作为结果,一旦第一片段的处理/分解完成,就可以执行整个输出轨道的播放,即整个输出轨道或要播放的部分的所有连续片段的连续播放。
47.优选地,第一时间间隔的长度被设置为使得分解第一片段所需的时间小于2秒,使得该方法可以用于现场情况,例如dj可能会自发地决定播放一个或多个分解轨道以实现特定效果。此外,如果将分解第一片段所需的时间设置为小于150毫秒,那么可以在时间上按给定节拍更精确地触发分解轨道的播放,从而使得可以几乎实时播放音频文件的任何部分。最优选地,分解第一片段所需的时间小于50毫秒,使得音频文件内的播放和节拍/定时同步以及位置移位可以几乎无时延地执行,这意味着不会出现可识别的时间滞后。在这种情况下,dj可以按照与原始混合音频文件或常规效果轨道等相同的方式处理音频文件的分解轨道。为了让本领域的技术人员到合适的片段大小,他/她可以测量给定的硬件和软件配置分解一定播放时长t1的音频数据所需的时间t1,然后根据要求选择期望的分解时间t2作为可以接受的时间延迟/时延,然后例如根据该式t2=t1*t2/t1得到片段的播放时长t2。然后可以将音频数据划分成连续的片段,每个片段都具有播放时长t2。如果片段大小选择得太小,分解的质量会降低。如果片段大小选择得太大,处理时间会增加,因此时延增加。
48.通过使用如上所述的方法、尤其处理输入音频文件的片段以将处理时间减少到适合现场表演的水平的方法,原则上可以通过处理正好从期望播放位置开始的指定大小的片段,在任何期望的位置(输出轨道内的时间位置)处开始播放分解轨道。原则上,这将在时延和音频质量方面达到可接受的结果,并且可用于用户只想跳到轨道中的某个位置以从该位置开始播放轨道的应用,例如在音乐播放器应用中。然而,特别是在创造性dj工作期间,有时期望快速而精确地执行小的位置移位,在向前或向后播放之间切换或改变播放速度。例如,在一种称为“刮擦”的技术中,dj在歌曲的某个位置处在向前或向后播放之间快速切换,以实现相应的刮擦音频效果,类似于通过快速向前和向后旋转播放的黑胶唱片所达到的效果。本发明的发明人已经发现,将这种技术应用于从分解轨道获得的输出轨道可能会产生音频伪影,并且可能无法通过将同一技术应用于相应的源轨道或相应的常规混合轨道来实现预期的结果。
49.发明人已经发现,该问题可以通过本发明的实施例来解决,该实施例包括以下步骤:接收具有预定文件大小和预定播放时长的输入音频文件,该输入音频文件包含播放混合输入数据的音频数据;将输入音频文件连续划分为多个片段,所述多个片段包含在相互跟随的多个时间间隔内播放混合输入数据的音频数据;接收来自用户的播放位置命令,该命令表示用户的从某个开始播放位置播放输入音频文件的命令;识别多个预定片段当中的第一片段,使得开始播放位置在对应于第一片段的时间间隔内;分解输入音频文件的第一片段(首先待处理的片段,不必一定是输入音频文件的起始片段),以获得第一分解轨道的第一片段和可选的第二分解轨道的第一片段;优选地通过至少将第一音量电平的第一分解轨道的第一片段与第二音量电平的第二分解轨道的第一片段重组,基于第一分解轨道的第一片段生成输出数据的第一片段;从开始播放位置处开始播放输出数据的第一片段,该开始播放位置是晚于或等于输出数据的第一片段的时间间隔的开始的播放位置。为清楚起见,第一片段不必一定是音频文件的起始片段,而是包含期望开始播放位置的片段,因此在此过程中首先被分解。
50.注意,连续的片段是指被选择为使得某个片段的起始位置晚于所有在前的片段的起始位置的片段、尤其固定片段。
51.根据本实施例,输入音频文件的分解被再次分段执行。然而,待分解的第一片段的起点不必一定与用户选择的期望开始播放位置相同,因为人们可能认为这是限定片段的最时间有效的方式,由于它包含接下来待播放的数据,但是在划分步骤中设置了对整个输入音频文件的固定划分,使得在该输入音频文件的每个分解周期中,片段的起点和终点将保持固定。结果表明,这种技术大大减少甚至完全避免了分解轨道和输出数据中连续片段的相邻部分的任何声音伪影。如果在分解步骤中使用了ai系统,改进的一个原因可能是轨道中的特定音频位置的分解音频信号取决于ai系统在该轨道中的该特定音频位置之前和之后分析的数据,即在包含该特定位置并由ai系统分析的相应片段的起点和终点之间的音频数据。在整个输入音频文件中具有带固定起点和终点的预限定片段,确保通过对位于相同片段内的相同输入音频数据的分析始终获得相同的分解音频数据。例如,如果片段从位置15:00(秒:百分之一秒)处开始且具有5秒的播放时长,则开始播放位置15:30、17:50或18:00都基于相同的分解片段,其仅使用同一分解片段内的不同位置偏移。
52.在本发明的另一优选实施例中,混合输入数据是第一混合输入数据,其是通过至少将第一源轨道(例如第一人声轨道)与第二源轨道(例如第一器乐轨道或多个器乐轨道)混合而获得的总和信号,并且该方法进一步包括接收不同于所述第一混合输入数据的第二混合输入数据的步骤,所述第二混合输入数据是通过将至少一个第三源轨道(例如与第一人声轨道不同的第二人声轨道)和至少一个第四源轨道(例如不同于第一器乐轨道的第二器乐轨道)混合而获得的总和信号。此外,该方法可以包括:分解第二混合输入数据,以获得类似于至少一个第三源轨道的第三分解轨道,以及类似于至少一个第四源轨道的第四分解轨道,其中在读取来自用户的(例如,通过一个或多个控制元件接收的)控制输入的步骤中,所述控制输入表示第一分解轨道的第一音量电平、第二分解轨道的第二音量电平、第三分解轨道的第三音量电平以及第四分解轨道的第四音量电平的期望设置,并且其中在重组步骤中,通过将第一音量电平的第一分解轨道、第二音量电平的第二分解轨道、第三音量电平的第三分解轨道和第四音量电平的第四分解轨道重组来生成重组输出数据。
53.这样的实施例尤其可以用在dj环境中,并且可以在dj设备中实现,其中两个不同的混合输入数据,例如两个不同的音频文件(例如两首不同的歌曲),至少同时播放一定时间量。例如,在播放第一歌曲的过程中,开始播放第二歌曲,并降低第一歌曲的音量电平以有利于第二歌曲的音量电平,从而从第一歌曲平滑地融合到第二首歌。在上述实施例的方法中,第一混合输入数据和第二混合输入数据可以分别被分解为第一分解轨道和第二分解轨道,以及第三分解轨道和第四分解轨道,并且用户可以有机会以期望的音量电平单独重组分解轨道。如上所述,这样的特征尤其可以被dj用来在两首歌曲之间平滑地融合,同时避免不同歌曲的人声轨道同时可听到。此外,因为根据这样的实施例,可以将第一混合输入数据的分解轨道之一与第二混合输入数据的分解轨道之一组合,所以可以产生完全新颖的第一混合输入数据和第二混合输入数据的分量的总和信号或混搭/重混,因此可以实现令人惊讶的效果。例如,可以将第一混合输入数据的分解后的人声轨道与第二混合输入数据的分解后的器乐轨道重组,使得听众听到一首歌曲的歌手伴随另一首歌曲的器乐声。
54.优选地,混合输入数据和分解轨道中的至少一个或多个,最优选地全部是立体声数据,每个分别包括左声道信号部分和右声道信号部分。因此,该方法适于利用立体声音频的能力和声学效果。在其他实施例中,可以使用单声道数据和单声道轨道,或具有任何其他数量的声道的轨道(例如5.1或7.1环绕轨道或具有多个流的mp4)。
55.分解混合输入数据以获得至少一个分解轨道可以通过能够从混合输入数据中分离出至少一个分解轨道(尤其人声轨道)的任何算法、滤波、效果应用或其他处理来实现,该混合输入数据在声学上类似于或等于原始音频材料的一个或多个源轨道,该原始音频材料被早先缩混以获得混合输入数据。例如,分解可以包括:计算频谱,例如通过使用傅里叶变换算法;对频谱进行滤波,以提取属于混合输入数据的某个分量、尤其人声分量的频率;以及重新变换提取的频率,例如通过使用傅里叶逆变换,以获得第一分解轨道或第二分解轨道的音频数据。
56.在本发明所有方面的优选实施例中,分解混合输入数据包括通过ai系统(人工智能系统)处理混合输入数据,所述ai系统优选地基于至少一个深度神经网络,例如卷积神经网络(cnn),和/或经过多组训练音频数据训练。每组训练音频数据可以至少包括第一源轨道、例如人声轨道,混合轨道是通过至少将第一源轨道与第二源轨道、例如器乐轨道混合而获得的总和信号。
57.ai系统的使用允许对混合输入数据进行高质量的分解,从而分解结果非常类似于原始源轨道或少于所有原始源轨道的总和信号。例如,mos分数大于4.0和/或sdr分数大于5.0db的相似度可以通过使用ai系统来实现。可以通过从一个或多个唱片公司和/或音乐制作公司或一个或多个音乐发行/流媒体公司或它们之间的合作获得的音频数据来提供和训练ai系统。出于训练ai系统的目的,录音公司不仅可以提供某条录音的混合音频文件,还可以提供包含在混合轨道中的一个或多个训练源轨道,这些轨道是从制作过程的原始材料中获得的,即混合过程中使用的单个轨道的音频数据或少于所有轨道的总和的音频数据。在使用大量的训练音频数据集训练ai系统后,ai系统将能够从训练阶段之前未分析过的新混合轨道(新音频文件)生成分解轨道。例如,ai系统可以基于上述常规ai系统之一(例如spleeter、open-unmix、demucs)。
58.在本发明的实施例中,在装置的随机存取存储器(ram)中可以完全存储和操作至
少一个ai系统,优选为多个ai系统,从而减少分解混合输入数据所需的时间并甚至允许在现场情况下几乎无时延的操作,例如在dj装置中。
59.根据本发明的实施例,在分解混合输入数据的步骤中使用如上所述的ai系统,其中本发明在实施例中提出不仅提取第一分解轨道还提取第二分解轨道,使得用户可以单独操纵第一分解轨道和第二分解轨道的音量,并重组这两个分解轨道,以实现某种播放效果。优选地,第二分解轨道是第一分解轨道的补充,这意味着第一分解轨道和第二分解轨道的总和非常类似于混合输入数据的整个音频信号,除了第一分解轨道和第二分解轨道的修改后的音量电平以及由于分解步骤中的缺陷(例如源自至少一个第一源轨道但被人工智能系统错误地识别为源自至少一个第二源轨道的小信号分量,或者源自至少一个第二源轨道但被人工智能系统错误地识别为源自至少一个第一源轨道的小信号分量;分解步骤期间的例如傅立叶变换的计算过程可能会导致其他较小的缺陷)造成的一些偏差之外。
60.在本发明的优选实施例中,混合输入数据在第一ai系统和与第一ai系统分开的第二ai系统内同时处理,其中第一ai系统对混合输入数据进行处理以仅获得第一分解轨道,第二ai系统对混合输入数据进行处理以仅获得第二分解轨道。尤其,该方法优选地将混合输入数据作为第一混合输入数据处理,并且在与第一ai系统和第二ai系统分开的第三ai系统,以及与第一ai系统至第三ai系统中的每一个分开的第四ai系统内同时进一步处理第二混合输入数据,其中第三ai系统对第二混合输入数据进行处理以仅获得第三分解轨道,并且第四ai系统对第二混合输入数据进行处理以仅获得第四分解轨道。使用至少两个被布置为同时操作的分开的ai系统,使得可以并行计算、即同时计算至少第一分解轨道和第二分解轨道,从而可以大大提高处理速度,并且将有可能获得只有很小或甚至没有可识别的时间延迟的分解轨道。如果该方法处理第一混合输入数据和第二混合输入数据,从而使用四个分开的ai系统并行操作,可以快速分解两个分开的音频文件或其片段,而只有很小或甚至没有可识别的时间延迟。因此,这种方法适用于现场演出期间的现场表演,例如由dj进行的现场表演。
61.在本发明的另一实施例中,所述混合输入数据是基于周期性拍频结构(例如4/4拍号)的第一混合输入数据,并且该方法进一步包括:接收与第一混合输入数据不同且基于周期性拍频结构的第二混合输入数据,以及执行节奏节拍匹配处理和调匹配处理中的至少一种。尤其,节奏匹配处理可以包括:接收从第一混合输入数据获得的第一输入数据和从第二混合输入数据获得的第二输入数据;对第一输入数据和第二输入数据中的至少一个进行时间拉伸或重新采样;以及输出具有相互匹配节奏的第一输出数据和第二输出数据。节拍匹配处理可以包括:第一混合输入数据和第二混合输入数据之间的节拍对齐,即第一混合输入数据和第二混合输入数据中的至少一个的时间位置移位;以及输出具有相互匹配的节拍相位的第一输出数据和第二输出数据。进一步地,调匹配处理可以包括:接收从第一混合输入数据获得的第一输入数据和从第二混合输入数据获得的第二输入数据;对第一输入数据和第二输入音频数据中的至少一个进行音调移位;以及输出具有相互匹配的调的第一输出数据和第二输出数据。
62.在上述实施例中,从第一混合输入数据获得的第一输入数据可以是第一混合输入数据本身,或者是从第一混合输入数据获得的任何分解轨道(例如第一分解轨道或第二分解轨道),或者是第一重组输出数据(即通过分解和重组从第一混合输入数据中获得)。同样
地,从第二混合输入数据获得的第二输入数据可以是第二混合输入数据本身,或者是从第二混合输入数据获得的任何分解轨道(例如第三分解轨道或第四分解轨道),或者是第二重组输出数据(即通过分解和重组从第二混合输入数据中获得)。
63.应该注意的是,特别是如果在处理的早期阶段、即在分解步骤之前执行节奏和/或调匹配处理,第一输入数据可以是第一混合输入数据。替代地,如果在分解步骤之后执行节奏和/或调匹配和/或节拍匹配处理,第一输入数据可以是第一分解轨道。作为另一示例,第一输入数据可以是第一分解轨道的修改,例如通过将音频效果(例如延迟、混响、均衡器等)应用到第一分解轨道而获得的修改。这同样适用于第二输入数据,其可以是第二混合输入数据或第二分解轨道或其修改。
64.在上述实施例中,“相互匹配的节拍”是指第一输出数据和第二输出数据的节奏(按每分钟的节拍测量)相等或者是彼此的倍数,使得第一输出数据和第二输出数据的节拍可以相互同步。此外,“相互匹配的调”是指第一输出数据和第二输出数据的和声调相等或者处于小调与其平行的大调的关系(第一输出数据和第二输出数据之一的调是具有第一基调的小调,并且第一输出数据和第二输出数据中的另一个的调是具有比第一基调高三个半音的第二基调的大调)。
65.上述实施例中描述的节奏和/或调匹配处理将显著改进本发明的方法在dj现场表演中的应用,因为它使得两首歌曲可以平滑地融合,包括两首歌曲的器乐轨道和人声轨道之间的交叉渐变或交换两首歌曲的器乐轨道或人声轨道,即重组/重混两首歌曲的分解轨道,因为它使得两首歌曲或其部分(两首歌曲的分解轨道)可以同时(以相同或对应的节奏、节拍相位和调)被听到,而不会干扰音乐的流动。
66.根据本发明的第四方面,上述目的通过一种用于处理和播放音频信号的装置、优选为dj设备来实现,该装置包括:用于接收混合输入数据的音频输入单元,所述混合输入数据是通过将至少第一源轨道与至少第二源轨道混合而获得的总和信号;与音频输入单元连接的分解单元,用于分解混合输入数据以至少获得类似于第一源轨道的第一分解轨道;以及播放单元,用于基于第一分解轨道播放输出数据。
67.利用这样的装置,本发明第三方面的方法的上述优点可以通过合适装置来实现,该装置包含所有硬件和软件组件、音频输入和输出部件、以及接收和分解混合输入数据并播放输出数据所需的处理单元。
68.通常,本发明的装置可以被实施为dj设备,其包括电子控制单元(ecu)(例如计算机、优选为便携式计算机)以及合适的硬件接口和扬声器(例如,内置扬声器或连接ecu和pa系统的连接件)。播放单元可具有数模转换器,以将数字音频数据转换为模拟音频信号。输入单元可以具有解码单元,用于解码以诸如mp3或aac之类的不同音频格式编码的音频数据。
69.为了配置用于现场应用,例如如上所述的dj应用,该装置可以包括重组单元,用于至少将第一分解轨道与第二轨道重组以生成用于播放单元的输出数据。此外,该装置可以包括重构控制部分,该重构控制部分适于由用户控制以生成控制输入,该控制输入表示第一分解轨道的第一音量电平和第二轨道的第二音量电平的期望设置,其中重组单元被配置为至少将第一音量电平的第一分解轨道与第二音量电平的第二轨道重组以生成输出数据。重构控制部分可以通过显示在计算机屏幕上的用户界面控件来实现,或者可替代地通过单
独的硬件来实现,该硬件可以包括外壳、诸如可旋转旋钮或可移动滑块之类的控制元件、显示器、输入和输出端口等。
70.重构控制部分可以包括作为控制元件的开关,其仅允许输入有限数量的离散值,特别是仅具有两个开关位置(on/off、0/1、激活/停用)的开关,以便将第一分解轨道和第二分解轨道的第一音量电平和第二音量电平分别设置为高电平或on值、例如100%,或者分别设置为低电平或off值、例如0%。例如,可以有人声开关,以便在on和off之间切换分解人声轨道的音量电平,和/或,可以有器乐开关,以便在on和off之间切换分解器乐轨道的音量电平。开关可以被实施为按钮,例如设置在触摸屏显示器上。为了避免由于快速音量变化而造成的伪影,该装置可以包括自动衰减单元,该自动衰减单元根据开关的切换位置以有限的速率将音量电平连续地自动改变到期望值,所述自动衰减在用户操作开关时立即开始。
71.在本发明的实施例中,提供了一种装置,其中音频输入单元是用于接收第一混合输入数据的第一音频输入单元,该第一混合输入数据是通过将至少第一源轨道、例如第一人声轨道和至少第二源轨道、例如第一器乐轨道混合而获得的总和信号;其中分解单元是第一分解单元,用于分解第一混合输入数据以至少获得类似于第一源轨道的第一分解轨道和类似于第二源轨道的第二分解轨道,并且其中该装置进一步包括第二音频输入单元和与第二音频输入单元连接的第二分解单元,该第二音频输入单元用于接收与第一混合输入数据不同的第二混合输入数据,所述第二混合输入数据是通过至少将第三源轨道、例如不同于第一人声轨道的第二人声轨道和第四源轨道、例如不同于第一器乐轨道的第二器乐轨道混合而获得的总和信号,该第二分解单元用于分解第二混合输入数据以获得类似于第三源轨道的第三分解轨道和类似于第四源轨道的第四分解轨道,其中重构控制部分适于由用户控制以生成控制输入,该控制输入表示第一分解轨道的第一音量电平、第二分解轨道的第二音量电平、第三分解轨道的第三音量电平和第四分解轨道的第四音量电平的期望设置,并且其中重组单元适于通过将第一音量电平的第一分解轨道、第二音量电平的第二分解轨道、第三音量电平的第三分解轨道和第四音量电平的第四分解轨道重组来生成重组输出数据。
72.本实施例的装置准备用于创造性工作以在两首不同歌曲之间重组、平滑地融合或转变或产生歌曲的混搭来实现各种新效果。尤其,这种装置可以被实施为用于现场表演的dj设备。
73.在本发明的实施例中,优选的是,重构控制部分包括至少一个单重构控制元件,其可由用户在用于控制第一音量电平和第二音量电平的单一控制操作中进行操作,尤其用于将第一音量电平和第二音量电平之间的比率从至少小于1的值改变为至少大于1的值,或者从至少大于1的值改变为至少小于1的值。
74.在本发明的所有方面和实施例中,用于控制第一轨道的第一音量电平和第二轨道的第二音量电平的单重构控制元件或单控制元件优选地对应于可由用户在诸如单一控制动作(例如滑动动作、旋转动作等)或单一控制开关操作(例如触摸按钮等)之类的单一控制操作中操作的控制元件,以将第一音量电平和第二音量电平之间的比率从至少小于1的值改变为至少大于1的值,即从第一音量电平小于第二音量电平的第一比率改变为第一音量电平高于或等于第二音量电平的第二比率,或者将第一音量电平和第二音量电平之间的比率从至少大于1的值改变为至少小于1的值。至少在单个(重构)控制元件的控制范围的部分
中,由单个(重构)控制元件控制的音量改变可以同时执行,例如通过增加第二音量电平,同时降低第一音量电平。替代地,或者在单个(重构)控制元件的控制范围的其他部分中,可以顺序地执行由单个(重构)控制元件控制的音量改变。例如,在单个(重构)控制元件的控制范围上可以有其中第一音量电平增加或减小而第二音量电平保持恒定的第一子范围,以及其中第二音量电平增大或减小而第一音量电平保持恒定的第二子范围,其中第一子范围和第二子范围相互不重叠。
75.在优选实施例中,单个重构控制元件可以具有从第一端点延伸到第二端点的控制范围,在第一端点处第一音量电平具有最大值(例如约100%)而第二音量电平具有最小值(例如约0%),在第二端点处第一音量电平具有最小值(例如约0%)而第二音量电平具有最大值(例如约100%)。更优选地,在控制范围的中间区域中,第一音量电平和第二音量电平都具有最大值(例如约100%)。在中间区域和每个端点之间,第一音量电平和第二音量电平可以保持基本恒定,或者可以分别以线性或非线性方式增加或减小。
76.这使用户可以在例如触摸按钮或开关(通过对可旋转控制旋钮的单一连续旋转或对单个推子的单一连续滑动动作)的单一控制操作中在第一分解轨道和第二分解轨道之间渐变或切换,以进行从第一混合输入数据到第二混合输入数据(例如从第一歌曲到第二歌曲)的平滑线性转变,或者从第二混合输入数据到第一混合输入数据的平滑线性转变。尤其,用户可以只用一只手甚至只用一根手指操纵两个音量电平的不同分解轨道,从而提高了系统的现场表演能力。这意味着,例如,一只手可用于操作分解/重组控件,而另一只手可用于交叉推子或另一首歌曲的分解/重组控件。
77.在上述实施例的修改中,该装置还可以包括交换控制元件,该交换控制元件在用户操作时控制重组单元,以便减小第一音量电平和第二音量电平中的一个并同时增加第三音量电平和第四音量电平中的一个,和/或在用户操作时控制重组单元,以增加第一音量电平和第二音量电平中的一个并同时减小第三音量电平和第四音量电平中的一个。请注意,“减小”可以包括将音量电平静音或将音量电平设置为0%,而“增加”可以包括将音量电平设置为满量程或100%。
78.例如,如果从第一混合输入数据获得的第一分解轨道是第一歌曲的人声轨道,并且从第二混合输入数据中获得的第三分解轨道是第二歌曲的人声轨道,则上述交换控制元件可以由用户激活,以便控制重组单元将当前包含在重组输出数据中的人声轨道的音量从on切换到off,并将当前未包含在重组输出数据中的另一人声轨道的音量从off切换到on,换言之,反向切换两个人声轨道的on-off设置。作为另一个示例,如果从第一混合输入数据获得的第二分解轨道是第一歌曲的器乐轨道,并且从第二混合输入数据获得的第四分解轨道是第二歌曲的器乐轨道,则上述交换控制元件可以由用户激活,以便控制重组单元将当前包含在重组输出数据中的器乐轨道的音量从on切换到off,并将当前未包含在重组输出数据中的另一器乐轨道的音量从off切换到on,换言之,反向切换两个器乐轨道的on-off设置。这种交换控制元件的操作优选被应用于如下情况:来自第一混合输入数据的分解轨道具有与来自第二混合输入数据的分解轨道不同的on-off设置。
79.在本发明的另一实施例中,提供了一种上述类型的装置,其中重构控制部分包括:第一单重构控制元件,其可由用户在单一控制操作中操作以便控制第一音量电平和第二音量电平,尤其将第一音量电平和第二音量电平之间的比率从至少小于1的值改变为至少大
于1的值,或者从至少大于1的值改变为至少小于1的值;以及单重组控制元件,其可由用户在单一控制操作中操作以便控制第一总和信号的音量电平和第二总和信号的音量电平,尤其将第一总和信号的音量电平和第二总和信号的音量电平之间的比率从至少小于1的值改变为至少大于1的值,或者从至少大于1的值改变为至少小于1的值,第一总和信号是第一音量电平的第一分解轨道和第二音量电平的第二分解轨道的总和,第二总和信号是第三音量电平的第三分解轨道和第四音量电平的第四分解轨道的总和;并且该重构控制部分优选地包括第二单重构控制元件,其可由用户在单一控制操作中操作以便控制第三音量电平和第四音量电平,尤其将第三音量电平和第四音量电平之间的比率从至少小于1的值改变为至少大于1的值,或者从至少大于1的值改变为至少小于1的值。本实施例的装置的优点在于大大降低了控制的复杂性以进行快速和直观的操作,尤其是在现场演出期间由dj进行的操作。即使该装置接收到两个不同的混合输入数据,它们都被分解成至少两个分解轨道,从而产生了四个单独的轨道(优选为四个单独的立体声轨道,每个轨道都有左右声道,总共至少有八个声道),借助于第一单重构控制元件和第二单重构控制元件以及单重组控制元件,也可以通过控制元件的单一动作或单一连续操作,非常快速且直观地进行轨道之间的切换、交换和渐变。
80.在本发明的另一实施例中,提供了一种装置,该装置进一步包括输入音频文件缓冲器、与分解单元连接的第一片段缓冲器、以及可选的与分解单元连接的第二片段缓冲器,该输入音频文件缓冲器用于在其中加载具有预定文件大小和预定播放时长的输入音频文件的片段,该输入音频文件包含播放混合输入数据的音频数据,该第一片段缓冲器用于接收和存储从输入音频文件的片段获得的第一分解轨道的片段,该第二片段缓冲器用于接收和存储从输入音频文件的同一片段获得的第二分解轨道的片段,其中播放单元包括音频接口,该音频接口具有模数转换器以从输出数据生成模拟音频信号,所述音频接口具有用于对播放的输出数据的部分进行缓冲的音频缓冲器,其中第一片段缓冲器和/或第二片段缓冲器的大小大于音频接口的音频缓冲器的大小,但小于(解码的)输入音频文件的整个音频数据。根据本实施例,设置单独的缓冲器来存储准备重组和/或播放的分解轨道的片段(不是同时存储所有片段,而是仅存储一个或几个片段),这与整个输入音频文件在播放前被分解并完全存储在单独的缓冲器中的情况相比,提高了处理速度并减少了内存占用。换言之,每个片段缓冲器的大小小于整个(解码的)输入音频文件数据的大小。另一方面,第一片段缓冲器和第二片段缓冲器的大小均大于音频接口的音频缓冲器,这保证了音频接口的音频缓冲器可以总是及时地被片段缓冲器的内容重新填充,从而可以产生和播放连续的输出信号,而不会出现任何音频丢失或可识别的时间滞后。因此,本实施例还有助于该装置的现场能力。
81.优选地,音频接口的音频缓冲器具有固定的标准大小以存储2n帧/样本的音频数据(n为自然数,优选在6到12之间),例如512个音频帧,在44.1khz的采样率下其对应于大约11毫秒的播放时长。相反,片段缓冲器的大小优选为更大,以便存储播放时长大于1秒的片段。
82.在本发明的又一实施例中,该装置还可以包括显示装置,用于显示表示第一分解轨道的第一波形和表示第二分解轨道的第二波形,其中第一波形和第二波形使用单条基线以叠加方式显示,而第一波形和第二波形使用不同的信号轴和/或不同的绘制样式显示,以
便在视觉上可相互区分开。这使用户可以在视觉上监视、优选为实时监视分解结果,并适应用于重组分解轨道的控制。尤其,它使用户可以在接下来的几秒钟内看到一些未来要播放的音频数据,并及时适应控制,例如在从第一歌曲到第二歌曲的转变期间,在第一歌曲的人声开始之前快速淡出第一歌曲的人声轨道。通过对两个分解波形仅使用单条基线(信号值空线,即沿时间轴运行的线)并选择不同的绘制样式或信号轴,用户将更快地将音频数据的内容识别为同一混合输入数据的分量,从而用户可以更快地收集控制重组单元所需的信息,或者可以更精确地在视觉上提示歌曲的特定部分,例如在合唱的开头开始时的发声。
83.根据本发明的第五方面,提供了一种用于显示音频数据的方法,所述音频数据至少包括作为联合音频混合的分量的第一轨道和第二轨道,所述方法包括显示表示第一轨道的第一波形和表示第二轨道的第二波形,其中第一波形和第二波形使用单条基线以叠加方式显示,而这些波形使用不同的信号轴和/或不同的绘制样式显示,以便在视觉上可相互区分开。根据本发明第五方面的波形的这种叠加表示包含关于音频内容、尤其是音乐的更好的语义信息,因此与人类如何感知音频/音乐更相似,而与每首歌曲或每个混合输入数据的单个波形中的常规波形表示以及仅近似或组合或全局频率相关着截然相反。
84.在本公开中,使用单条基线以叠加方式显示是指这样的轨道显示,这些轨道被绘制成使得它们的基线显示在图形显示的坐标系上的相同位置处。因此,以叠加方式显示与以堆叠方式显示轨道形成对比,在堆叠方式中时间轴或基线在彼此之上平行绘制。
85.在本公开的上下文中,(联合)音频混合的分量尤其是通过分解处理(例如语音/器乐分离等)从混合输入信号中获得的分解轨道,例如在本发明的第一和第三方面的方法中所用的分解轨道。此外,(联合)音频混合的分量可以单独获得,即与音频混合分开,例如作为在音频混合的产生期间、即在源轨道被缩混以获得音频混合之前从单个源轨道或源轨道的子组产生的所谓的主干。例如,这些主干可通过一些唱片公司获得。在任何情况下,在本公开中,联合音频混合的分量属于同一音频混合。例如,如果混合歌曲包含人声轨道和器乐轨道,那么人声轨道之一和器乐轨道之一都是联合音频混合(即联合歌曲)的分量。
86.如果第一轨道和第二轨道中的一个是人声轨道而第一轨道和第二轨道中的另一个是器乐轨道,则本发明的第五方面的这些优点对于dj工作尤其重要。尤其,在两首歌曲的融合或交叉渐变时,dj一般需要特别注意歌曲的人声部分,需要避免不同歌曲的人声冲突,而两首歌曲的器乐部分的组合通常用作有利于表演的创造性效果,或者至少对于融合/交叉渐变来说是可以接受的,前提是它们具有匹配的节奏、节拍和调。
87.在本公开中(即在本发明的所有方面和实施例中),使用不同的绘制样式可能意味着使用不同的颜、线条样式、阴影等。优选地,第一波形使用主要或专门在相对于基线的正区域中绘制第一波形的信号部分的第一绘制样式来显示,而第二波形使用主要或专门在相对于同一基线的负区域中绘制第二波形的信号部分的第二绘制样式来显示。例如,第一波形可以使用主要或专门绘制第一轨道的正信号部分的第一绘制样式来显示,而第二波形可以使用主要或专门绘制第二轨道的负信号部分的第二绘制样式来显示。在替代实施例中,第一波形和第二波形可以使用第一绘制样式和第二绘制样式显示,第一绘制样式和第二绘制样式都主要或专门绘制正信号部分,或者都主要或专门绘制负信号部分,其中第一波形可以使用第一信号轴来显示,而第二波形可以使用与第一信号轴相反的第二信号轴来显示。在两个替代实施例中,两个波形因此似乎在公共基线处镜像,其中一个波形主要或专
门在相对于基线的一个方向上延伸,而另一波形主要或专门在相对于基线的另一方向上延伸。这使用户可以清楚地区分这些波形,同时仍将两个波形保持在同一基线上以实现快速感知。实施例都利用了这个发现,即用户可以通过仅查看波形的一部分、尤其是仅查看波形的正半部分或仅负半部分来获得关于音频数据的足够信息。作为进一步的替代方案,可以仅将两个波形中的一个绘制为半波形(仅正信号部分或仅负信号部分,或者使用沿正方向或负方向绘制的信号部分的绝对值),而这两个波形中的另一个用正负信号部分和负信号部分两者来绘制。
88.除了显示不同信号轴和/或不同绘制样式的波形外,在本发明的各个方面和实施例中,还可以通过在预定时间间隔内用取决于预定时间间隔内相应轨道的频率信息的颜渲染波形来显示第一波形和/或第二波形,所述频率信息优选指示预定时间间隔内音频数据的主频率,其优选为通过对从预定时间间隔内相应轨道的音频数据中导出的音频信号的频率分析而获得的。以这种方式,用户可能进一步能够识别出现在轨道的某些位置处的主频率,这可以指示某些乐器(例如贝司、底鼓、钹、吉他等)的存在,因此,可以进一步提高音频内容的可视化和感知速度,从而使实现这种方法的装置可以进行更快和更直观的操作。在us 6,184,898b1中公开了波形的频率相关着的示例。如果将根据上述实施例的频率相关着应用于分解轨道、尤其分解器乐轨道,则从频率分析中排除人声分量,这使得可以获得音频信号的更好(彩)视觉表示,正如耳朵所感知的那样。另一方面,如果通过分析分解后的人声轨道对人声频谱单独进行频率分析,则对于人声轨道,频率分析的结果也将得到改善,因此也改善正确着。
89.特别地,优选的是,将本发明第五方面的方法与本发明第一或第三方面的方法结合使用或在本发明的第二或第四方面的装置内使用,例如,以便以叠加的方式显示分解轨道,例如分解后的人声轨道和分解后的器乐轨道。
90.另外,根据本发明的第六方面,可以提供一种用于表示音频数据的装置、例如计算机的显示装置,所述音频数据至少包括适于以混合方式播放的第一轨道和第二轨道,所述装置包括生成表示第一轨道的第一波形的第一波形发生器,生成表示第二轨道的第二波形的第二波形发生器,以及生成叠加波形的叠加波形发生器,该叠加波形使用单条基线以叠加方式显示第一波形和第二波形,其中波形由叠加波形发生器使用不同的信号轴和/或不同的绘制样式叠加,以便在视觉上可相互区分开。
91.在本发明第五方面的另一实施例中,该方法还可以包括以下步骤:接收混合输入数据,所述混合输入数据是通过将至少一个第一源轨道与至少一个第二源轨道混合而获得的总和信号;分解混合输入数据,以至少获得类似于至少一个第一源轨道的第一分解轨道,以及类似于至少一个第二源轨道的第二分解轨道;读取来自用户的控制输入,所述控制输入表示第一分解轨道的第一音量电平和第二分解轨道的第二音量电平的期望设置;显示表示第一分解轨道的第一波形并显示表示第二分解轨道的第二波形,其中第一波形和第二波形使用单条基线以叠加方式显示,并且其中波形使用不同的信号轴和/或不同的绘制样式显示,以便在视觉上可相互区分开,其中第一波形以根据第一音量电平缩放其信号轴或修改其外观(例如颜或不透明度)的方式显示,并且其中第二波形以根据第二音量电平缩放其信号轴或修改其外观(例如颜或不透明度)的方式显示。这样的实施例使来自用户的通过控制输入接收的音量设置或重构设置可以在叠加波形表示中直接可视化。因此,用户可
以直接在显示器上看到音量调整,同时还可以看到分解轨道的振幅值。
92.优选地,在上述实施例中,第一波形和第二波形以基于不超过2秒、优选地不超过100毫秒、更优选地不超过35毫秒的时间段内的第一音量电平和第二音量电平的当前值缩放其信号轴或者修改其外观(例如颜或不透明度)的方式显示。如果时间段小于2秒,则该方法可用于现场表演,因为它使用户(例如dj)可以直观地验证或监视轨道的重组。如果时间段小于100毫秒,则实际上可以实时地可视化诸如音量电平之类的控制设置,从而在更改设置时给用户一种直接反馈的感觉。而且,如果时间段小于35毫秒,即小于普通显示器的帧的时间段(例如每秒30帧的帧率),则用户甚至根本不会意识到在控制元件的操纵和叠加波形内的音量电平的可视化之间存在任何时间延迟。
93.根据本发明的第六方面,提供了一种用于处理和播放音频数据的装置、优选为dj设备,该装置包括:处理单元,用于处理至少第一轨道和第二轨道的音频数据;控制部分,适于由用户控制以生成表示第一轨道的第一音量电平和第二轨道的第二音量电平的期望设置的控制输入;重组/混合单元,被配置为将第一音量电平的第一轨道与第二音量电平的第二轨道重组以生成输出数据;可视化单元,被配置为生成波形数据,用于基于第一轨道、第二轨道和控制输入可视化至少一个波形;播放单元,用于播放输出数据;以及可选的显示单元,用于显示波形数据。本发明第六方面的装置向用户提供关于当前播放的音频数据的视觉反馈,其包括在当前播放位置之前和之后的一定时间间隔内播放或将要播放的音频数据,其中可视化包括关于用户通过控制部分当前设置的第一音量电平和/或第二音量电平的直接和瞬时信息。例如,dj然后能够直接在控制部分处看到他/她的当前输入,并且除了播放单元输出的听觉信息之外,还将获得关于他/她的工作的视觉信息。
94.优选地,可视化单元被配置为基于第一轨道生成第一波形,和/或基于第二轨道生成第二波形,其中根据第一音量电平设置第一波形的信号轴的缩放或第一波形的绘制样式,其中根据第二音量电平设置第二波形的信号轴的缩放或第二波形的绘制样式。波形可以被可视化和显示为单独的波形,例如在平行基线a上,或者它们可以使用单条基线以叠加方式绘制,优选地用不同的信号轴和/或不同的绘制样式绘制,以便从视觉上可相互区分开,如后所述。
95.在第六方面的装置的另一实施例中,可视化单元可以被配置为计算组合轨道并生成波形数据,以便可视化组合轨道的波形,该组合轨道表示至少第一音量电平的第一轨道和第二音量电平的第二轨道的组合。这导致显示表示从重组/混合单元获得的输出数据的波形,即包括通过用户的控制输入影响到的对波形的影响。
96.优选地,第一轨道和第二轨道中的至少一个是通过尤其在该装置内的分解混合音频信号而获得的分解轨道,或者是从外部提供并输入到该装置中的音频混合的分量。更尤其,第二、第四和第六方面中任一个的装置可以适于执行本发明的第一、第三和第五方面中任一个的方法,和/或可以是根据本发明的第二、第四和第六方面中其他任一个的装置,其中第一轨道优选为第一分解轨道,和/或第二轨道优选为第二分解轨道,并且控制部分优选为重构控制部分。
附图说明
97.现在将基于附图中所示的具体示例进一步描述本发明。
98.图1示出了根据本发明第一实施例的用于处理和播放音频信号的装置的组件示意图。
99.图2示出了根据第一实施例的装置中的元件和信号流的功能图。
100.图3示出了图示第一实施例的装置中的信号流的另一功能图。
101.图4至图10示出了各自作为第一实施例的变型的本发明的第二实施例至第八实施例。
102.图11示出了图示适用于本发明第八实施例的装置的交换过程的图。
103.图12和图13示出了根据本发明实施例的波形的图形表示。
104.图14示出了根据本发明第九实施例的音频播放器。
105.图15和图16示出了各自作为第一实施例的变型的本发明的第十实施例和第十一实施例。
106.图17和图18示出了作为前述实施例的变型的本发明的第十二实施例。
具体实施方式
107.参照图1,本发明的第一实施例是装置10、优选为dj装置。装置10包括输入部分12,该输入部分12能够加载诸如第一歌曲a之类的第一输入音频文件a和诸如第二歌曲b之类的第二输入音频文件b。输入音频文件a、b都可以包含常见音频文件格式(例如mp3、wav或aiff)的音频数据,并且它们具有固定的文件大小和播放时长(尤其歌曲长度,以秒为单位),如常规地已知的输入到dj设备或其他播放装置中的那样。音频文件a和b可以通过互联网或其他网络连接从远程服务器提供、下载或流式传输,或者可以由本地计算机或集成在装置10本身中的存储装置提供。输入部分12可以包括合适的用户界面部件,其使用户可以选择多个可用音频文件之一作为输入音频文件a,并且选择多个音频文件中的另一个作为输入音频文件b。
108.装置10进一步包括处理部分14,其优选地包括ram存储器16、rom存储器18、持久存储器19(例如硬盘驱动器或闪存驱动器)、微处理器20和至少一个人工智能系统22,例如与微处理器20连接的第一ai系统至第四ai系统22-1、......、22-4。处理部分14与输入部分12连接以接收音频文件a和b的音频数据。
109.装置10进一步包括重构控制部分24,其包括至少一个重构控制元件26,例如第一控制元件26-1、第二重构控制元件26-2和混合控制元件28。重构控制部分24可以进一步包括第一播放控制元件30-1和第二播放控制元件30-2,其分别用于开始或停止源自第一混合输入数据或第二混合输入数据的音频信号的播放。
110.另外,装置10可以包括与重构控制部分24连接的重组单元32,用于基于控制元件的设置重组音频数据。可以通过将音频数据的不同声道与基于控制元件的设置的标量值相乘,然后将这些声道逐个样本地相加来执行重组。此外,优选地,具有数模转换器的音频接口34(例如声卡)与重组单元32连接,以接收重组输出数据并将数字重组的数据输出转换为模拟音频信号。模拟音频信号可以在音频输出36处提供,该音频输出36可以具有常规的音频连接器的特征以连接音频电缆,例如线路连接器或xlr连接器或无线输出(例如蓝牙),从而使音频输出36可以连接到pa系统或扬声器或耳机等(未图示)。pa系统可以包括连接到扬声器以输出音频信号的放大器。作为替代方案,装置的内部扬声器、诸如平板电脑扬声器或
计算机扬声器或耳机可用于输出模拟音频信号。
111.以上关于第一实施例描述的一些或所有组件和特征可以由电子控制单元(ecu)提供,该电子控制单元例如为计算机、尤其运行软件应用的平板计算机35,该软件应用被编程为操作ecu以允许如上文关于图1所述的那样输入、分解、重组和输出音频数据,并且例如通过显示重构控制部分24的控制元件的触摸屏37接收来自用户的控制输入。
112.下面参照图2解释装置10内的内部组件和信号流的进一步细节。在输入部分12内,如上所述获得第一输入音频文件a和第二输入音频文件b。输入音频文件a、b然后被传输到处理部分14,该处理部分14至少包含第一分解单元38和第二分解单元40。第一分解单元38包括第一分割单元42和至少一个ai系统,其优选为第一ai系统44-1和第二ai系统44-2。第二分解单元40同样可以包括第二分割单元46和至少一个ai系统,其优选为第三ai系统44-3和第四ai系统44-4。
113.第一分解单元38的第一分割单元42接收第一输入音频文件a,并适于将音频文件划分成多个连续片段。优选地,完整的输入音频文件a被划分为与可从音频文件播放的音频信号中的时间间隔相对应的片段。优选地,起始片段被限定为使得起始片段的起点对应于时间尺度上的音频文件的开头(播放位置0:00),并且起始片段的终点对应于音频文件开头的第一时间间隔的结尾。然后由相同长度的连续时间间隔限定第二片段和随后的每个片段,使得时间间隔的起点从一个时间间隔到下一个时间间隔增加。
114.更尤其,将音频文件视为模拟音频信号的数字表示,该模拟音频信号以由每秒样本数给出的预定采样率fs进行采样。例如,可以在记录期间通过诸如音频接口之类的模数转换器进行采样。在数字生成的音频数据(例如来自数字合成器、鼓计算机等)的情况下,样本和尤其每个样本所表示的音频数据是计算机生成的值。每个样本表示采样周期t内的信号值(例如测量的平均值),其中fs=1/t。例如,对于音频文件,fs可能是44.1khz或48khz。一个样本也称为一帧。现在,在本实施例中,第一片段的起始帧可以恰好是音频文件中音频数据在时间位置0处的第一帧,第二片段的起始帧可以是紧接第一片段的结束帧之后的帧,第三片段的起始帧可以是紧接第二片段的结束帧之后的帧,依此类推。除了最后一片段,这些片段可以相对于其可播放音频信号的时间尺度都具有相同的大小,或者可以具有相同数量的帧,最后一片段可以具有由(解码的)音频文件的终点或最后一帧或可播放音频信号在时间尺度上的终点限定的终点。
115.事实上,在本发明的方法和装置中,优选地,处理和尤其分解基于由输入音频文件的帧精确限定和/或与输入音频文件的帧对应的片段来执行,从而确保轨道内、尤其在重组或播放期间在分解轨道内的帧精确定位,以及将混合输入信号中的音频位置直接转换为分解轨道中的音频位置。因此,以这种方式获得的分解轨道可以具有与混合输入轨道完全相同的时间尺度,并且可以被进一步处理,例如通过应用效果、重新采样、时间拉伸和搜索,例如用于节奏和节拍匹配,而在时间尺度上没有移位或精度损失。优选地,分解片段包含与对应于该片段的原始输入音频数据完全相同数量的帧。
116.优选地,选择片段的大小使得对应的时间间隔的长度小于60秒且大于1秒。这确保了输入音频文件的充分分割,以实现从任何给定位置开始播放所需的处理的显著加速。更优选地,片段具有与具有在5秒和20秒之间的长度的时间间隔相对应的大小。一方面,这确保了ai系统44有足够的音频数据来获得令人满意的分解结果,并将要在一个片段中分解的
音频数据减少到足够小的值,以实现分解的音频数据几乎立即可用,从而使该装置可以在现场表演情况下应用。
117.在第一分割单元42的输出中,输入音频文件a的片段被提供以被传输到至少一个ai系统44。优选地,该片段被翻倍或复制以被传输到第一ai系统44-1并且被同时即并行传输到第二ai系统44-2。因此,可以在第一ai系统44-1以及第二ai系统44-2中同时处理输入音频文件a的同一片段。
118.在本发明的实施例中使用的每个ai系统都可以是如本公开中上文所述的训练的人工神经网络(训练的ann)。尤其,可以使用pr
é
tet等人描述的训练的ann,其能够从混合音频数据中提取表示人声轨道或歌声轨道的第一分解轨道。尤其,ai系统44可以计算音频数据(即包含在输入音频文件的片段中的音频数据)的傅里叶变换,以便获得包含在音频数据中的频率的频谱,其中然后将频谱引入卷积神经网络,该卷积神经网络对被识别为属于某个源轨道或某些源轨道之和的频谱部分、例如属于混音的人声部分进行滤波。然后将滤波后的频谱重新变换为波形信号或音频信号,当播放时,该波形信号或音频信号仅包含原始音频信号的滤波部分,例如人声部分。
119.为了能够进行这种滤波分析,可以使用诸如pr
é
tet等人描述的例如ann的ai系统,该ai系统是由包含大量专业录制或制作的不同流派(例如嘻哈、流行、摇滚、乡村、电子舞曲等)的歌曲的数据集训练的,其中所述数据集不仅包括歌曲成品,而且包括相应的人声轨道和器乐轨道作为单独的录音。
120.存储在第一实施例的装置10的第一分解单元38内(优选地在其ram存储器内,特别是计算机35的内部ram内)的可以是上述类型的ai系统(不同或相同的ai系统)的两个分开的且经过充分训练的实例,从而可同时操作且彼此独立以分别生成第一分解轨道和第二分解轨道。优选地,第一分解轨道和第二分解轨道是互补的,这意味着当以正常的音量电平(即每个都为100%)重组时,第一分解轨道和第二分解轨道的总和类似于原始混合输入数据。例如,第一分解轨道可以类似于混合输入数据的完整人声部分,而第二分解轨道可以类似于混合输入数据的完整剩余部分、尤其所有器乐轨道的总和,使得以适当的音量电平重组两个分解轨道会产生这样的音频信号,就其声学感知而言,它与原始混合输入数据非常类似,甚至无法区分开。
121.优选地,第一分解轨道和/或第二分解轨道各自是分别包含左声道信号部分和右声道信号部分的立体声轨道。替代地,它们可以各自或都是单声道轨道或具有多于两个声道的多声道轨道(例如5.1环绕轨道)。
122.第二分解单元40可以以与第一合成单元38类似或对应的方式配置,因此包括第二分割单元46,其将第二输入音频文件b划分成多个固定起点和终点的片段,将这些片段连续传输到第三ai系统和第四ai系统进行并行处理和分解,以获得第三分解轨道和第四分解轨道(每个轨道可以是单声道轨道、立体声轨道或具有多于两个声道的多声道轨道(例如5.1环绕轨道))。
123.然后,来自第一分解单元38和第二分解单元40的分解轨道被传输到重组单元32,重组单元32被配置为以指定的、可控的音量电平重组至少两个分解轨道,并生成重组输出数据。分解轨道的音量电平可以由用户通过至少一个控制元件来控制。例如,可以设置第一控制元件26-1,其使用户可以控制第一分解轨道的第一音量电平和第二分解轨道的第二音
量电平之间的比率,而替代地或另外,可以设置第二控制元件26-2,其使用户可以控制第三分解轨道的第三音量电平和第四分解轨道的第四音量电平之间的比率。
124.在重组单元32中,第一分解轨道和第二分解轨道然后在第一重组级32-1中基于由第一控制元件26-1设置的音量电平彼此重组,以从第一输入音频文件a获得重组a'。此外,第三分解轨道和第四分解轨道可以在重组单元32的第二重组级32-2中根据第二控制元件26-2设置的第三音量电平和第四音量电平进行重组,以从第二输入音频文件b获得第二重组b'。此外,可以将重组a'和重组b'引入混合级48,该混合级48根据可由用户控制的混合控制元件28的设置来混合第一重组a'和第二重组b'。混合控制元件28可以适于控制第一重组a'和第二重组b'的音量电平之间的比率。
125.由重组单元32生成的重组输出数据然后被传输到播放单元,该播放单元可以包括连接到音频输出36的音频接口34。
126.如图2所示,作为第一分解单元38输出的第一分解轨道和第二分解轨道可以被输入到第一可视化单元49-1中。另外,作为第二分解单元40输出的第三分解轨道和第四分解轨道可以被输入到第二可视化单元49-2中。而且,例如,第一可视化单元49-1和/或第二可视化单元49-2可以连接到重组单元32,以获得关于控制元件26-1、26-2的当前设置的信息。第一可视化单元49-1和/或第二可视化单元49-2优选地被配置为分别显示重组a'和重组b'的叠加波形,这将在稍后更详细地解释。
127.关于图3,进一步图示了本发明第一实施例的装置10内对音频数据的处理,图3仅示出了对第一输入音频文件a的处理作为示例,其可以相同的方式应用于第二输入音频文件b或任何其他额外的输入音频文件的处理。由图3可知,在处理部分14中的分解处理之后,第一分解轨道和第二分解轨道的片段被存储在音频缓冲器(例如环形缓冲器)中,用于立即进一步处理并且尤其用于播放,优选用于实时播放。音频缓冲器有多个数据数组,以便存储来自第一分解轨道的当前片段的音频数据以及来自第二分解轨道的当前片段的音频数据,每个都有给定数量的声道(单声道、立体声、环绕声等)。例如,如果两个分解轨道都表示立体声信号,则可以使用四数组缓冲器以便分别存储第一分解轨道片段和第二分解轨道片段的左声道部分和右声道部分。
128.缓冲器的输出可以与重组单元32连接,重组单元32根据第一控制元件26-1的设置生成重组轨道。
129.如果装置10包括一个或多个音频效果链以将诸如延迟效果、混响效果、均衡器效果、调或节奏改变效果之类的音频效果应用于信号(例如诸如dj设备常规地已知的那样,通过音调移位、重新采样和/或时间拉伸等来实现),则这样的效果链可以插入到信号流中的不同位置。例如,由缓冲器输出的分解轨道(片段)可以分别通过音频效果链51-1和51-2路由,以便根据需要将效果单独应用于相应的分解轨道。然后可以将音频效果链51-1、51-2的输出连接到重组单元32。另外或作为替代方案,效果链51-3可以被布置在相对于信号流的这样的位置处:在该位置,第一分解轨道和第二分解轨道根据由第一控制元件26-1设置的第一音量电平和第二音量电平重组、尤其在重组单元32之后或在重组单元32的第一重组级32-1之后的位置处。这种布置的优点是在重组过程中待提交给音频效果链51-3的声道数量减少到第一重组级之前声道数量的至少一半并且尤其与第一混合输入数据的声道数(一个声道用于单声道信号,两个声道用于立体声信号,超过两个声道用于诸如环绕声信号之类
的其他格式)相等。因此,与常规的对混合输入数据的处理相比,本实施例的分解单元的附加功能不会带来音频效果链51-3的任何增加的复杂性或性能过载。甚至可以使用与常规dj设备相同的音频效果链。
130.下面参照图4至图10解释第二实施例至第八实施例。每个实施例是上文关于图1至图3描述的第一实施例的变型,并且,除非下文中另有说明,否则上文针对第一实施例描述的所有特征和功能优选地以相同的对应方式被包括在第二实施例至第八实施例中的每一个中。这些相同或对应的特征或功能将不再赘述。
131.在图4所示的第二实施例中,第一dj卡座50a和第二dj卡座50b显示在显示器上、尤其使用户可以通过与物理dj卡座的操作相对应的手势或动作来操作它们的触摸显示器。第二实施例可以尤其有利于使用户、尤其dj可以在现场表演期间执行刮擦效果或跳到歌曲中的不同时间位置。
132.作为第二实施例的可以独立于(另外或替代地)dj卡座50a、50b而设置的进一步特征,第一控制元件26-1,以及优选的第二控制元件26-2,可以被实施为滑块,其或者是可由用户机械地移动的硬件滑块,或者是呈现在触摸屏或计算机屏幕上的虚拟滑块,该虚拟滑块可通过触摸手势或指针、计算机鼠标或任何其他用户输入移动。第一控制元件26-1的滑块使第一分解轨道的第一音量电平和第二分解轨道的第二音量电平之间的比率可以在从第一音量电平设置为100%且第二音量电平设置为0%的一个末端位置到第一音量电平设置为0%且第二音量电平设置为100%的另一个末端位置的范围内连续变化。在末端位置之间,当沿一个方向移动滑块时,第一音量电平和第二音量电平中的一个增加,而第一音量电平和第二音量电平中的另一个以相同的比例减小。
133.作为优选的默认设置,在控制元件26-1的中心位置处,第一音量电平和第二音量电平都设置为满/正常音量=100%,即该重组对应于原始的第一混合输入数据。如果需要,用户可以配置音量调节曲线。默认情况下,音量电平可以按如下方式计算:第一音量电平=min(1.0,滑动条数值(slidervalue)*2.0),第二音量电平=min(1.0,(1.0-滑动条数值)*2.0),其中“min(值1,值2)”表示值1和值2的最小值,“滑动条数值(slidervalue)”表示控制元件26-1从0(左端值)到1.0(右端值)的设置。当沿另一个方向移动滑块时,音量电平的增加和减少反向。因此,用户将能够通过仅用一只手或甚至仅用一根手指的单一连续动作,在第一分解轨道和第二分解轨道之间平滑地交叉渐变或调整两个分解轨道之间的期望重组。优选地,第二控制元件26-2可以与第一控制元件26-1相同的方式操作,以分别控制第三分解轨道和第四分解轨道的第三音量电平和第四音量电平。
134.优选地,混合控制元件28也被实现为滑块,并且可以定位在第一控制元件26-1和第二控制元件26-2之间,以便对该装置进行直观操作。如第一实施例中一样,混合控制元件28可以是交叉推子,和/或可以适于控制第一重组a'和第二重组b'的音量电平之间的比率,其中重组a'是通过将第一分解轨道和第二分解轨道重组而获得的,而重组b'是通过将第三分解轨道和第四分解轨道重组而获得的。
135.装置10还可以被配置为显示第一波形部分52-1,其中显示了表示第一分解轨道和第二分解轨道或它们的重组的波形。第一分解轨道和第二分解轨道可以以叠加方式可视化,以便共享公共的基线/时间轴,但是使用不同的信号轴和/或不同的绘制样式,以便在视
觉上可相互区分开。在图4所示的示例中,第一波形部分52-1显示第一波形和第二波形的放大版本53-1,其中第一波形和第二波形使用按比例缩放的公共的基线以叠加方式显示,以便查看包含当前播放位置的时间间隔,该时间间隔优选地具有1秒到60秒之间的大小,更优选地具有3秒到10秒之间的大小。放大版本53-1可以随着播放滚动以保持当前播放位置可见、尤其在显示器上的固定位置处。另外或替代地,第一波形部分52-1可以显示第一波形和第二波形的缩小版本55-1,其中第一波形和第二波形使用按比例缩放的公共的基线以叠加方式显示,以便查看包含当前播放位置的时间间隔,该时间间隔优选地具有与输入音频文件的长度相对应的大小,例如整个歌曲a和/或60秒到20分钟之间的大小。优选地,缩小版本55-1相对于时间轴不移动,而是显示表示当前播放位置的播放头58,其沿着时间轴移动。
136.同样地,装置10可以被配置为显示第二波形部分52-2,其中表示第三分解轨道和第四分解轨道的波形以与上文针对第一波形部分52-1以及第一分解轨道和第二分解轨道所描述的相同方式显示,尤其通过放大版本53-2和缩小版本55-2。
137.第一波形部分52-1和/或第二波形部分52-2可以被配置为接收用户输入命令,例如触摸手势或鼠标/指针输入命令,以便改变当前播放位置并跳转到音频数据内的期望位置,例如通过在缩小版本55-1/55-2中简单地单击或触摸基线上的期望位置。
138.在图4的示例中,第一波形部分52-1的放大版本53-1的第一分解轨道和第二分解轨道使用不同的信号轴和不同的绘制样式来显示。尤其,第一分解轨道、例如分解后的人声轨道的信号轴被缩放成显著小于第二分解轨道、例如分解后的器乐轨道的信号轴,使得第一分解轨道被可视化为位于第二分解轨道内,因此在视觉上可区分开。此外,第一分解轨道的波形以使用深的绘制样式显示,而第二分解轨道的波形以使用较浅颜的绘制样式显示。
139.类似地,第一波形部分52-1的缩小版本55-1的第一分解轨道和第二分解轨道使用不同的绘制样式来显示。尤其,仅显示第一分解轨道的波形的上半部分和第二分解轨道的波形的下半部分。此外,第一分解轨道的波形可以以使用深的绘制样式显示,而第二分解轨道的波形可以以使用较浅颜的绘制样式显示。当然,所有这些绘制样式可以互换或修改和/或应用于第二波形部分52-2的波形。
140.第一波形部分52-1和第二波形部分52-2中的分解轨道的叠加表示可以由根据本发明实施例的方法提供,下面将参照图12和图13对该方法进行更详细的描述。
141.此外,控制元件26-1、26-2、28、30-1和30-2的设置可以通过显示的各个波形的相应信号振幅变化反映在第一波形部分52-1和第二波形部分52-2中的分解轨道的可视化中。尤其,如第一波形部分52-1和第二波形部分52-2中显示的分解轨道的波形的信号轴根据用户通过控制元件26-1、26-2、28、30-1和30-2设置的相应分解轨道的音量电平的当前设置而被缩放。这使得可以将音量设置直接且优选地立即视觉反馈给用户。
142.装置10可以具有分别与第一混合输入文件和第二混合输入文件(歌曲a和b)相关联的第一提示控制元件31-1和/或第二提示控制元件31-2,其可以由用户操作以存储当前播放位置,并根据需要在以后的任何时间点处检索并跳转到该位置。
143.在图5所示的第三实施例中,第一控制元件26-1和第二控制元件26-2除了它们是可旋转的旋钮而不是滑块之外,在功能上与第二实施例中的相应控制元件相似。然而,旋钮也可以在两个末端位置之间旋转,在这两个末端位置中,第一音量电平和第二音量电平之
一被设置为100%,而第一音量电平和第二音量电平中的另一个被设置为0%。再次,用户可以通过仅使用一只手或仅一根手指的单一连续动作在第一分解轨道和第二分解轨道之间交叉渐变。可以对第二控制元件26-2实现相同的配置。
144.图6示出了本发明的第四实施例,其使用不同的控制部分来控制重组单元。尤其,代替或补充如第一实施例至第三实施例所述的第一控制元件26-1和第二控制元件26-2,在第四实施例中设置第三控制元件26-3,该第三控制元件26-3控制第一分解轨道的第一音量电平和第三分解轨道的第三音量电平、换言之不同分解单元38、40的分解轨道的音量电平之间的比率。它还可以包括第四控制元件26-4,其使用户可以控制第二分解轨道的第二音量电平与第四分解轨道的第四音量电平之间的比率。借助于这些控制元件26-3、26-4,例如通过借助于用一只手或一根手指的单一动作操纵第三控制元件26-3,可以容易直接地控制第一音频文件的人声部分和第二音频文件的人声部分之间的比率。同样地,通过在仅用一只手或仅用一根手指的单一动作中操纵第四控制元件26-4,用户可以控制第一音频文件的器乐部分的音量电平与第二音频文件的器乐部分的音量电平之间的比率。这使dj可以例如通过如下进行更加无缝的转变:首先,将人声轨道从歌曲a交叉渐变到歌曲b,然后,将器乐轨道从歌曲a交叉渐变到歌曲b,从而实现更连续的音乐流动。
145.第三控制元件26-3和/或第四控制元件26-4可以被实现为滑块(硬件滑块或软件用户界面,例如虚拟触摸屏滑块)或可旋转旋钮(同样地,作为触摸屏、计算机屏幕或任何其他显示装置上的硬件旋钮或虚拟旋钮)。
146.在上述第一实施例至第四实施例中,装置10优选地实现为一体式装置,其包括输入部分12、处理部分14、重组单元32、播放单元(尤其音频接口34(例如声卡)和音频输出36),它们在一个单独的外壳中,或者,替代地,作为实现为在电子控制单元(ecu)上运行的软件的完整的虚拟设备,其控制元件在ecu的显示器上可视化,并且处理部分14的电子元件由ecu的集成电子元件提供。这种ecu可以是标准个人计算机、多功能计算装置、膝上型计算机、平板计算机、智能手机或集成的独立dj控制器。
147.作为进一步的替代方案,根据图7所示的第五实施例,装置10可以被实现为计算机54(个人计算机、膝上型计算机、平板电脑或智能手机或其他多功能计算装置)和外围装置56的组合,该外围装置56是外部硬件组件,其可以通过电缆(例如usb连接、midi连接、hid连接、火线连接、lan连接等)或任何使用常用无线协议的无线连接(wifi、gsm、蓝牙等)连接到该计算机。优选地,外围装置56包括具有诸如控制元件26-1、26-2和28之类的控制元件的重构控制部分24。此外,外围装置56可以包括滚轮50a、50b或从常规dj设备已知的其他特征。计算机54的常规硬件可以用作处理部分14,尤其,以在计算机54的ram存储器中存储和运行ai系统和分割单元。此外,处理器/cpu也可以包括在外围装置56中,以执行处理部分14的部分或全部任务。
148.如图8所示的本发明第六实施例是第五实施例的稍微变型,其中第六实施例的外围装置56相对紧凑,仅包括重构控制部分和控制元件,以将执行本发明所需的附加硬件减少到最低,并且仍然提供机械控制元件。
149.在图9所示的第七实施例中,装置10包括可由用户控制以打开或关闭歌曲a的分解后的器乐轨道的歌曲a器乐按钮26-5,和/或可由用户控制以打开或关闭歌曲a的分解后的人声轨道的歌曲a人声按钮26-6,和/或可由用户控制以打开或关闭歌曲b的分解后的器乐
轨道的歌曲b器乐按钮26-7,和/或者可由用户控制以打开或关闭歌曲b的分解后的人声轨道的歌曲b人声按钮26-8。通过将这些按钮26-5至26-8中的一些或全部实现为单独的按钮,用户可以单独地且仅通过单一操作(用手指轻轻一敲)打开或关闭选定的一个分解轨道。注意,在本描述中,打开和关闭轨道分别是指对该轨道取消静音和静音。
150.优选地,在用户操作按钮26-5至26-8之一时,相应的分解轨道不会立即打开或关闭,而是控制该装置在优选大于5毫秒或甚至大于50毫秒的特定时间段内连续或逐步增加或减少相应轨道的音量,从而避免由瞬时信号转变引起的声学伪影。
151.在图10所示的第八实施例中,装置10可以包括第一重组级和第二重组级,第一重组级被配置为通过将歌曲a的分解后的人声轨道与歌曲a的分解后的器乐轨道重组来获得第一重组a',第二重组级被配置为通过将歌曲b的分解后的人声轨道与歌曲b的分解后的器乐轨道重组来获得第二重组b'。此外,装置10可以包括混合控制元件28,该混合控制元件28被配置为能够由用户在第一方向上操作以增加第一重组a'的音量电平或在第二方向上操作以增加第二重组b'的音量电平。另外,优选地设置混合级,该混合级根据第一重组a'和第二重组b'各自的音量电平将第一重组a'和第二重组b'相互混合以获得重组后的输出轨道。这种信号流类似于上文参照图2解释的信号流。
152.现在,在第八实施例中,装置10还可以包括人声交换按钮26-9,其可由用户控制,尤其通过诸如简单地按下按钮的单一操作,将歌曲a的分解后的人声轨道路由到第二重组级,并将歌曲b的分解后的人声轨道路由到第一重组级。换言之,人声交换按钮26-9的操作在歌曲a和b的两个分解后的人声轨道分别进入第一重组级和第二重组级之前交换它们。人声交换按钮26-9的重复操作可以再次交换两个分解后的人声轨道,以此类推。
153.另外或替代地,装置10可以包括器乐交换按钮26-10,其可由用户控制,尤其通过诸如简单地按下按钮的单一操作,将歌曲a的分解后的器乐轨道路由到第二重组级,并将歌曲b的分解后的器乐轨道路由到第一重组级。换言之,器乐交换按钮26-10的操作在歌曲a和b的两个分解后的器乐轨道分别进入第一重组级和第二重组级之前交换它们。器乐交换按钮26-9的重复操作可以再次交换两个分解后的器乐轨道,以此类推。
154.优选地,在用户操作按钮26-9或26-10之一时,轨道的相应交换将不会立即进行,而是控制该装置以在优选大于5毫秒或甚至大于50毫秒的特定时间段内连续或逐步增加或减少轨道的相应音量,从而避免由瞬时信号转变引起的声学伪影。
155.替代地,人声交换按钮26-9可以由用户控制以通过如下来实现类似的重混/混搭:将正常音量(尤其最大音量)的歌曲a的分解后的人声轨道与歌曲a的静音的分解后的器乐轨道重组来获得第一重组a',将歌曲b的静音的分解后的人声轨道与正常音量(尤其最大音量)的歌曲b的分解后的器乐轨道重组来获得第二重组b',同时将混合控制元件28设置到其中心位置,以便使重组a'和b'以相同的音量电平同时都可听到。
156.图11示出了第八实施例的方法的变型,特别是关于交换按钮、例如人声交换按钮26-9的操作。装置10接收作为主轨道的轨道a(歌曲a)和作为从轨道的轨道b(歌曲b)。如上所述分解轨道a以获得分解轨道1和2,而如上所述分解轨道b以获得分解轨道3和4。为了准备用于交换的分解轨道3,其调、节奏和节拍相位将与主轨道a的调、节奏和节拍相位相匹配。尤其,装置10确定轨道a和轨道b的节奏(例如bpm值(每分钟节拍数)),如果它们不匹配,这对分解轨道3进行重新采样或时间拉伸,以与主轨道a的节奏相匹配。另外,将在需要的时
候执行调匹配并改变分解轨道3的调,以与主轨道a的调相匹配。而且,在分解轨道3的节奏匹配之后,分解轨道3的节拍相位根据需要在同步步骤中移位,以便与主轨道a的节拍相位相匹配。
157.结果,装置10准备修改后的分解轨道3',其在节奏、节拍相位和调方面与轨道a相匹配,使得它可以与轨道a的分解轨道2无缝重组。如果激活了交换按钮,则由图11可知,在轨道a的以下处理中,将使用分解轨道3'代替分解轨道1,并将其路由到重组级以与分解轨道2和音频输出进行重组。
158.可选地,一个或多个音频效果链可以插入到任何轨道的信号流中,例如在交换步骤和重组级之间,以便例如应用于相应的分解轨道1、2或3'。
159.图12和图13示出了在本发明的实施例的方法或装置中、尤其在根据上述第一实施例至第八实施例之一的装置中,在该装置的操作期间可以在显示装置上显示的音频数据的图形表示。尤其,图形表示可以被显示在ecu的显示器、尤其计算机屏幕上或在连接到计算机的分开的外围装置的集成显示器上,或者作为独立装置被显示在平板电脑、智能手机或类似装置上。图形表示可以由在ecu(即计算机、独立装置、平板电脑、智能手机等)上运行的合适软件生成,并且该软件可以是执行根据如在权利要求或上述实施例中描述的本发明的方法的软件的一部分。该软件可以操作图形界面,例如图形卡。
160.根据实施例,音频数据被可视化为波形。在这个意义上,波形是具有表示播放时间的线性时间轴t(通常为水平轴)和表示平均信号强度或音频数据在每个特定播放时间处的信号振幅的信号轴(正交于时间轴t,优选为垂直轴)的表示。可以设置指示当前播放位置的播放头58。在音频数据的播放期间,通过视觉上移动波形或播放头或两者而相对于波形沿时间轴t移动播放头58。
161.图12示意性地示出了获得本发明的新颖图形表示的处理步骤。对混合输入数据60(例如歌曲a)进行接收和分解,以获得第一分解轨道61-1、例如分解后的人声轨道和第二分解轨道61-2、例如分解后的器乐轨道。第一分解轨道61-1和第二分解轨道61-2可以是互补轨道,使得它们的总和对应于混合输入数据60。
162.于是,实际显示的是叠加波形64,其是使用两个分解轨道的波形的单条基线的对第一分解轨道61-1和第二分解轨道61-2的叠加表示,这意味着两个波形的时间轴t在一定距离上彼此不平行,但是相同的以形成公共线。为了可以区分两种波形,它们使用不同的绘制样式显示。例如,分解轨道的两个波形之一可以以与另一个波形不同的颜显示。在图12所示的示例中,对于分解轨道的波形之一,这里是分解后的人声轨道61-1,仅显示正信号部分同时略去负信号部分,而对于另一个分解轨道的波形,这里是分解后的器乐轨道61-2,仅显示负信号部分同时略去正信号部分。替代地,可以使用被不同比例的信号轴或通过使用不同的绘制样式来绘制波形,从而可以将这些波形相互区分开。作为不同绘制样式的示例,波形之一可以被绘制为虚线或点线,或者具有不同的颜,或者具有不同的不透明度或透明度,或者其任意组合。
163.在图13所示的另一示例中,分解轨道的波形之一(这里是分解后的人声轨道61-1的波形)以不同比例的信号轴显示,在此该比例小于另一个分解轨道(这里是分解后的器乐轨道61-2)的波形的比例。另外,波形可以用不同的颜显示。
164.优选地显示分解轨道的波形,以表示重构控制部分的控制元件的设置和/或重组
单元的设置,从而向用户提供关于分配给相应分解轨道的信号量的反馈。优选地,在用户正在操纵控制元件之一以增加或减少至少一个分解轨道的音量的同时,该分解轨道的相关波形相对于其信号轴以增大或减小的尺寸显示,或在视觉上淡入或淡出。该图形反馈优选是即时的,因此具有不干扰用户或者甚至用户无法识别的延迟时间、尤其低于500毫秒的延迟时间、优选地低于35毫秒,使得在30帧每秒的帧速率下它不会被眼睛注意到。这种显示大大地帮助了该装置在现场表演期间的操作。
165.图14示出了本发明的装置10的第九实施例,其是包括重构控制部分24的音频播放器,该重构控制部分24具有控制元件26-13和可选的显示第一分解轨道和第二分解轨道的叠加表示的显示区域66,该控制元件26-13用于控制从一个音频文件获得的相应的第一分解轨道和第二分解轨道(这里是分解后的人声轨道和分解后的器乐轨道)的第一音量电平和第二音量电平。图14的装置10可以适于一个接一个地播放音频文件、例如从播放列表或基于个人用户选择,并且可以具有用于通过流式传输从音频流服务接收音频文件的输入单元,因此可以适于大多数时间只播放一个音频文件(除了从一首歌曲结尾到下一首歌曲开头的转变时可选的交叉渐变效果之外)。用户可以通过操作播放控制元件30来开始或停止播放,和/或可以通过沿时间轴移动播放头来改变播放位置。
166.通过控制元件26-13,用户可以控制歌曲的播放使得只听分解后的人声轨道或只听分解后的器乐轨道或两个轨道的重组。例如,这样的配置可能对卡拉ok应用或伴奏应用有用。优选地,装置10是计算机或移动装置,诸如智能手机或平板电脑,其运行合适的软件应用来实现上述功能。
167.图15示出了本发明的第十实施例,它包括分别用于第一分解轨道到第四分解轨道、尤其第一分解后的人声轨道、第一分解后的器乐轨道、第二分解后的人声轨道和第二分解后的器乐轨道中的每一个的分开的on-off按钮26-14到26-17。通过操作其中一个按钮,相应分解轨道的音量在0%和100%之间切换,或者在100%和0%之间切换。
168.图16示出了本发明的第十一实施例,它包括分别用于第一分解轨道到第四分解轨道、尤其第一分解后的人声轨道、第一分解后的器乐轨道、第二分解后的人声轨道和第二分解后的器乐轨道中的每一个的分开的推子26-18到26-21。通过操作其中一个推子,相应分解轨道的音量在0%至100%之间连续变化,或者在100%至0%之间连续变化。
169.下面将参照图17和图18描述本发明的第十二实施例。第十二实施例是第一实施例至第十一实施例的变型,并且因此除非下文中另有说明,否则第十二实施例可以包括第一实施例至第十一实施例中任一个的任何或所有上述特征和优点。
170.第十二实施例的装置110包括输入单元,其具有用于接收和/或提供输入音频文件a、例如第一歌曲a的第一输入部分和优选的用于接收或提供第二输入音频文件b、例如第二歌曲b的第二输入部分。如果第一输入音频文件以编码或压缩格式提供,则第一输入音频文件可以被解码或解压缩,并且可以在第一分割单元142中以与上文针对第一实施例描述的相同或对应的方式被划分成片段。
171.然后,输入音频文件a(或其片段)被传送到第一ai系统144,该ai系系统能够将音频数据分成至少四个分解轨道,即鼓轨道d1、贝司轨道d2、人声轨道d3和补充轨道d4。鼓轨道d1包含输入音频文件a的具有鼓音的分量,贝司轨道d2包含输入音频文件a的具有贝司音的分量,人声轨道d3包含输入音频文件a的具有人声音的分量,补充轨道d4是输入音
频文件a的剩余部分,这意味着鼓轨道d1、贝司轨道d2、人声轨道d3和补充轨道d4的混合将产生与输入音频文件a的音频信号基本上相等的音频信号。在这实施例的变型中,ai系统144可以被配置和训练以从输入音频文件a中分离出任何其他音的分解轨道d1到d3。
172.分解轨道d1到d4被路由到重组单元132,该重组单元132被配置为根据用户设置和/或用户控制输入将分解轨道d1到d4当中的选定轨道重组。尤其,重组单元132可以包括第一重组部分132a,该第一重组部分132a接收单个分解轨道d1到d4作为输入并输出两个轨道,即根据通过分解轨道d1到d4之一而获得的轨道s1和根据对d1到d4当中的选定轨道进行分组而获得的轨道s2。对分解轨道的选择和对分解轨道d1到d4的相应分组可以由模式控制单元145控制。
173.在图17和图18所示的示例中,模式控制单元145可以选择性地设置为图17所示的第一操作模式或图18所示的第二操作模式。在第一操作模式中,第一重组部分132a被配置为使得鼓轨道d1被路由到第一轨道s1,即s1等于d1,而贝司轨道d2、人声轨道d3和补充轨道d4被选择并重组成单个轨道,即第二轨道s2。换言之,在第一操作模式中,d2、d3和d4被分组以形成单个轨道s2,并且d1被通过以形成轨道s1。另一方面,在图18所示的第二操作模式中,第一重组部分132a被配置为使得选择鼓轨道d1、贝司轨道d2和补充轨道d4进行重组,即其被分组以形成单个轨道s2,而人声轨道d3被单独路由到轨道s1。
174.模式控制单元145可以包括由用户操作以选择性地在第一操作模式和第二操作模式之间切换的模式控制元件(例如,流派按钮或流派开关)。例如,第一操作模式可以主要用于电子音乐(即通常没有人声),而第二操作模式可以用于通常包含人声的音乐,诸如嘻哈或流行音乐。
175.然后,将轨道s1和s2路由到第二重组部分132b,该第二重组部分包含单控制元件126-1,其可由用户控制以控制要与第一轨道s1相关联的第一音量电平和要与第二轨道s2相关联的第二音量电平。优选地,控制元件126-1可由用户在单一控制操作中操作,例如作为第一音量电平和第二音量电平之间的交叉推子,即使得改变第一音量电平和第二音量电平之间的比率。尤其,单控制元件126-1可以被配置为具有控制范围,其中第一音量电平和第二音量电平的至少部分控制范围音量改变例如通过增加第一音量电平和第二音量电平中的一个和/或降低第一音量电平和第二音量电平中的另一个来同时执行。优选地,单控制元件126-1可以具有从第一音量电平具有最大值且第二音量电平具有最小值的第一端点延伸到第一音量电平具有最小值且第二音量电平具有最大值的第二端点的控制范围。在控制范围的中间区域,第一音量电平和第二音量电平可以都具有最大值。
176.优选地,单控制元件126-1是单个可旋转旋钮或单个推子元件。基于用户通过控制元件126-1输入的第一音量电平和第二音量电平的设置,第二重组部分132b将第一轨道s1和第二轨道s2重组,以获得向音频接口134路由以进行播放的第二重组轨道a'。
177.轨道s1和s2可以进一步被路由到可视化单元149-1,用于在显示器等上可视化它们的波形,如上文针对先前实施例中的可视化单元49-1和49-2所描述的那样。
178.第二音频输入文件b可以以与第一输入音频文件a类似的方式处理,例如在可以包括第二ai系统的第二分解单元140中。然后,从第二分解单元140获得的分解轨道可以被路由通过重组单元132,并且以与上文针对第一输入音频文件a描述的相同或对应的方式分组或单独地在其中被重组。然后,以这种方式从第二输入音频文件b获得的重组轨道b'可以以
上文针对第一实施例至第十一实施例更详细描述的方式与从第一输入音频文件a获得的重组轨道a'重组/混合,尤其在由混合控制元件128控制的另外的混合级内。然后,可以将本混合级的输出路由到音频接口134以进行播放。
179.本发明的方面和实施例可以进一步通过以下项目来描述:
180.第1项:用于处理和播放音频数据的方法,所述方法包括以下步骤:a)接收混合输入数据,所述混合输入数据是通过将至少一个第一源轨道与至少一个第二源轨道混合而获得的总和信号;b)分解混合输入数据以获得与至少一个第一源轨道相似的至少第一分解轨道;c)基于第一分解轨道生成输出数据;d)通过音频输出播放输出数据。
181.第2项:第1项的方法,进一步包括以下步骤:-读取来自用户的控制输入,所述控制输入表示对第一分解轨道的第一音量电平和第二轨道的第二音量电平的期望设置;-至少将第一音量电平的第一分解轨道与第二音量电平的第二轨道重组以生成重组输出数据;-播放重组输出数据。
182.第3项:第2项的方法,其中,第二轨道是在分解混合输入数据的步骤中获得的,并且形成类似于至少一个第二源轨道的第二分解轨道。
183.第4项:前述项中的至少一项的方法,其中分解混合输入数据是分段执行的,其中分解是基于混合输入数据的第一片段来执行的,以便获得输出数据的第一片段,并且其中在播放输出数据的第一片段的同时执行对混合输入数据的第二片段的分解。
184.第5项:前述项中的至少一项的方法,其中所述方法步骤、尤其步骤(a)至(d)在连续过程中进行。
185.第6项:前述项中的至少一项的方法,其中混合输入数据是通过流式传输、优选地通过互联网、从远程服务器接收的。
186.第7项:前述项中的至少一项的方法,其中在步骤(a)中,接收包含用于播放混合输入数据的音频数据的具有预定文件大小和预定播放时长的输入音频文件,并且从输入音频文件中提取包含用于在小于预定播放时长的第一时间间隔内播放混合输入数据的音频数据的第一片段;其中在步骤(b)中,分解输入音频文件的第一片段以获得第一分解轨道的第一片段和可选的第二分解轨道的第一片段;其中在步骤(c)中,输出数据的第一片段是从第一分解轨道的第一片段生成的,优选地通过至少将第一音量电平的第一分解轨道的第一片段与第二音量电平的第二分解轨道的第一片段重组而生成,并且其中所述方法进一步包括以下步骤:a2.从输入音频文件中提取第二片段,该第二片段不同于第一片段,并且包含用于在小于输入音频文件的预定播放时长且在时间上相对于第一时间间隔移位的第二时间间隔内播放混合输入数据的音频数据;
b2.分解输入音频文件的第二片段,以获得第一分解轨道的第二片段和可选的第二分解轨道的第二片段;可选的c2.至少将第一音量电平的第一分解轨道的第二片段与第二音量电平的第二分解轨道的第二片段重组,以生成重组输出数据的第二片段,其中步骤(a2)、(b2)和(c2)中的至少一个在播放输出数据的第一片段的同时执行,并且其中在输出数据的第一片段的播放完成之前完成输出数据的第二片段的生成。
187.第8项:第4项至第7项中的至少一项的方法,其中第一片段的大小或第一时间间隔的长度被设置为使得分解第一片段所需的时间小于2秒、优选小于150毫秒、最优选小于50毫秒。
188.第9项:前述项中的至少一项的方法,所述方法包括以下步骤:接收包含用于播放混合输入数据的音频数据的具有预定文件大小和预定播放时长的输入音频文件;将输入音频文件划分为多个连续的片段,所述片段包含用于在多个相互跟随的时间间隔内播放混合输入数据的音频数据;接收来自用户的播放位置命令,该播放位置命令表示用户的从特定的开始播放位置播放输入音频文件的命令;识别多个片段当中的第一片段,使得开始播放位置在对应于第一片段的时间间隔内;分解输入音频文件的第一片段,以获得第一分解轨道的第一片段和可选的第二分解轨道的第一片段;基于第一分解轨道的第一片段生成输出数据的第一片段,优选地通过至少将第一音量电平的第一分解轨道的第一片段与第二音量电平的第二分解轨道的第一片段重组来生成;以及从开始播放位置处开始播放输出数据的第一片段,该开始播放位置是晚于或等于第一片段的时间间隔的开始的播放位置。
189.第10项:前述项中的至少一项的方法,其中混合输入数据是第一混合输入数据,该第一混合输入数据是通过至少将第一源轨道与第二源轨道混合而获得的总和信号,并且其中所述方法进一步包括以下步骤:-接收第二混合输入数据,所述第二混合输入数据是通过将至少一个第三源轨道与至少一个第四源轨道混合而获得的总和信号;-分解第二混合输入数据,以获得与至少一个第三源轨道相似的第三分解轨道和与至少一个第四源轨道相似的第四分解轨道,其中在读取来自用户的控制输入的步骤中,所述控制输入表示对第一分解轨道的第一音量电平、第二分解轨道的第二音量电平、第三分解轨道的第三音量电平和第四分解轨道的第四音量电平的期望设置,并且其中在重组步骤中,重组输出数据是通过将第一音量电平的第一分解轨道、第二音量电平的第二分解轨道、第三音量电平的第三分解轨道和第四音量电平的第四分解轨道重组而生成的。
190.第11项:前述项中的至少一项的方法,其中混合输入数据和分解轨道信号中的至少一个、优选全部表示立体声信号,每个立体声信号分别包括左声道信号部分和右声道信
号部分。
191.第12项:前述项中的至少一项的方法,其中分解混合输入数据包括由ai系统处理混合输入数据,所述ai系统优选地由多组训练音频数据训练,其中每组训练音频数据至少包括第一源轨道和混合轨道,该混合轨道是通过至少将第一源轨道或类似于第一源轨道的轨道与第二源轨道混合而获得的总和信号。
192.第13项:前述项中的至少一项的方法,其中在第一ai系统和与第一ai系统分开的第二ai系统内处理混合输入数据,其中第一ai系统处理混合输入数据以仅获得第一分解轨道,第二ai系统处理混合输入数据以仅获得该第二分解轨道/一个第二分解轨道,其中所述方法优选地将混合输入数据处理为第一混合输入数据,并且在与第一ai系统和第二ai系统分开的第三ai系统内,以及在与第一ai系统至第三ai系统中的每一个分开的第四ai系统内进一步处理第二混合输入数据,其中第三ai系统处理第二混合输入数据以仅获得第三分解轨道,第四ai系统处理第二混合输入数据以仅获得第四分解轨道。
193.第14项:前述项中的至少一项的方法,其中所述混合输入数据是基于周期性拍频结构的第一混合输入数据,并且其中所述方法进一步包括:-接收不同于第一混合输入数据且具有周期性拍频信号的第二混合输入数据;-执行节奏匹配处理和调匹配处理中的至少一种,-其中节奏匹配处理包括:接收从第一混合输入数据获得的第一输入数据和从第二混合输入数据获得的第二输入数据,对第一输入数据和第二输入数据中的至少一个进行时间拉伸或相似,以及输出具有相互匹配的节奏的第一输出数据和第二输出数据;-其中所述调匹配处理包括:接收从所述第一混合输入数据获得的第一输入数据和从所述第二混合输入数据获得的第二输入数据,对第一输入数据和第二输入音频数据中的至少一个进行音调移位,并输出具有相互匹配的调的第一输出数据和第二输出数据。
194.第15项:用于处理和播放音频数据的装置(10),优选为dj设备,所述装置包括:-音频输入单元,用于接收混合输入数据(a,b),所述混合输入数据是通过将至少第一源轨道与至少第二源轨道混合而获得的总和信号;-连接到音频输入单元的分解单元(38、40),用于分解混合输入数据以至少获得类似于第一源轨道的第一分解轨道;以及-播放单元(34、36),用于播放基于第一分解轨道的输出数据。
195.第16项:第15项的装置(10),所述装置进一步包括重组单元(32),用于至少将第一分解轨道与第二轨道重组以生成用于播放单元的输出数据。
196.第17项:第15项或第16项的装置(10),所述装置进一步包括重构控制部分(24),该重构控制部分(24)适于由用户控制以生成表示第一分解轨道的第一音量电平和第二轨道的第二音量电平的期望设置的控制输入,其中重组单元(32)被配置为至少将第一音量电平的第一分解轨道与第二音量电平的第二轨道重组以生成输出数据。
197.第18项:第15项至第17项中的任一项的装置(10),其中音频输入单元是第一音频输入单元,用于接收第一混合输入数据(a),所述第一混合输入数据是通过至少将第一源轨道与第二源轨道混合而获得的总和信号,分解单元为第一分解单元(38),并且其中所述装置进一步包括:-第二音频输入单元,用于接收第二混合输入数据(b),所述第二混合输入数据是通过至少将第三源轨道与第四源轨道混合而获得的总和信号;-与第二音频输入单元连接的第二分解单元(40),用于分解第二混合输入数据(b)以获得类似于第三源轨道的第三分解轨道和类似于第四源轨道的第四分解轨道,其中,重构控制部分(24)适于由用户控制以生成控制输入,该控制输入表示第一分解轨道的第一音量电平、第二分解轨道的第二音量电平、第三分解轨道的第三音量电平和第四分解轨道的第四音量电平的期望设置,并且其中,重组单元(32)适于通过将第一音量电平的第一分解轨道、第二音量电平的第二分解轨道、第三音量电平的第三分解轨道和第四音量电平的第四分解轨道重组来生成重组输出数据。
198.第19项:第15项至第18项中的至少一项的装置(10),其中重构控制部分(24)包括至少一个单重构控制元件(26-1、26-2),该单重构控制元件可由用户在单一控制操作中操作,以便控制第一音量电平和第二音量电平,优选地(1)增加第一音量电平和第二音量电平中的一个且同时减小第一音量电平和第二音量电平中的另一个,或者(2)将第一音量电平和第二音量电平之间的比率从至少小于1的值改变为至少大于1的值,或者从至少大于1的值改变为至少小于1的值。
199.第20项:第15项至第19项中的至少一项的装置(10),其中重构控制部分(24)包括:-第一单重构控制元件(26-1),该单重构控制元件可由用户在单一控制操作中操作,以便控制第一音量电平和第二音量电平,优选地(1)增加第一音量电平和第二音量电平中的一个且同时减小第一音量电平和第二音量电平中的另一个,或者(2)将第一音量电平和第二音量电平之间的比率从至少小于1的值改变为至少大于1的值,或者从至少大于1的值改变为至少小于1的值;以及-单混合控制元件(28),该单混合控制元件可由用户在单一控制操作中操作,以便控制第一总和信号和第二总和信号,优选地(1)增加第一总和信号和第二总和信号中的一个且同时减小第一总和信号和第二总和信号中的另一个,或者(2)将第一总和信号的音量电平和第二总和信号的音量电平之间的比率从至少小于1的值改变为至少大于1的值,或者从至少大于1的值改变为至少小于1的值,第一总和信号是第一音量电平的第一分解轨道和第二音量电平的第二分解轨道的总和,第二总和信号是第三音量电平的第三分解轨道和第四音量电平的第四分解轨道的总和信号;以及-优选的第二单重构控制元件(26-2),该第二单重构控制元件可由用户在单一控制操作中操作,以便控制第三音量电平和第四音量电平,优选地(1)增加第三音量电平和第四音量电平中的一个,和/或减小第三音量电平和第四音量电平中的另一个,或者(2)将第三音量电平和第四音量电平之间的比率从至少小于1的值改变为至少大于1的值,或者从至少大于1的值改变为至少小于1的值。
200.第21项:第15项至第20项中的至少一项的装置(10),所述装置进一步包括:输入音频文件缓冲器,用于在其中加载包含用于播放混合输入数据的音频数据的具有预定文件大小和预定播放时长的输入音频文件的片段;与分解单元连接的第一片段缓冲器,用于接收和存储从输入音频文件的片段中获
得的第一分解轨道的片段;与分解单元连接的第二片段缓冲器,用于接收和存储从输入音频文件的同一片段获得的第二分解轨道的片段,其中播放单元(34、36)包括音频接口,该音频接口具有模数转换器以从重组输出数据生成模拟音频信号,所述音频接口具有音频缓冲器以便缓冲用于播放的输出数据的部分,其中第一片段缓冲器和/或第二片段缓冲器的大小大于音频接口的音频缓冲器的大小,但小于输入音频文件数据或输入音频文件的预定文件大小。
201.第22项:第15项至第21项中的至少一项的装置(10),其中音频输入单元是用于接收基于周期性拍频结构的第一混合输入数据的第一音频输入单元,并且其中所述装置进一步包括:-第二音频输入单元,用于接收不同于第一混合输入数据(a)且基于周期性拍频信号的第二混合输入数据(b);-节奏匹配单元和调匹配单元中的至少一个;-其中节奏匹配单元被布置为接收从第一混合输入数据获得的第一输入数据和从第二混合输入数据获得的第二输入数据,并且其中节奏匹配单元包括时间拉伸单元,该时间拉伸单元适于对第一输入数据和第二输入音频数据中的至少一个进行时间拉伸,并输出具有相互匹配的节奏的第一输出数据和第二输出数据,和/或-其中调匹配单元被布置为接收从第一混合输入数据获得的第一输入数据和从第二混合输入数据获得的第二输入数据,并且其中调匹配单元包括音调移位单元,该音调移位单元适于对第一输入数据和第二输入音频数据中的至少一个进行音调移位,并输出具有相互匹配的调的第一输出数据和第二输出数据。
202.第23项:第15项至第22项中的至少一项的装置(10),其中所述装置的所有组件,尤其音频输入单元、分解单元和播放单元,被集成在单个单元内或多个本地单元内,所述多个本地单元通过本地网络或通过外围电缆连接或通过近场无线连接相互连接。
203.第24项:用于显示音频数据的方法,所述音频数据至少包括作为联合音频混合的分量的第一轨道和第二轨道,所述方法包括显示表示第一轨道的第一波形和显示表示第二轨道的第二波形,其中第一波形和第二波形使用单条基线以叠加方式显示,并且其中这些波形使用不同的信号轴和/或不同的绘制样式显示,以便在视觉上可相互区分开。
204.第25项:第24项的方法,其中使用主要或专门在相对于基线的正区域中绘制第一波形的信号部分的第一绘制样式来显示第一波形,并且使用主要或专门在相对于同一基线的负区域中绘制第二波形的信号部分的第二绘制样式来显示第二波形,其中,优选地,使用主要或专门绘制第一轨道的正信号部分的第一绘制样式来显示第一波形,并且使用主要或专门绘制第二轨道的负信号部分的第二绘制样式来显示第二波形。
205.第26项:第24项或第25项的方法,其中使用第一绘制样式和第二绘制样式来显示第一波形和第二波形,该第一绘制样式和第二绘制样式都主要或专门绘制正信号部分,或者都主要或专门绘制负信号部分,并且其中使用第一信号轴显示第一波形,使用与第一信号轴相反延伸的第二信号轴显示第二波形。
206.第27项:第24项至第26项中的至少一项的方法,其中通过在预定时间间隔内用取
决于相应轨道在预定时间间隔内的频率信息的颜渲染波形来显示第一波形和/或第二波形,所述频率信息优选地指示音频数据在预定时间间隔内的主频率,该主频率优选为通过对在预定时间间隔内从相应轨道的音频数据导出的音频信号的频率分析而获得的。
207.第28项:第24项至第27项中的至少一项且优选的第1项至第14项中的一项的方法,所述方法包括以下步骤:-接收混合输入数据,所述混合输入数据是通过将至少一个第一源轨道与至少一个第二源轨道混合而获得的总和信号;-分解混合输入数据,以至少获得类似于所述至少一个第一源轨道的第一分解轨道和类似于所述至少一个第二源轨道的第二分解轨道;-读取来自用户的控制输入,所述控制输入表示第一分解轨道的第一音量电平和第二分解轨道的第二音量电平的期望设置;-显示表示第一分解轨道的第一波形和显示表示第二分解轨道的第二波形,其中第一波形和第二波形使用单条基线以叠加方式显示,并且其中这些波形使用不同的信号轴和/或不同的绘制样式显示,以便在视觉上可相互区分开,其中第一波形以根据第一音量电平缩放其信号轴或修改其外观的方式显示,其中第二波形以根据第二音量电平缩放其信号轴或修改其外观的方式显示。
208.第29项:第28项的方法,其中第一波形和第二波形以在不超过2秒、优选地不超过100毫秒、更优选地不超过35毫秒的时间段内基于第一音量电平和第二音量电平的当前值缩放其信号轴的方式显示。
209.第30项:用于处理和播放音频数据的装置(10),优选为dj设备,所述装置包括:-处理单元,用于处理至少第一轨道和第二轨道的音频数据;-控制部分,适于由用户控制以生成表示第一轨道的第一音量电平和第二轨道的第二音量电平的期望设置的控制输入;-重组/混合单元,被配置为将第一音量电平的第一轨道与第二音量电平的第二轨道组合以生成输出数据;-可视化单元,被配置为生成用于可视化基于第一轨道、第二轨道和控制输入的至少一个波形的波形数据;-播放单元(34、36),用于基于输出数据播放音频数据,以及-可选的用于显示波形数据的显示单元。
210.第31项:第30项的装置,其中可视化单元被配置为:基于第一轨道生成第一波形,其中第一波形的信号轴的缩放或绘制样式根据第一音量电平来设置;并且/或基于第二轨道生成第二波形,其中第二波形的信号轴的缩放或绘制样式根据第二音量电平来设置。
211.第32项:第30项或第31项的装置,其中可视化单元被配置为计算组合轨道并生成波形数据以便可视化组合轨道的波形,该组合轨道表示至少第一音量电平的第一轨道和第二音量电平的第二轨道的组合。
212.第33项:第30项至第32项中的至少一项的装置,其中所述装置被配置为在用户生成特定控制输入之后允许生成基于特定控制输入的波形数据并在不超过2秒、优选地不超过100毫秒、更优选地不超过35毫秒的时间段内显示在显示器上。
213.第34项:第30项至第33项中的至少一项的装置,其中可视化单元被配置为生成用
于可视化基于第一轨道和控制输入的第一波形和基于第二轨道和控制输入的第二波形的波形数据,并且其中生成波形数据,以便使用单条基线以叠加方式显示第一波形和第二波形,但是使用不同的信号轴和/或不同的绘制样式,以便在视觉上可相互区分开。
214.第35项:第30项至第34项中的至少一项的装置,其中所述装置适于执行第1项至第14项中的至少一项的方法,和/或为根据第15项至第23项中的至少一项的装置,其中第一轨道优选为第一分解轨道,和/或第二轨道优选为第二分解轨道。
215.第36项:用于处理和播放音频数据的装置、优选为根据第15项至第23项和第30项至第35项中的至少一项的装置,和/或为被配置为执行第1项至第14项和第24项至第29项中的至少一项的方法的装置,所述装置包括:-音频输入单元,用于接收第一轨道和第二轨道,所述第一轨道是音频混合轨道的分量;-控制部分(24),适于由用户控制以生成表示第一轨道的第一音量电平和第二轨道的第二音量电平的期望设置的控制输入;-播放单元(34、36),用于基于第一音量电平的第一轨道和第二音量电平的第二轨道播放输出数据,其中控制部分包括至少一个单控制元件(26-1、26-2),该单控制元件可由用户在单一控制操作中操作,以便控制第一音量电平和第二音量电平,尤其将第一音量电平和第二音量电平之间的比率从至少小于1的值改变为至少大于1的值,或者从至少大于1的值改变为至少小于1的值。
216.第37项:第36项的装置,其中第一轨道和第二轨道是同一音频混合轨道的分量,其中优选地,第一轨道是人声轨道并且第二轨道是对应的器乐轨道。
技术特征:
1.一种用于处理和播放音频数据的方法,所述方法包括以下步骤:-提供混合输入数据,所述混合输入数据是通过混合多个源轨道而获得的;-由ai系统处理所述混合输入数据,该ai系统包括被训练为从混合音频数据中分离出预定音的音频数据的神经网络,其中所述混合输入数据由所述ai系统处理以获得一组分解轨道,所述一组分解轨道至少包括表示第一预定音的音频信号的第一分解轨道,表示不同于所述第一预定音的第二预定音的音频信号的第二分解轨道,以及表示不同于所述第一预定音和所述第二预定音的第三预定音的音频信号的第三分解轨道;-读取来自用户的控制输入,所述控制输入表示第一音量电平和第二音量电平的期望设置;-将从所述一组分解轨道中选择的至少第一选定轨道和第二选定轨道重组,以生成第一重组轨道;-将所述第一音量电平的第一重组轨道与所述第二音量电平的从所述一组分解轨道中选择的至少第三轨道重组,以获得第二重组轨道;以及-基于所述第二重组轨道播放所述音频数据。2.根据权利要求1所述的方法,其中,所述第一预定音、第二预定音和第三预定音中的至少一个选自由以下构成的组中:-鼓音,-人声音,和-限定所述混合输入数据的和声、调或旋律的音调音。3.根据前述权利要求中的至少一项所述的方法,其中,所述第一预定音、第二预定音和第三预定音中的至少一个是补充音,其中所有分解轨道的混合与所述混合输入数据相似。4.一种用于处理和播放音频数据的装置,优选为dj设备,所述装置包括:-音频输入单元,用于提供混合输入数据(a,b),所述混合输入数据是通过混合多个源轨道而获得的;-ai系统,包括被训练为从混合音频数据中分离出预定音的音频数据的神经网络,其中所述ai系统被配置为接收和处理所述混合输入数据并生成一组分解轨道,所述一组分解轨道至少包括表示第一预定音的音频信号的第一分解轨道,表示不同于所述第一预定音的第二预定音的音频信号的第二分解轨道,以及表示不同于所述第一预定音和所述第二预定音的第三预定音的音频信号的第三分解轨道;-控制部分,适于由用户控制以生成表示第一音量电平和第二音量电平的期望设置的控制输入;-重组单元,被配置为将从所述一组分解轨道中选择的至少第一选定轨道和第二选定轨道重组,以生成第一重组轨道,其中所述重组单元进一步被配置为将所述第一音量电平的第一重组轨道与所述第二音量电平的从所述一组分解轨道中选择的至少第三轨道重组,以获得第二重组轨道;-播放单元,被配置为基于所述第二重组轨道播放音频数据。
5.根据权利要求4所述的装置,其中,所述第一预定音、第二预定音和第三预定音中的至少一个选自由以下构成的组中:-鼓音,-人声音,和-限定所述混合输入数据的和声、调或旋律的音调音。6.根据权利要求4或5所述的装置,其中所述第一预定音、第二预定音和第三预定音中的至少一个是补充音,其中所有分解轨道的混合类似于所述混合输入数据。7.根据权利要求4至6中的至少一项所述的装置,其中所述控制部分包括至少一个单控制元件,该单控制元件可由用户在单一控制操作中操作,以便控制所述第一音量电平和所述第二音量电平,尤其用于将第一音量电平和第二音量电平之间的比率从至少小于1的值改变为至少大于1的值,或者从至少大于1的值改变为至少小于1的值。8.根据权利要求4至7中的至少一项所述的装置,所述装置包括模式控制单元,该模式控制单元被配置为至少在第一操作模式和第二操作模式之间改变所述装置的操作模式,其中在所述第一操作模式中,所述重组单元被配置为将从所述一组分解轨道中选择的第一组选定轨道重组以生成所述第一重组轨道,并且其中在所述第二操作模式中,所述重组单元被配置为将从所述一组分解轨道中选择的第二组选定轨道重组以生成所述第一重组轨道,所述第二组选定轨道不同于所述第一组选定轨道。9.根据权利要求8所述的装置,其中所述模式控制单元包括模式控制元件,该模式控制元件可由用户操作以选择性地将所述装置设置为所述第一操作模式或所述第二操作模式。10.根据权利要求4至9中的至少一项所述的装置,其中所述音频输入单元包括被配置为接收第一混合输入数据的第一输入部分和被配置为接收与所述第一混合输入数据不同的第二混合输入数据的第二输入部分,其中所述重组单元被配置为将源自所述第一混合输入数据的音频数据与源自所述第二混合输入数据的音频数据重组。11.根据权利要求10所述的装置,所述装置进一步包括节奏匹配单元,该节奏匹配单元被布置为接收从所述第一混合输入数据获得的第一输入数据和从所述第二混合输入数据获得的第二输入数据,其中所述节奏匹配单元包括时间拉伸单元,该时间拉伸单元适于对所述第一输入数据和所述第二输入数据中的至少一个进行时间拉伸或重新采样,并输出具有相互匹配的节奏的第一输出数据和第二输出数据。12.根据权利要求10或权利要求11所述的装置,所述装置进一步包括调匹配单元,该调匹配单元被布置为接收从所述第一混合输入数据获得的第一输入数据和从所述第二混合输入数据获得的第二输入数据,其中所述调匹配单元包括音调移位单元,该音调移位单元适于对所述第一输入数据和所述第二输入数据中的至少一个进行音调移位,并输出具有相互匹配的调的第一输出数据和第二输出数据。
技术总结
本发明涉及一种用于处理和播放音频数据的方法,该方法包括接收混合输入数据和播放重组输出数据的步骤。此外,本发明涉及一种用于处理和播放音频数据的装置10,优选为DJ设备,所述装置包括用于接收混合输入信号的音频输入单元、重组单元32和用于播放重组输出数据的播放单元34。播放单元34。播放单元34。
技术研发人员:
K
受保护的技术使用者:
爱歌睿钉有限公司
技术研发日:
2020.03.17
技术公布日:
2022/7/19