模型训练、歌曲合成、音频标记和歌曲打分方法及其组件与流程

阅读: 评论:0



1.本技术涉及音频处理技术领域,特别是涉及模型训练、歌曲合成、音频标记和歌曲打分方法及其组件。


背景技术:



2.歌唱呼吸是具有乐理性的一项歌唱表达形式。呼吸声能够体现出歌唱者的演唱水平,适宜的呼吸声也可使得合成音乐更加自然。但是,目前的呼吸位置检测仅测出呼吸点的时刻,比较单一,无法满足实际应用需求。
3.综上所述,如何有效地解决歌曲音频的呼吸检测等问题,是目前本领域技术人员急需解决的技术问题。


技术实现要素:



4.本技术的目的是提供模型训练方法、歌曲合成方法、音频标记方法、歌曲打分方法、设备及可读存储介质,能够训练出检测出更多呼吸属性的特征提取模型,能够基于特征提取模型所提取出的呼吸属性对音频进行标记,对歌曲进行评分。
5.为解决上述技术问题,本技术提供如下技术方案:
6.一种模型训练方法,包括:
7.获取歌曲音频和所述歌曲音频对应的歌曲模板;
8.利用所述歌曲模板,确定所述歌曲音频中的所述呼吸位置,并基于所述呼吸位置,确定所述呼吸位置距离前一唱段的所述间隔时长
9.在所述呼吸位置处进行能量提取,得到所述呼吸位置对应的能量峰值和呼吸时长;
10.在所述歌曲音频标注所述呼吸位置、所述间隔时长、所述能量峰值和所述呼吸时长,得到训练样本;
11.利用所述训练样本,对回归模型进行训练,得到特征提取模型。
12.优选地,利用所述歌曲模板,确定所述歌曲音频中的所述呼吸位置,包括:
13.利用所述歌曲模板中的时间间隔信息,确定所述歌曲音频中的呼吸换气点;其中,所述歌曲模板为旋律模板和/或歌词模板;在所述歌词模板中所述时间间隔信息为歌词各字之间的间隔时长;在所述旋律模板中所述时间间隔信息为各音符之间的间隔时长;
14.对所述呼吸换气点进行呼吸检测,得到所述呼吸位置。
15.优选地,对所述呼吸换气点进行呼吸检测,得到所述呼吸位置,包括:
16.若所述旋律模板和歌词模板对应的呼吸位置不同,则对所述歌词模板确定出的呼吸换气点进行呼吸检测,得到所述呼吸位置。
17.优选地,在所述呼吸位置处进行能量提取,得到所述呼吸位置对应的能量峰值和呼吸时长,包括:
18.对所述歌曲音频中的所述呼吸位置处进行采样,得到采样点;
19.提取所述采样点的能量;
20.利用滤波函数对所述能量进行平滑处理,得到能量包络线;
21.利用所述能量包络线,确定所述能量峰值和所述呼吸时长。
22.一种歌曲合成方法,还包括:
23.获取人工合成且无呼吸特征的合成歌曲音频;
24.从参考歌曲库中,获取所述合成歌曲音频对应的参考音频;
25.利用如上述特征提取模型对所述参考音频进行呼吸检测,得到所述参考音频对应的参考呼吸特征;
26.参照所述呼吸参考特征,在所述合成歌曲音频中对应添加呼吸音频。
27.一种音频标记方法,还包括:
28.获取教唱客户端上传的待标记音频;
29.利用如上述特征提取模型对所述待标记音频进行呼吸检测,得到所述参考音频对应的呼吸位置,所述呼吸位置距离前一唱段的间隔时长,所述呼吸位置对应的能量峰值和呼吸时长和间隔时长;
30.利用所述呼吸位置、所述间隔时长、所述能量峰值和所述呼吸时长,在所述待标记音频上标记教唱信息,得到标记音频;
31.将所述标记音频反馈给所述教唱客户端。
32.一种歌曲打分方法,包括:
33.获取用户端上传的目标歌唱音频,并从参考歌曲特征库中,获取所述目标歌曲音频对应的参考呼吸特征;
34.利用如上述特征提取模型,对目标歌唱音频进行呼吸检测,得到所述目标歌唱音频对应的目标呼吸特征;
35.比对所述参考呼吸特征和所述目标呼吸特征中的呼吸位置、间隔时长、能量峰值和呼吸时长,得到所述目标歌唱音频的歌唱评分。
36.优选地,比对所述参考呼吸特征和所述目标呼吸特征,得到所述目标歌唱音频的歌唱评分,包括:
37.对比所述参考呼吸特征和所述目标呼吸特征,得到特征差异;
38.按照所述目标歌曲的分类,对所述特征差异进行加权映射,得到所述歌唱评分。
39.一种电子设备,包括:
40.存储器,用于存储计算机程序;
41.处理器,用于执行所述计算机程序时实现如上述的模型训练方法的步骤,或上述的歌曲合成方法的步骤,或上述的音频标记方法的步骤,或如上述的歌曲打分方法的步骤。
42.一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述的模型训练方法的步骤,或上述的歌曲合成方法的步骤,或上述的音频标记方法的步骤,或如上述的歌曲打分方法的步骤。
43.应用本技术实施例所提供的模型训练方法,获取歌曲音频和歌曲音频对应的歌曲模板;利用歌曲模板,确定歌曲音频中的呼吸位置,并基于呼吸位置,确定呼吸位置距离前一唱段的间隔时长;在呼吸位置处进行能量提取,得到呼吸位置对应的能量峰值和呼吸时长;在歌曲音频标注呼吸位置、间隔时长、能量峰值和呼吸时长,得到训练样本;利用训练样
本,对回归模型进行训练,得到特征提取模型。
44.在本技术中,首先基于歌曲模板确定歌曲音频中的呼吸位置,以及该呼吸位置距离前一唱段的间隔时长,然后再针对呼吸位置进行能量提取,可以得到能量峰值和呼吸时长。然后在歌曲音频上标注呼吸位置、间隔时长、能量峰值和呼吸时长。其中,呼吸位置即表明呼吸出现的具体位置,与前一唱段的间隔时长能够表明呼吸与前一唱段的对应时间关系,能量峰值对应呼吸声的强弱,而呼吸时长则对应呼吸声对应的时长。标注完成后,即可得到训练样本,基于该训练样本对回归模型进行训练,可以得到特征提取模型,该特征提取模式能够对输入的音频提取出呼吸位置、间隔时长、能量峰值和呼吸时长。即,本技术能够训练获得提取多种不同维度的呼吸特征的特征提取模型,该特征提取模型能够满足更多应用需求。
45.相应地,本技术实施例还提供了与上述模型训练方法相对应的歌曲合成方法,基于该特征提取模型能够提取出呼吸位置、间隔时长、能量峰值和呼吸时长,可以对人工合成的合成歌曲音频添加上与参考音频对应的参考呼吸特征的呼吸音频。使得最终得到的合成歌曲音频具有呼吸信息,更加贴合真人歌唱音频,音频更为自然。
46.相应地,本技术实施例还提供了与上述模型训练方法相对应的音频标记方法,基于该特征提取模型能够提取出呼吸位置、间隔时长、能量峰值和呼吸时长,因而可以为待标记音频标记上更为丰富的教唱信息,标记音频反馈给教唱客户端,可以使得用户获得更多教唱信息。
47.相应地,本技术实施例还提供于上述模型训练方法相对应的歌曲打分方法,在该方法中,打分依据参考呼吸特征和目标呼吸特征中的呼吸位置、间隔时长、能量峰值和呼吸时长,最终得到歌唱评分。即,打分参考维度多,能够从多角度考虑,最终得到更为人性化的歌唱评分。
48.相应地,本技术实施例还提供了与上述方法相对应的电子设备和可读存储介质,具有上述技术效果,在此不再赘述。
附图说明
49.为了更清楚地说明本技术实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
50.图1为本技术实施例中一种模型训练方法的实施流程图;
51.图2为本技术实施例中一种能量提取示意图;
52.图3为本技术实施例中一种峰值能量和呼吸时长示意图;
53.图4为本技术实施例中一种歌曲合成处理方法的实施流程图;
54.图5为本技术实施例中一种音频标记方法的实施流程图;
55.图6为本技术实施例中一种歌曲打分方法的实施流程图;
56.图7为本技术实施例中一种电子设备的结构示意图;
57.图8为本技术实施例中一种电子设备的具体结构示意图。
具体实施方式
58.为了使本技术领域的人员更好地理解本技术方案,下面结合附图和具体实施方式对本技术作进一步的详细说明。显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
59.请参考图1,图1为本技术实施例中一种模型训练方法的流程图,该方法包括以下步骤:
60.步骤s001、获取歌曲音频和歌曲音频对应的歌曲模板。
61.其中,歌曲模板具备歌曲的歌词信息或旋律信息,也就是说,歌曲模板可以具体为歌词模板,也可以旋律模板。具体的,对应歌词模板,则对应包括歌词以及各个词或字之间的间隔时间;相应地,对应旋律模板,则对应包括旋律以及各个音符对应的间隔时间。可以预先对歌曲的歌词或旋律进行整理,提前备好歌曲模板。
62.在本技术中,歌曲音频可以为某一歌曲对应的全部音频也可以为片段音频。该歌曲音频可以对应歌曲的原唱,也可以对应其他演奏者,或者该歌曲的合成音频。
63.可以通过读取存储空间、在线接收或近距离传输等方式获取到该歌曲音频以及对应的歌词模板。
64.步骤s002、利用歌曲模板,确定歌曲音频中的呼吸位置,并基于呼吸位置,确定呼吸位置距离前一唱段的间隔时长。
65.考虑到真人演唱歌曲时,间隔一段时间就需要进行呼吸,因而可以借助歌曲模板,确定歌曲音频中的呼吸位置,以及该呼吸位置距离前一唱段的间隔时长。具体的,即,针对歌曲模板中需要演唱部分,按照一般地呼吸间隔规律,以及该模板中的时间间隔,确定出呼吸位置。例如:根据歌曲的歌词模板,当字或单词(或字母)之间的间隔》指定时长(如250毫秒,该指定时长实际可调整)时记录为呼吸换气点,即呼吸位置;根据歌曲的旋律模板,当音符之间的间隔》指定时长(如250毫秒,该指定时长实际可调整)时记录为呼吸换气点,即呼吸位置。
66.考虑到,在实际演奏中,呼吸可能不会严格按照特定的呼吸频率进行,因而在参考歌曲模板的同时,还可以进一步对歌曲音频进行呼吸检测。即,在实际应用中,上述步骤s002利用歌曲模板,确定歌曲音频中的呼吸位置,包括:
67.步骤一、利用歌曲模板中的时间间隔信息,确定歌曲音频中的呼吸换气点;其中,歌曲模板为旋律模板和/或歌词模板;在歌词模板中时间间隔信息为歌词各字之间的间隔时长;在旋律模板中时间间隔信息为各音符之间的间隔时长;
68.步骤二、对呼吸换气点进行呼吸检测,得到呼吸位置。
69.为便于描述,下面将上述两个步骤结合起来进行说明。
70.其中,歌词模板和/或旋律模板指在确定歌曲音频中的呼吸换气点时,可以仅仅借助歌词模板,也可以仅仅借助旋律模板,还可以将二者结合起来。当将二者结合起来时,可以分别基于歌词模板和旋律模板得到对应的呼吸换气点,然后对两组呼吸换气点进行合并,合并可采用并集方式进行。优选地,若旋律模板和歌词模板对应的呼吸位置不同,则对歌词模板确定出的呼吸换气点进行呼吸检测,得到呼吸位置。即,对于旋律模板和歌词模板,当出现呼吸位置分歧时,以歌词模板为准。
71.确定出呼吸换气点之后,可以针对该呼吸换气点位置进行呼吸检测,从而根据呼吸检测结果,确定出呼吸位置。即,当检测到呼吸声时,则该呼吸换气点即对应呼吸位置;当未检测到呼吸声时,则该呼吸换气点不对应呼吸位置。
72.进一步,由于人难以长时间不呼吸,因而还可以在无明显呼吸的位置,如当前后换气点间隔》特定时长(如7秒,实际还可以设置其他时长)或该句静音时长》特定时长(如3秒,实际还可以设置其他时长),标记为呼吸位置。
73.得到呼吸位置后,可以借助歌曲模板直接读取,或通过累加音符间间隔距离的方式,得出该呼吸位置距离前一唱段的间隔时长。
74.步骤s003、在呼吸位置处进行能量提取,得到呼吸位置对应的能量峰值和呼吸时长。
75.确定了呼吸位置之后,便可在呼吸位置处进行能量提取,从而得到呼吸位置对应的能量峰值和呼吸时长。
76.具体的,为了得到不同维度的呼吸特征,在明确呼吸位置之后,可以针对该呼吸位置进行能量提取,从而得到呼吸对应的能量峰值和呼吸时长。能量峰值即为能量最大值。在实际应用中,还可以对呼吸位置对应音频进行处理,从而得到能量形状曲线,基于能量形状曲线确定出能量峰值与呼吸时长。
77.具体的,该呼吸时长即为呼吸能量对应大于某阈值(可设置为无呼吸对应的能量大小)的时长。在实际应用中,该呼吸时长可具体对照能量峰值左右两侧凹点(对应能量峰谷)的距离。
78.具体的,在实际应用中,步骤s003在呼吸位置处进行能量提取,得到呼吸位置对应的能量峰值和呼吸时长,包括:
79.步骤一、对歌曲音频中的呼吸位置处进行采样,得到采样点;
80.步骤二、提取采样点的能量;
81.步骤三、利用滤波函数对能量进行平滑处理,得到能量包络线;
82.步骤四、利用能量包络线,确定能量峰值和呼吸时长。
83.为便于描述,下面将上述四个步骤结合起来,并参考图2进行说明。
84.对呼吸位置(如图2中的音频波形)进行采样,并提取采样点能量(rms energy)如图2中的均方差能量包络,对能量使用滤波函数平滑出能量包络线,如图2中的平滑后均方差能量包络。
85.rms energy=mean(abs(x)**2)x,为采样点的幅值。
86.其中,滤波函数可选savitzky-golay滤波;其中savitzky-golay滤波拟合法是根据ndvi时间序列曲线的平均趋势,确定合适的滤波参数,用多项式实现滑动窗内的最小二乘拟合。如图3所示,平滑后的曲线可用求得极大值点e(平滑后呼吸能量峰值)、以及峰值左右两侧凹点的距离(呼吸的长度)l作为呼吸特征值。
87.步骤s004、在歌曲音频标注呼吸位置、间隔时长、能量峰值和呼吸时长,得到训练样本。
88.具体的,可以将歌曲音频建立对应的呼吸标签,在呼吸标签中注明呼吸位置、间隔时长、能量峰值和呼吸时长,从而得到有标签的训练样本。
89.也就是说,训练样本的呼吸标签即呼吸特征,该呼吸特征包括呼吸位置、间隔时
长、能量峰值和呼吸时长。呼吸位置即表明呼吸出现的具体位置,与前一唱段的间隔时长能够表明呼吸与前一唱段的对应时间关系,能量峰值对应呼吸声的强弱,而呼吸时长则对应呼吸声对应的时长。
90.特别地,在实际应用中,在标注呼吸特征时,可以具体标注歌曲bpm(beat per minute,拍子数,即每分钟节拍数的单位)、呼吸位置、呼吸前后段落的能量、段落等呼吸特征。其中,歌曲bpm可以使用开源工具(例如madmom,一种音乐分析工具,可以用来提取bpm)进行计算;前后段落的能量,可以计算均方根误差(rmse,root mean square error)或者ebur128响度(其中,ebu,european broadcasting union,ebur128响度归一化标准);前一句话持续时长,单位为毫秒;后一句话持续时长单位为毫秒(ms);呼吸位置为距离前一句的时长t,单位为毫秒。
91.步骤s005、利用训练样本,对回归模型进行训练,得到特征提取模型。
92.其中,回归模型为一种预测性的建模技术,其研究的是因变量(目标)和自变量(预测器)之间的关系,这种技术可用于预测分析,时间序列模型以及发现变量之间的因果关系。在本实施例中,对回归模型的具体架构以及具体的回归方法均不做限定。
93.对回归模型进行训练,可以在模型收敛或训练轮次达到预定轮次后,将经过训练的回归模型确定为检测模型。经过训练,该回归模型可以对输入歌曲音频进行呼吸检测,并且得到呼吸特征,该呼吸特征包括呼吸位置、间隔时长、能量峰值和呼吸时长。
94.应用本技术实施例所提供的模型训练方法,获取歌曲音频和歌曲音频对应的歌曲模板;利用歌曲模板,确定歌曲音频中的呼吸位置,并基于呼吸位置,确定呼吸位置距离前一唱段的间隔时长;在呼吸位置处进行能量提取,得到呼吸位置对应的能量峰值和呼吸时长;在歌曲音频标注呼吸位置、间隔时长、能量峰值和呼吸时长,得到训练样本;利用训练样本,对回归模型进行训练,得到特征提取模型。
95.在本技术中,首先基于歌曲模板确定歌曲音频中的呼吸位置,以及该呼吸位置距离前一唱段的间隔时长,然后再针对呼吸位置进行能量提取,可以得到能量峰值和呼吸时长。然后在歌曲音频上标注呼吸位置、间隔时长、能量峰值和呼吸时长。其中,呼吸位置即表明呼吸出现的具体位置,与前一唱段的间隔时长能够表明呼吸与前一唱段的对应时间关系,能量峰值对应呼吸声的强弱,而呼吸时长则对应呼吸声对应的时长。标注完成后,即可得到训练样本,基于该训练样本对回归模型进行训练,可以得到特征提取模型,该特征提取模式能够对输入的音频提取出呼吸位置、间隔时长、能量峰值和呼吸时长。即,本技术能够训练获得提取多种不同维度的呼吸特征的特征提取模型,该特征提取模型能够满足更多应用需求。
96.需要说明的是,基于上述实施例,本技术实施例还提供了相应的改进方案。在优选/改进实施例中涉及与上述实施例中相同步骤或相应步骤之间可相互参考,相应的有益效果也可相互参照,在本文的优选/改进实施例中不再一一赘述。
97.请参考图4,图4为本技术实施例中一种歌曲合成处理方法的流程图,该方法包括以下步骤:
98.s101、获取人工合成且无呼吸特征的合成歌曲音频。
99.合成歌曲音频即为人工合成出的,且无呼吸相关内容的音频。
100.s102、从参考歌曲库中,获取合成歌曲音频对应的参考音频。
101.参考音频即为与该合成歌曲音频同属于一首歌的音频,但该参考音频中具有呼吸特征。
102.s103、利用特征提取模型对参考音频进行呼吸检测,得到参考音频对应的参考呼吸特征。
103.该特征提取模型具体为采用上述实施例所描述的模型训练方法训练出的模型,该模型可以提取出至少四个维度的呼吸特征,即包括呼吸位置,呼吸位置距离前一唱段的间隔时长,呼吸位置对应的能量峰值和呼吸时长和间隔时长。
104.s104、参照呼吸参考特征,在合成歌曲音频中对应添加呼吸音频。
105.得到呼吸参考特征之后,便可参考该呼吸参考特征,在合成歌曲音频中添加呼吸音频。最终可以使得合成音频中的呼吸音频能够与呼吸参考特征相对应。使得合成音频也具备参考演唱音频一样自然和谐的呼吸声,即合成音频更加自然流畅。
106.应用本技术实施例所提供的歌曲合成方法,基于该特征提取模型能够提取出呼吸位置、间隔时长、能量峰值和呼吸时长,可以对人工合成的合成歌曲音频添加上与参考音频对应的参考呼吸特征的呼吸音频。使得最终得到的合成歌曲音频具有呼吸信息,更加贴合真人歌唱音频,音频更为自然。
107.请参考图5,图5为本技术实施例中一种音频标记方法的流程图,该方法包括以下步骤:
108.s201、获取教唱客户端上传的待标记音频。
109.s202、利用如上述实施例所训练出的特征提取模型对待标记音频进行呼吸检测,得到参考音频对应的呼吸位置,呼吸位置距离前一唱段的间隔时长,呼吸位置对应的能量峰值和呼吸时长和间隔时长。
110.s203、利用呼吸位置、间隔时长、能量峰值和呼吸时长,在待标记音频上标记教唱信息,得到标记音频。
111.s204、将标记音频反馈给教唱客户端。
112.具体的,可以在目标歌曲对应的歌曲模板中直接标明何处需呼吸,以及呼吸的强度(深浅),呼吸的时长等信息,能够让用户看到呼吸对应的教唱信息,快速学会该目标歌曲对应的呼吸节奏,快速学会演唱该目标歌曲。
113.应用本技术实施例所提供的音频标记方法,基于该特征提取模型能够提取出呼吸位置、间隔时长、能量峰值和呼吸时长,因而可以为待标记音频标记上更为丰富的教唱信息,标记音频反馈给教唱客户端,可以使得用户获得更多教唱信息。
114.请参考图6,图6为本技术实施例中一种歌曲打分方法的流程图,该方法包括以下步骤:
115.s301、获取用户端上传的目标歌唱音频,并从参考歌曲特征库中,获取目标歌曲音频对应的参考呼吸特征。
116.用户端获取该目标歌唱音频,可以通过麦克风采集而得,也可以通过读取存储空间而得,还可以通过在线接收/下载形式得到。
117.其中,目标歌曲音频可以对应任意需要进行歌曲打分的歌曲音频,如用户歌唱录音。其中,参考呼吸特征可以具体为参考演唱音频目标歌曲的原唱,或较为标准(如受大众欢迎)的演唱。即,该参考演唱音频中对应具有相对标准或富有听觉美感的呼吸声。
118.具体的,可将该参考演唱音频输入到采用上述模型训练方法对应步骤所训练出的特征提取模型对对参考演唱音频进行呼吸检测,从而得到目标歌曲对应的参考呼吸特征。参考呼吸特征可以预先存储在参考歌曲特征库中。
119.参考呼吸特征包括呼吸位置、间隔时长、能量峰值和呼吸时长。
120.s302、利用如上述实施例所训练出的特征提取模型,对目标歌唱音频进行呼吸检测,得到目标歌唱音频对应的目标呼吸特征。
121.从上文可知,该特征提取模型能够提取出至少四个维度的呼吸特征,即呼吸位置、间隔时长、能量峰值和呼吸时长。因而,该呼吸特征包括呼吸位置、间隔时长、能量峰值和呼吸时长。
122.即,将目标歌唱音频输入到特征提取模型中,可以对该目标歌唱音频进行呼吸检测,从而得到该目标歌唱音频对应的目标呼吸特征。该目标呼吸特征和参考呼吸特征一样具有至少四个不同的呼吸属性,即呼吸位置、间隔时长、能量峰值和呼吸时长的呼吸特征。
123.s303、比对参考呼吸特征和目标呼吸特征中的呼吸位置、间隔时长、能量峰值和呼吸时长,得到目标歌唱音频的歌唱评分。
124.通过去比对呼吸参考呼吸特征和演唱呼吸特征,可以得到对应的特征差异。具体的,可以对呼吸位置、间隔时长、能量峰值和呼吸时长中的至少一种特征进行差异比对,得到各种属性的差异,将这种差异确定为特征差异。
125.对特征差异进行映射,可以映射得到演唱音频对应的演唱得分。
126.举例说明:以仅比对峰值能量、呼吸时长和呼吸位置为例,对演唱得分进行说明。其中,呼吸能量比例得分:
[0127][0128]
呼吸时间准确度得分:
[0129]
呼吸时长得分:
[0130]
最终演唱得分:breathy
score
=αe
score
+βt
score
+γl
score
;其中,α、β、γ为权重系数,可根据需求调节。
[0131]
进一步地,步骤s303比对参考呼吸特征和目标呼吸特征中的呼吸位置、间隔时长、能量峰值和呼吸时长,得到目标歌唱音频的歌唱评分,包括:
[0132]
步骤一、对比参考呼吸特征和目标呼吸特征,得到特征差异;
[0133]
步骤二、按照目标歌曲的分类,对特征差异进行加权映射,得到歌唱评分。
[0134]
为便于描述,下面将上述两个步骤结合起来进行说明。
[0135]
一般来说,不同分类的歌曲对应的呼吸声各有特点。例如:抒情歌曲的呼吸声绵长,主歌部分呼吸声较弱,副歌部分呼吸声能量强,呼吸的特征和歌唱表达的情感密切相关;摇滚歌曲呼吸短促,副歌部分的呼吸声具有律动性,和拍点相互交织呼应。在实际应用中,还可以根据歌曲的具体分类,来对特征差异进行加权映射,从而使得演唱得分与歌曲分类对应呼吸特点对应。例如,若目标歌曲为抒情歌曲,则可以针对其主歌部分对应的呼吸特征中的呼吸时长赋予更高的权重,而对于其他属性的呼吸特征赋予更低的权重,而对于副
歌部分的能量峰值赋予更高的权重,而对于其他属性的呼吸特征赋予更低的权重。
[0136]
应用本技术实施例所提供的歌曲打分方法,在该方法中,打分依据参考呼吸特征和目标呼吸特征中的呼吸位置、间隔时长、能量峰值和呼吸时长,最终得到歌唱评分。即,打分参考维度多,能够从多角度考虑,最终得到更为人性化的歌唱评分。
[0137]
相应于上面的方法实施例,本技术实施例还提供了一种电子设备,下文描述的一种电子设备与上文描述的一种模型训练方法、歌曲合成方法、音频标记方法和歌曲打分方法可相互对应参照。
[0138]
参见图7所示,该电子设备包括:
[0139]
存储器332,用于存储计算机程序;
[0140]
处理器322,用于执行计算机程序时实现上述方法实施例的模型训练方法、歌曲合成方法、音频标记方法或歌曲打分方法的步骤。
[0141]
具体的,请参考图8,图8为本实施例提供的一种电子设备的具体结构示意图,该电子设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,cpu)322(例如,一个或一个以上处理器)和存储器332,存储器332存储有一个或一个以上的计算机应用程序342或数据344。其中,存储器332可以是短暂存储或持久存储。存储在存储器332的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地,中央处理器322可以设置为与存储器332通信,在电子设备301上执行存储器332中的一系列指令操作。
[0142]
电子设备301还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作系统341。
[0143]
上文所描述的模型训练方法、歌曲合成方法、音频标记方法或歌曲打分方法中的步骤可以由电子设备的结构实现。
[0144]
相应于上面的方法实施例,本技术实施例还提供了一种可读存储介质,下文描述的一种可读存储介质与上文描述的模型训练方法、歌曲合成方法、音频标记方法和歌曲打分方法可相互对应参照。
[0145]
一种可读存储介质,可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例的模型训练方法、歌曲合成方法、音频标记方法或歌曲打分方法的步骤。
[0146]
该可读存储介质具体可以为u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可存储程序代码的可读存储介质。
[0147]
本领域技术人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。

技术特征:


1.一种模型训练方法,其特征在于,包括:获取歌曲音频和所述歌曲音频对应的歌曲模板;利用所述歌曲模板,确定所述歌曲音频中的所述呼吸位置,并基于所述呼吸位置,确定所述呼吸位置距离前一唱段的所述间隔时长;在所述呼吸位置处进行能量提取,得到所述呼吸位置对应的能量峰值和呼吸时长;在所述歌曲音频标注所述呼吸位置、所述间隔时长、所述能量峰值和所述呼吸时长,得到训练样本;利用所述训练样本,对回归模型进行训练,得到特征提取模型。2.根据权利要求1所述的模型训练方法,其特征在于,利用所述歌曲模板,确定所述歌曲音频中的所述呼吸位置,包括:利用所述歌曲模板中的时间间隔信息,确定所述歌曲音频中的呼吸换气点;其中,所述歌曲模板为旋律模板和/或歌词模板;在所述歌词模板中所述时间间隔信息为歌词各字之间的间隔时长;在所述旋律模板中所述时间间隔信息为各音符之间的间隔时长;对所述呼吸换气点进行呼吸检测,得到所述呼吸位置。3.根据权利要求2所述的模型训练方法,其特征在于,对所述呼吸换气点进行呼吸检测,得到所述呼吸位置,包括:若所述旋律模板和歌词模板对应的呼吸位置不同,则对所述歌词模板确定出的呼吸换气点进行呼吸检测,得到所述呼吸位置。4.根据权利要求2所述的模型训练方法,其特征在于,在所述呼吸位置处进行能量提取,得到所述呼吸位置对应的能量峰值和呼吸时长,包括:对所述歌曲音频中的所述呼吸位置处进行采样,得到采样点;提取所述采样点的能量;利用滤波函数对所述能量进行平滑处理,得到能量包络线;利用所述能量包络线,确定所述能量峰值和所述呼吸时长。5.一种歌曲合成方法,其特征在于,还包括:获取人工合成且无呼吸特征的合成歌曲音频;从参考歌曲库中,获取所述合成歌曲音频对应的参考音频;利用如权利要求1至4任一项所述特征提取模型对所述参考音频进行呼吸检测,得到所述参考音频对应的参考呼吸特征;参照所述呼吸参考特征,在所述合成歌曲音频中对应添加呼吸音频。6.一种音频标记方法,其特征在于,还包括:获取教唱客户端上传的待标记音频;利用如权利要求1至4任一项所述特征提取模型对所述待标记音频进行呼吸检测,得到所述参考音频对应的呼吸位置,所述呼吸位置距离前一唱段的间隔时长,所述呼吸位置对应的能量峰值和呼吸时长和间隔时长;利用所述呼吸位置、所述间隔时长、所述能量峰值和所述呼吸时长,在所述待标记音频上标记教唱信息,得到标记音频;将所述标记音频反馈给所述教唱客户端。7.一种歌曲打分方法,其特征在于,包括:
获取用户端上传的目标歌唱音频,并从参考歌曲特征库中,获取所述目标歌曲音频对应的参考呼吸特征;利用如权利要求1至6任一项所述特征提取模型,对目标歌唱音频进行呼吸检测,得到所述目标歌唱音频对应的目标呼吸特征;比对所述参考呼吸特征和所述目标呼吸特征中的呼吸位置、间隔时长、能量峰值和呼吸时长,得到所述目标歌唱音频的歌唱评分。8.根据权利要求7所述的歌曲打分方法,其特征在于,比对所述参考呼吸特征和所述目标呼吸特征,得到所述目标歌唱音频的歌唱评分,包括:对比所述参考呼吸特征和所述目标呼吸特征,得到特征差异;按照所述目标歌曲的分类,对所述特征差异进行加权映射,得到所述歌唱评分。9.一种电子设备,其特征在于,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如权利要求1至4任一项所述的模型训练方法的步骤,或权利要求5所述的歌曲合成方法的步骤,或权利要求6所述的音频标记方法的步骤,或如权利要求7或8所述的歌曲打分方法的步骤。10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的模型训练方法的步骤,或权利要求5所述的歌曲合成方法的步骤,或权利要求6所述的音频标记方法的步骤,或如权利要求7或8所述的歌曲打分方法的步骤。

技术总结


本申请公开了一种模型训练、歌曲合成、音频标记和歌曲打分方法及其组件,该模型训练方法包括:获取歌曲音频和歌曲音频对应的歌曲模板;利用歌曲模板,确定歌曲音频中的呼吸位置,并基于呼吸位置,确定呼吸位置距离前一唱段的间隔时长;在呼吸位置处进行能量提取,得到呼吸位置对应的能量峰值和呼吸时长;在歌曲音频标注呼吸位置、间隔时长、能量峰值和呼吸时长,得到训练样本;利用训练样本,对回归模型进行训练,得到特征提取模型。本申请能够训练获得提取多种不同维度的呼吸特征的特征提取模型,该特征提取模型能够满足更多应用需求,如歌曲合成、音频标记和歌曲打分。音频标记和歌曲打分。音频标记和歌曲打分。


技术研发人员:

江益靓 赵伟峰 姜涛

受保护的技术使用者:

腾讯音乐娱乐科技(深圳)有限公司

技术研发日:

2022.08.04

技术公布日:

2022/11/22

本文发布于:2022-11-25 12:47:32,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/2/2409.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:呼吸   所述   音频   时长
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图