一种综合性教学视频语音提取文本方法

阅读: 评论:0



1.本发明涉及一种综合性教学视频语音提取文本方法。


背景技术:



2.20世纪90年代互联网初步兴起时,在线教育行业开始发展,其最大特点是创造了跨时空的学习方式。此类教育最初依靠录播传授教学内容,由教师录制视频,上传到互联网,学生在线观看或下载使用。直至如今,教学视频仍然作为在线教育的一个重要载体。
3.然而,视频是一种非结构化数据,传统的信息检索以文本为主要对象,这致使对教学视频内容的搜索和浏览非常困难,如何获取和管理视频数据以满足用户的搜索需求成为热点研究领域。在20世纪90年代提出的基于内容的视频分析(content—based video analysis,cbva)通过对视频结构和语义内容的分析,从非结构化的视频数据中提取具有语义的内容单元作为检索对象。
4.语音识别是将语音信号转换为文本的过程。1952年bell实验室的k.h.davis等人依据对数字元音区域的共振波谱的研究,研发了世界上第一个能识别十个英文数字的audry语音识别系统,标志着现代语音识别技术的开始
2.。进入20世纪70年代,语音识别才有了实质性的进展,出现了逐渐成为主流的隐式马尔科夫模型技术(hmm)。20世纪80年代后期,语音识别研究解决了大词汇量、连续语音和非特定人这三大障碍,其中有代表性的是卡耐基梅隆大学研发的sphinx系统。
5.但教学视频存在着以下特点:(1)音频来自视频流的分离:语音信号包含诸多复杂因素如背景噪音、麦克风质量、环境因素等,因此需要在语音预处理方面对音频进行良好的降噪,增强语音信号。(2)长音频和连续音频:教学视频往往包含大段连续的音频流,这就要求在调用识别内核前,先对该类音频文件进行流畅地“断句”,因此需要在端点检测方面多加优化。
6.当前,在很多教学视频中已经配有字幕供用户观看,目前也存在能够基于语音识别的自动生成字幕系统,以实现自动为视频添加字幕并同步定位。但仍然没有做到文本内容与视频流的分离,并且针对在线教育领域的应用还有所不足,缺乏一种自动化的方法获得教学视频内容文本。如果通过语音识别提取出教学视频数据,就能有效扩展信息检索的范围,实现资源共享,并且用户能根据文本片段定位到视频片段,一定程度上避免了加载视频寻教学内容。


技术实现要素:



7.为了解决目前没有能够实现自动化提取教学视频数据文本内容的技术问题,本发明提供一种能够从教学视频的音频流中提取文本的综合解决方案。
8.为了实现上述技术目的,本发明的技术方案是,
9.一种综合性教学视频语音提取方法,包括以下步骤:
10.步骤1,基于训练过的cldnn即卷积-lstm-全连接神经网络模型来对视频中的语音
进行识别,其中cldnn模型是基于cldnn_64模型,并以能够获取在时间和频率两个方面的特征信息的注意力模块替代cldnn_64中原有lstm;
11.步骤2,基于训练过的双重对抗网络来对步骤1中所提取的语音进行噪声去除,以得到去噪后的语音。
12.所述的方法,所述的步骤1中,注意力模块用于对输入的声学特征在隐藏特征层以最大、平均和标准差三种方式进行池化操作,以获得3个特征向量,然后连接3个特征向量并由4层的一维卷积层进行卷积,且将最后一个卷积层的输出由sigmoid型函数激活,从而获得时间相关特征和频率相关特征,最后求和并与隐藏特征图h合并,得到改进的隐藏特征图h

,注意力模块表达式为:
[0013][0014][0015][0016]
其中,和均∈r
t
×1,并分别代表隐藏特征图h沿频率维度的最大、均值和标准差池化结果,维度为t
×
1,h
temp
为f
temp
的输出;和均∈r1×d,并分别代表特征图h沿时间维度隐藏的最大、均值和标准差池化结果,维度为1
×
d,h
freq
表示f
freq
的输出;f
temp
表示4层一维卷积操作,每层中卷积核的数量分别为3、5、5和1,卷积核大小为11
×
11;σ表示sigmoid函数,表示按元素求和;f
freq
表示和f
temp
层数和卷积核数量相同的卷积操作,但f
freq
的卷积核大小为21
×
21。
[0017]
所述的方法,所述的步骤2中,双重对抗网络包括增强模型e、生成器g和判别器d;其中增强模型e为卷积循环网络,生成器和判别器均是基于dc-gan架构建立,为增强模型e定义损失函数le,为判别器d定义损失函数l
d(e)
,即l
d(e)
表示用于衡量e(x)和s之间差距的方式
[0018][0019][0020]
s表示无噪声语音序列即干净语音,p
clean
对应增强模型产生的语音序列,s~p
clean
代表s服从p
clean
的序列分布,x表示有噪声的语音序列,e(x)表示经过增强模型生成的语音序列,p
noisy
表示有噪声语音序列,x~p
noisy
代表x服从p
noisy
的序列分布,为求均值操作;(s,x)表示s和x的联合分布,λ为用于平衡重建和对抗损失的超参数;
[0021]
损失函数l
d(g)
和g的损失函数lg分别为:
[0022][0023][0024]
z是遵循标准高斯分布n(0,1)的d维随机向量,pz代表z的概率分布,g(z)为生成的语音序列,故l
d(g)
表示衡量g(z)和s之间差异的方式。
[0025]
所述的方法,步骤1中的cldnn模型训练过程包括:
[0026]
向cldnn模型中输入经40维对数梅尔滤波器组输出的具有25ms帧长和10ms移位长度的声学特征序列,且声学特征序列长度t为固定值,以构建用于训练的数据集合;同时以focal loss函数调整训练集中语音和非语音数据的平衡,其中focal loss函数l
fl
(y
t
)为:
[0027]
l
fl
(y
t
)=-(1-y
t
)
γ
log(y
t
)
[0028]
其中γ是可调参数,而y表示序列标签,y
t
为当前时刻序列对应的标签,且与交叉熵损失相同;执行过程中,将调制因子(1-y
t
)
γ
乘以交叉熵;当目标值和预测值之间的差异增加时,则调制因子增加;当差异减小时,调制因子会减小,从而强化纠正错误分实例,并降低了主导类的偏差。
[0029]
所述的方法,步骤2中的双重对抗网络训练过程包括:
[0030]
对抗增强:增强模型产生与实际干净语音相似的增强语音来欺骗判别器,并让判别器学习增强语音和干净语音之间最大的距离;同时使用功能均方误差f-mse来代替对抗性损失项,以修正增强模型的损失函数;
[0031]
对抗生成:判别器学习干净语音和增强语音之间的差异以及干净语音的分布,并正损失函数;
[0032]
同时在训练过程中,采用梯度惩罚正则化和调整更新策略以稳定训练过程:如果输出相对于输入的梯度过大,则正则化将惩罚判别器
[0033][0034]
其中y是从真实的干净语音和假语音的凸组合采样而来:其中y是从真实的干净语音和假语音的凸组合采样而来:是y的梯度;ε是从均匀分布采样的标量;在双重对抗网络中,增强语音和生成的语音都被视为伪样本
[0035]
训练过程中,同时使用调整更新策略更新模型:先将判别器更新五次,然后再进行增强模型和生成器更新一次。
[0036]
一种综合性教学视频语音提取文本方法,基于前述的方法所得到的去噪后的语音,包括以下步骤:
[0037]
采用训练后的端到端的语音识别模型进行后端处理,其中端到端的语音识别模型基于conformer建立,将去噪后的语音输入至语音识别模型,然后对输出结果进行自然语言处理,从而得到文本内容。
[0038]
所述的方法,端到端的语音识别模型的训练过程包括:
[0039]
步骤一,在有标签数据集s上使用specaugment方法训练conformer网络结构得到初始模型m0,记为m;
[0040]
步骤二,将m和语言模型lstm进行shallow fusion处理以融合并评测性能;
[0041]
步骤三,使用融合的模型为未标记数据集u打标签;
[0042]
步骤四,设定信任度阈值,然后剔除低于信任度阈值即置信度较低的数据,得到过滤后的标签数据f(m(u));
[0043]
步骤五,通过为过滤后的标签赋权重b得到数据b*f(m(u));
[0044]
步骤六,将b*f(m(u))和有标签数据混合,使用混合后的数据增强训练m0,得到新的模型m’;
[0045]
步骤七,使m=m’,返回步骤二进行新的一轮训练,当模型收敛或者循环次数达到
阈值结束。
[0046]
本发明的技术效果在于,本发明的前端处理采取基于双重对抗网络(dan)的语音增强和基于时域和频域双注意力的端点检测模型,保证了在含背景噪音和连续长音频的情况下提取出较纯净的语音信号,同时在后端处理采用基于卷积增强的transformer语音识别模型:conformer,使得非流式语音识别的精度和稳定性有了进一步的提升。本发明在公开数据集aishell-1和自搜集的教学视频数据上进行训练,并通过与三个现有模型cnn-input、acs和cnn+blstm+ctc进行比较,表明本文提出的方法准确率较高,表现良好。
[0047]
下面结合附图对本发明作进一步说明。
附图说明
[0048]
图1为本发明语音识别执行流程示意图;
[0049]
图2为本发明中conformer模型结构示意图。
具体实施方式
[0050]
本实施例是基于教学视频中的音频通常是连续长音频,尤其是在非平稳噪声的背景下的连续长音频的情况下所实施的。本实施例使用cldnn(卷积、长短期记忆、深度神经网络)模型,输入为40维对数梅尔滤波器组(log mel-filterbanks),具有25ms帧长和10ms移位长度的声学特征,用于语音活动检测,具体模型结构为cldnn_64,并且引入一种新的注意力模块集成cldnn模型中的lstm,使得端点检测模型可以同时关注时域和频域信息,从而提升模型的整体性能。通过使用focal loss降低训练集中语音和非语音数据的不平衡问题。
[0051]
本实施例所提供的attention模块即注意力模块,可以分别获取在时间和频率两个方面的特征信息。首先在隐藏特征层以三种方式池化操作:最大、平均和标准差,再将获得的3个特征向量连接起来并由一维卷积层进行卷积,最后一个卷积层的输出被扩展为原来的隐藏特征层h,然后由sigmoid型函数激活。在获取时间和频率的信息时,在池化方向和卷积层的kernel大小方面有差别。
[0052]
通过上述操作分别得到时间相关特征:和h
temp
,其中分别代表隐藏特征图h沿频率维度的最大、均值和标准差池化结果,维度为t
×
1,h
temp
为f
temp
的输出。频率相关特征:和h
freq
,其中分别代表特征图h沿时间维度隐藏的最大、均值和标准差池化结果,维度为1
×
d,h
freq
表示f
freq
的输出。最后,通过按元素求和将其与h合并,然后获得改进的隐藏特征图h’。注意力模块表示如下:
[0053][0054][0055][0056]
其中,f
temp
表示11个卷积核的一维卷积。它由4层组成,filter的数量分别为3、5、5和1。σ表示sigmoid函数,表示按元素求和。f
freq
表示和f
temp
层数和卷积核数量相同的卷积
操作,但f
freq
为21个卷积核的一维卷积。训练过程中的序列长度t预先固定,以构建用于训练的mini-batch。
[0057]
本实施例同时使用focal loss函数来减轻在分类不平衡环境下的地效率训练,其描述如下:
[0058]
l
fl
(y
t
)=-(1-y
t
)
γ
log(y
t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0059]
其中γ是可调参数,而y
t
与交叉熵损失相同。在操作中,将调制因子(1-y
t
)
γ
乘以交叉熵。当目标值和预测值之间的差异增加时,调制因子会增加。当差异减小时,调制因子会减小。通过这种机制,它强化了纠正错误分实例,并降低了主导类的偏差。
[0060]
由于教学视频中的音频肯定存在着噪声,这些噪声无疑会干扰模型的学习过程,并且教学视频中的音频是单声道音频,为了提高语音识别(asr)的噪声鲁棒性,前端处理方面往往使用基于生成对抗网络(generative adversarial network,gan)的增强方法,同样本文也使用一种双重对抗网络的(double adversarial network,dan)的模型进行前端处理。
[0061]
双重对抗网络主要由增强模型e、生成器g和判别器d组成。增强模型e是一个卷积循环网络(convolution recurrent networdk),输入为含噪语音的40维log mel-filterbanks特征。生成器和判别器采用的是dc-gan的架构,从干净和增强语音中随机截取40帧的log mel-filterbanks特征,分别作为假样本和真实样本处理。对于判别器截取的log mel-filterbanks特征需要上采样到64*64以匹配其结构。对于生成器,输入为128维符合高斯分布的随机向量,输出为64*64的上采样log mel-filterbanks片段。
[0062]
在对抗增强过程中,增强模型e的主要任务是从嘈杂语音x中重建干净语音s,判别器d被训练区分真实干净语音s和增强语音通过在e和d之间进行对抗训练,增强模型尝试通过产生与实际干净语音相似的语音来欺骗判别器,并让判别器学习增强语音和干净语音之间最大的距离。同时使用功能均方误差f-mse来代替对抗性损失项,修正e的损失函数。d和e的损失函数如下:
[0063][0064][0065]
其中λ是一个超参数,用于平衡重建和对抗损失。
[0066]
在对抗生成过程中,添加了一个附加的生成器g并针对判别器进行训练。通过在g和d之间进行对抗训练,判别器不仅要学习干净语音和增强语音之间的差异,还要学习干净语音的分布。d和g的损失函数如下:
[0067][0068][0069]
其中z是遵循标准高斯分布n(0,1)的d维随机向量。
[0070]
在训练过程中gan始终会遭受不稳定因素的困扰。本实施例中使用梯度惩罚正则化和调整更新策略来稳定训练过程。如果输出相对于输入的梯度过大,则正则化将惩罚判别器:
[0071][0072][0073]
其中y是从真实的干净语音和假语音的凸组合采样而来:ε是从均匀分布采样的标量。在dan中,增强语音和生成的语音都被视为伪样本:为了进一步稳定训练过程,使用调整更新策略更新模型。具体来说,先将判别器更新五次,然后再进行增强模型和生成器更新一次。
[0074]
通过整合两个对抗过程和梯度惩罚正则化,可以得到dans中判别器的损失函数如下:
[0075][0076]
其中γ是用于gp正则化的超参数。
[0077]
经过前两个步骤之后已经可以从教学视频提取出未标记的语音样本,下一步就进入语音识别的后端处理部分,本实施例采用conformer用于构建模型,即图2所示的模型。
[0078]
当端到端模型的结构确定之后,最终模型的性能很大程度上取决于提供的数据,并且端到端模型对数据的需求也要超过传统模型。虽然在语音识别领域已经出现很多公开的数据集,但如果要研究某一特定领域下的语音识别时,就发现数据问题仍然存在,比如教学视频语音识别,没有符合特定场景的数据就无法确定模型在实际情况下的表现是否符合预期。
[0079]
为了解决这个问题,本实施例使用noisy student training使模型进行半监督学习。noisy student training的流程如下:
[0080]
1.在有标签数据集s上使用specaugment方法训练conformer网络并得到初始模型m0,记为m;
[0081]
2.将m和lm模型进行shallow fusion
[22]
并且评测性能;
[0082]
3.使用融合的模型和未标记数据集u打标签;
[0083]
4.过滤置信度较低的数据,得到过滤后的标签数据f(m(u));
[0084]
5.平衡f(m(u))得到数据b*f(m(u));
[0085]
6.将5中得到的数据和有标签数据混合,使用语音增强训练新的模型m’;
[0086]
7.使m=m’跳到步骤二进行新的一轮训练,当模型收敛或者循环次数达到阈值结束;
[0087]
图1说明了本文提出的方案。在得到原始的未标记教学视频数据,通过vad处理和dan降噪之后,得到未标记的音频片段。然后使用noisy student training过程将未标记的音频片段用于训练模型。
[0088]
本实施例使用的数据集包括公开数据集aishell-1(有标记数据)和教学视频数据集来进行效果验证。其中教学视频数据集已经通过预训练好的语音活动检测模型和语音增强模型进行处理,最终获取了共计800h的训练样本。使用40维log mel-filterbanks作为模型的输入特征,帧窗口范围为25毫秒,连续帧之间的移动窗口为10毫秒。解码目标词汇包括
aishell-1中出现的所有4334个字符(4328个汉字和6个特殊标记
‘’


a’、

b’、

c’、

k’、

t’),由于aishell-1中已包含了常用的汉字,所以没有在这个基础上增加目标词汇。
[0089]
在noisy student training的设置中,本实施例使用了specaugment和语言模型lm,没有使用任何过滤和平衡操作,混合操作也没有使用batch-wise混合。其中specaugment和lm的设置如下:
[0090]
1.本实施例使用具有自适应时间掩码大小的specaugment,两个掩码参数(f)27的频率掩码和十个最大时间掩码比(ps)0.05的时间掩码,其中时间掩码的最大大小设置为ps乘以话语长度,不使用时间扭曲。
[0091]
2.本实施例使用3层lstm语言模型,宽度为4096,在aishell-1语料库和自搜集的教学相关语料数据上训练。
[0092]
将本实施例提出的方案与三个现有的模型:cnn-input、acs和cnn+blstm+ctc进行比较。测试集使用的是从教学视频中手工标记的数据,这部分数据没有在训练数据中出现过。用三个模型分别在aishell-1数据和aishell-1与教学视频数据混合数据下训练性能表现。
[0093]
比较结果如表1所示,其中最低wer以粗体显示。本文提出的方案实现了最佳性能,并且在混合数据下训练的模型相比于单独在aishell-1训练的模型在字错误率方面降低了5%左右,最终可以在教学视频数据中达到21.3%的字错误率。
[0094]
表1与其他模型对比效果
[0095]

技术特征:


1.一种综合性教学视频语音提取方法,其特征在于,包括以下步骤:步骤1,基于训练过的cldnn即卷积-lstm-全连接神经网络模型来对视频中的语音进行识别,其中cldnn模型是基于cldnn_64模型,并以能够获取在时间和频率两个方面的特征信息的注意力模块替代cldnn_64中原有lstm;步骤2,基于训练过的双重对抗网络来对步骤1中所提取的语音进行噪声去除,以得到去噪后的语音。2.根据权利要求1所述的方法,其特征在于,所述的步骤1中,注意力模块用于对输入的声学特征在隐藏特征层以最大、平均和标准差三种方式进行池化操作,以获得3个特征向量,然后连接3个特征向量并由4层的一维卷积层进行卷积,且将最后一个卷积层的输出由sigmoid型函数激活,从而获得时间相关特征和频率相关特征,最后求和并与隐藏特征图h合并,得到改进的隐藏特征图h

,注意力模块表达式为:,注意力模块表达式为:,注意力模块表达式为:其中,和均∈r
t
×1,并分别代表隐藏特征图h沿频率维度的最大、均值和标准差池化结果,维度为t
×
1,h
temp
为f
temp
的输出;和均∈r1×
d
,并分别代表特征图h沿时间维度隐藏的最大、均值和标准差池化结果,维度为1
×
d,h
freq
表示f
freq
的输出;f
temp
表示4层一维卷积操作,每层中卷积核的数量分别为3、5、5和1,卷积核大小为11
×
11;σ表示sigmoid函数,

表示按元素求和;f
freq
表示和f
temp
层数和卷积核数量相同的卷积操作,但f
freq
的卷积核大小为21
×
21。3.根据权利要求1所述的方法,其特征在于,所述的步骤2中,双重对抗网络包括增强模型e、生成器g和判别器d;其中增强模型e为卷积循环网络,生成器和判别器均是基于dc-gan架构建立,为增强模型e定义损失函数l
e
,为判别器d定义损失函数l
d(e)
,即l
d(e)
表示用于衡量e(x)和s之间差距的方式量e(x)和s之间差距的方式s表示无噪声语音序列即干净语音,p
clean
对应增强模型产生的语音序列,s~p
clean
代表s服从p
clean
的序列分布,x表示有噪声的语音序列,e(x)表示经过增强模型生成的语音序列,p
noisy
表示有噪声语音序列,x~p
noisy
代表x服从p
noisy
的序列分布,为求均值操作;(s,x)表示s和x的联合分布,λ为用于平衡重建和对抗损失的超参数;损失函数l
d(g)
和g的损失函数l
g
分别为:分别为:z是遵循标准高斯分布n(0,1)的d维随机向量,p
z
代表z的概率分布,g(z)为生成的语音
序列,故表示衡量g(z)和s之间差异的方式。4.根据权利要求2所述的方法,其特征在于,步骤1中的cldnn模型训练过程包括:向cldnn模型中输入经40维对数梅尔滤波器组输出的具有25ms帧长和10ms移位长度的声学特征序列,且声学特征序列长度t为固定值,以构建用于训练的数据集合;同时以focal loss函数调整训练集中语音和非语音数据的平衡,其中focal loss函数l
fl
(y
t
)为:l
fl
(y
t
)=-(1-y
t
)
γ
log(y
t
)其中γ是可调参数,而y表示序列标签,y
t
为当前时刻序列对应的标签,且与交叉熵损失相同;执行过程中,将调制因子(1-y
t
)
γ
乘以交叉熵;当目标值和预测值之间的差异增加时,则调制因子增加;当差异减小时,调制因子会减小,从而强化纠正错误分实例,并降低了主导类的偏差。5.根据权利要求3所述的方法,其特征在于,步骤2中的双重对抗网络训练过程包括:对抗增强:增强模型产生与实际干净语音相似的增强语音来欺骗判别器,并让判别器学习增强语音和干净语音之间最大的距离;同时使用功能均方误差f-mse来代替对抗性损失项,以修正增强模型的损失函数;对抗生成:判别器学习干净语音和增强语音之间的差异以及干净语音的分布,并正损失函数;同时在训练过程中,采用梯度惩罚正则化和调整更新策略以稳定训练过程:如果输出相对于输入的梯度过大,则正则化将惩罚判别器入的梯度过大,则正则化将惩罚判别器其中y是从真实的干净语音和假语音的凸组合采样而来:其中y是从真实的干净语音和假语音的凸组合采样而来:是y的梯度;ε是从均匀分布采样的标量;在双重对抗网络中,增强语音和生成的语音都被视为伪样本训练过程中,同时使用调整更新策略更新模型:先将判别器更新五次,然后再进行增强模型和生成器更新一次。6.一种综合性教学视频语音提取文本方法,其特征在于,基于权利要求1-5任一所述的方法所得到的去噪后的语音,包括以下步骤:采用训练后的端到端的语音识别模型进行后端处理,其中端到端的语音识别模型基于conformer建立,将去噪后的语音输入至语音识别模型,然后对输出结果进行自然语言处理,从而得到文本内容。7.根据权利要求6所述的方法,其特征在于,端到端的语音识别模型的训练过程包括:步骤一,在有标签数据集s上使用specaugment方法训练conformer网络结构得到初始模型m0,记为m;步骤二,将m和语言模型lstm进行shallow fusion处理以融合并评测性能;步骤三,使用融合的模型为未标记数据集u打标签;步骤四,设定信任度阈值,然后剔除低于信任度阈值即置信度较低的数据,得到过滤后的标签数据f(m(u));步骤五,通过为过滤后的标签赋权重b得到数据b*f(m(u));步骤六,将b*f(m(u))和有标签数据混合,使用混合后的数据增强训练m0,得到新的模
型m’;步骤七,使m=m’,返回步骤二进行新的一轮训练,当模型收敛或者循环次数达到阈值结束。

技术总结


本发明公开了一种综合性教学视频语音文本提取方法。首先基于训练过的CLDNN模型来对视频中的语音进行识别;然后基于训练过的双重对抗网络来对步骤1中所提取的语音进行噪声去除,以得到去噪后的语音。最后采用训练后的端到端的语音识别模型进行后端处理,其中端到端的语音识别模型基于Conformer建立,将去噪后的语音输入至语音识别模型,然后对输出结果进行自然语言处理,从而得到文本内容。本发明针对教学视频的特性,通过包括语音活动检测、语音增强和后端处理三个部分的综合方案来实现文本提取,同时引入Noisy Student Training半监督学习方法以使得模型可以在大规模无标签的数据下习通进行学。过实验证明,本文提出的方案可以有效地提高文本提取的效率与准确性。方案可以有效地提高文本提取的效率与准确性。方案可以有效地提高文本提取的效率与准确性。


技术研发人员:

马慧敏 李涵宇 朱红求 魏玮 张忠腾 南亦雄 葛雨晴 刘逸峰

受保护的技术使用者:

中南大学

技术研发日:

2022.03.23

技术公布日:

2022/6/17

本文发布于:2022-11-25 12:56:04,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/4/2495.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:语音   模型   卷积   数据
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图