视频处理方法、装置、电子设备、可读存储介质及系统与流程

阅读：评论：0

1.本技术涉及多媒体技术领域，具体涉及一种视频处理方法、装置、电子设备、可读存储介质及系统。

背景技术：

2.随着技术的发展，电子设备的应用越来越广泛。人们经常使用电子设备观看视频。例如，当观看的视频是国外剧时，视频中采用的视频语种通常是外语(不是用户的母语)，并配有用户的母语字幕，当用户听不懂该外语时，可以借助字幕来理解视频内容，这使得用户的注意力都集中在字幕上，而错过视频中的其他重要细节。
3.相关技术中，一般采用视频文件配音的方法将原视频中的音频消除，使用用户熟悉的语种进行配音得到新视频，但是新视频中配音形成的音频比较单一，不能体现出原视频中说话人的个性化音频特征，影响新视频中音频的逼真度。

技术实现要素：

4.本技术实施例提供一种视频处理方法、装置、电子设备、可读存储介质及系统，可以提高所合成的多媒体视频中音频的逼真度。
5.第一方面，本技术实施例提供一种视频处理方法，包括：获取原始多媒体视频，原始多媒体视频包括具有第一语种的原始音频、视频文件和具有第二语种的字幕文本；将原始音频裁剪成与字幕文本中说话人的语句字幕对应的音频片段；提取音频片段中说话人的特征信息；根据说话人的语句字幕和说话人的特征信息生成具有第二语种的目标音频；将目标音频、视频文件和字幕文本合成目标多媒体视频。
6.第二方面，本技术实施例提供一种视频处理装置，包括：获取模块，用于获取原始多媒体视频，原始多媒体视频包括具有第一语种的原始音频、视频文件和具有第二语种的字幕文本；裁剪模块，用于将原始音频裁剪成与字幕文本中说话人的语句字幕对应的音频片段；提取模块，用于提取音频片段中说话人的特征信息；生成模块，用于根据说话人的语句字幕和说话人的特征信息生成具有第二语种的目标音频；合成模块，用于将目标音频、视频文件和字幕文本合成目标多媒体视频。
7.第三方面，本技术实施例提供一种电子设备，包括存储器和处理器，其特征在于，处理器通过调用存储器中存储的计算机程序，用于执行如上述各实施例中的视频处理方法中的步骤。
8.第四方面，本技术实施例提供一种计算机可读的存储介质，其上存储有计算机程序，当计算机程序在计算机上执行时，使得计算机执行上述各实施例中的视频处理方法中的步骤。
9.第五方面，本技术实施例提供一种视频处理系统，包括流媒体设备和音频合成服务器，流媒体设备包括音视频分离器、音频预处理模块和同步器，音频合成服务器包括语音识别模块和语音合成器，其中，音视频分离器，用于获取原始多媒体视频，并从原始多媒体
视频中确定具有第一语种的原始音频、视频文件和具有第二语种的字幕文本；音频预处理模块，与音视频分离器连接，用于将原始音频裁剪成与字幕文本中说话人的语句字幕对应的音频片段；语音识别模块，与音频预处理模块连接，用于提取音频片段中说话人的特征信息；语音合成器，与语音识别模块连接，用于根据说话人的语句字幕和说话人的特征信息生成具有第二语种的目标音频；同步器，与语音合成器连接，用于将目标音频、视频文件和字幕文本合成目标多媒体视频。
10.本技术实施例中，首先将原始多媒体视频中的原始音频裁剪成与字幕文本中说话人的语句字幕对应的音频片段，然后，提取音频片段中说话人的特征信息，并根据说话人的语句字幕和说话人的特征信息生成具有第二语种的目标音频；最后，将目标音频、视频文件和字幕文本合成目标多媒体视频。由于合成的目标音频与字幕文本属于同一语种，即第二语种，为目标用户所熟悉的语种，目标用户在观看处理后的视频，可以轻松理解音频内容，并且能够关注视频画面的细节。由于合成的目标音频融合了原始音频中说话人的特征信息，保留了原始音频中说话人的个性化音频特征。因此，本技术实施例可以提高所合成的多媒体视频中音频的逼真度。
附图说明
11.图1是本技术实施例提供的视频处理方法的第一种流程示意图；
12.图2是本技术实施例提供的视频处理方法的第二种流程示意图；
13.图3是本技术实施例提供的视频处理方法的第三种流程示意图；
14.图4是本技术实施例提供的视频处理装置的结构示意图；
15.图5是本技术实施例提供的电子设备的一种结构示意图；
16.图6是本技术实施例提供的电子设备的另一种结构示意图；
17.图7是本技术实施例提供的视频处理系统的结构示意图。
具体实施方式
18.请参照图示，其中相同的组件符号代表相同的组件，本技术的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本技术具体实施例，其不应被视为限制本技术未在此详述的其它具体实施例。
19.可以理解的是，本技术实施例的执行主体可以是诸如智能手机、电脑、智能电视等具有视频处理功能的电子设备。
20.请参阅图1，图1是本技术实施例提供的第一种视频处理方法的流程示意图，流程可以包括：
21.101、获取原始多媒体视频，原始多媒体视频包括具有第一语种的原始音频、视频文件和具有第二语种的字幕文本。
22.随着技术的发展，电子设备的应用越来越广泛。人们经常使用电子设备观看视频。例如，当观看的视频是国外剧时，视频中采用的视频语种通常是外语(不是用户的母语)，并配有用户的母语字幕，当用户听不懂该外语时，可以借助字幕来理解视频内容，这使得用户的注意力都集中在字幕上，而错过视频中的其他重要细节。
23.相关技术中，一般采用视频文件配音的方法将原视频中的音频消除，使用用户熟
悉的语种进行配音得到新视频，但是新视频中配音形成的音频比较单一，不能体现出原视频中说话人的个性化音频特征，影响新视频中音频的逼真度。
24.本技术实施例中，电子设备可以从网络服务器中获取原始多媒体视频，可以边下载边进行视频处理，例如，可以缓存一定时长的原始多媒体视频，然后进行视频处理。在另一个实施例中，电子设备还可以通过电子设备的数据接口获取原始多媒体视频，例如通过type-c接口，将原始多媒体视频拷贝到电子设备本地进行处理。
25.在一个实施例中，原始多媒体视频包括具有第一语种的原始音频、视频文件和具有第二语种的字幕文本。其中，第一语种可以是用户不熟悉的语种，第二语种可以是用户熟悉的语种。例如，第一语种可以是英语，第二语种可以是中文，该视频以英语音频进行播放，并且配有中文字幕。可以理解的是，该原始多媒体视频主要针对的是熟悉英语或中文的用户，特别是针对熟悉中文但不太熟悉英语的用户。在其他实施例中，第一语种可以是韩语或日语等，第二语种可以是英语或者德语等。
26.102、将原始音频裁剪成与字幕文本中说话人的语句字幕对应的音频片段。
27.比如，电子设备获取到原始多媒体视频后，若用户直接观看原始多媒体视频时，由于不熟悉第一语种，无法听懂原始音频，因此注意力大部分会集中在第二语种的字幕文本上，通过字幕文本了解原始多媒体视频的情节内容，可能会错过视频中的一些细节。例如，对于熟悉中文但不太熟悉英语的用户，用户在观看视频时，注意力大部分会集中在中文字幕上，可能会错过视频中的一些细节。因此，本技术实施例从原始多媒体视频中提取出原始音频，即将原始音频从原始多媒体视频中分离出来，以便于后续对分离出来的原始音频进行处理。
28.例如，电子设备可以将原始音频分离为背景音频和前景音频(即原始音频)，可以理解的是，原始音频为原始多媒体视频中的语音，其与字幕文本是对应的。电子设备分离得到原始音频后，可以将原始音频裁剪成与字幕文本中说话人的语句字幕对应的音频片段。
29.在一个实施例中，原始音频中可以只有一个说话人，例如当原始多媒体视频为纪录片或者单人脱口秀时，提取出的原始音频就只有一个说话人。可以将该单个说话人的原始音频按照语句字幕进行裁剪，可以根据具体情况裁剪成一个或多个音频片段。语句字幕可以是视频播放界面显示的一个字幕行，也可以是该单个说话人的一句完整语句，该完整语句可以是多个字幕行，也可以是半个字幕行，裁剪得到的音频片段均为该单个说话人的音频片段。
30.在另一个实施例中，原始音频也可以有两个以上(含两个)的说话人，例如当原始多媒体视频为电影视频时，提取出的原始音频可以包括多个说话人的音频，多个说话人对应的音频交替出现，形成对话。因此可以将原始音频按照每个说话人的语句字幕进行裁剪，裁剪得到的音频片段都只包含单个说话人的音频片段。例如，原始音频中依次出现说话人a、说话人b、说话人a、说话人c，则将该原始音频裁剪成4个音频片段，第一个音频片段只包括说话人a的音频，第二个音频片段只包括说话人b的音频，第三个音频片段只包括说话人a的音频，第四个音频片段只包括说话人c的音频，裁剪后得到的音频片段均只包括单个说话人。针对每个说话人，裁剪成的音频片段可以是一个，也可以是多个。
31.需要说明的是，在对原始音频进行裁剪时，对于说话人的语句字幕，每个语句字幕通过帧编号进行区分。根据帧编号可计算语句字幕所占用的时间区间，例如，通过提供帧编
号，可以通过视频的帧/秒(fps)得到语句字幕的时间区间，这样就可以得到裁剪成的不同时间区间的音频片段。
32.103、提取音频片段中说话人的特征信息。
33.比如，电子设备将原始音频按照字幕文本中说话人的语句字幕裁剪后，得到只包括单个说话人的音频片段。然后可以从音频片段中提取说话人的特征信息。说话人的特征信息可以用来区分不同的说话人，体现说话人的个性化音频特征。在一个实施例中，说话人的特征信息可以是说话人的声音特征，例如说话人的音高或音，还可以同时获取说话人的音强。需要说明的是，音高是声音的三大特征之一，区别于音强和音，发音体整体振动产生的音，叫做基音，决定音高，振动波长越大，频率越小；发音体部分振动产生的音，叫做泛音，决定音。音高与音的决定波段不同，因此两者是独立的，并无关联，均能体现说话人的个性特征。
34.104、根据说话人的语句字幕和说话人的特征信息生成具有第二语种的目标音频。
35.比如，电子设备提取到音频片段中说话人的特征信息后，可以根据该说话人的语句字幕生成符合该说话人的特征信息的目标音频片段。该目标音频片段采用第二语种，即与字幕文本所采用的语种相同。然后按照顺序依次将所有的目标音频片段连接，得到具有第二语种的目标音频。
36.需要说明的是，目标音频与字幕文本相同，同属于第二语种，根据说话人的语句字幕生成相应的目标音频不需要经过翻译，可以直接生成，不需要复杂的翻译算法。只是生成时融合了音频片段中说话人的特征信息，从而使生成的目标音频更加逼真。
37.例如，可以根据语句字幕在字幕文本中出现的时间区间，将多个目标音频片段按照顺序进行连接。还可以根据音频片段在原始音频中出现的时间区间对多个目标音频片段按照顺序进行连接。从而可以确保目标音频与字幕文本的同步性，避免错位。
38.105、将目标音频、视频文件和字幕文本合成目标多媒体视频。
39.比如，在生成目标音频后，电子设备将目标音频、视频文件和字幕文本合成目标多媒体视频，即将原始多媒体视频中的原始音频替换为目标音频，合成一种以第二语种进行播放的目标多媒体视频。
40.在一个实施例中，可以首先将目标音频与字幕文本进行同步，例如，可以将目标音频和字幕文本进行时间区间的对应，然后将同步后的目标音频、字幕文本与视频文件合成为目标多媒体视频。
41.在另一实施例中，可以首先将目标音频与视频文件进行同步，例如，可以将目标音频和视频文件进行时间区间的对应，然后将同步后的目标音频、字幕文本与视频文件合成为目标多媒体视频。
42.可以理解的是，目标多媒体视频播放时，以第二语种的目标音频进行播放，同时显示第二语种的字幕，并且目标音频包含有说话人的个性特征，因此可以提高所合成的多媒体视频中音频的逼真度，更加接近说话人的个性化音频特征。
43.本技术上述实施例的视频处理方法，首先将原始多媒体视频中的原始音频裁剪成与字幕文本中说话人的语句字幕对应的音频片段，然后，提取音频片段中说话人的特征信息，并根据说话人的语句字幕和说话人的特征信息生成具有第二语种的目标音频；最后，将目标音频、视频文件和字幕文本合成目标多媒体视频。由于合成的目标音频与字幕文本属
于同一语种，即第二语种，为目标用户所熟悉的语种，目标用户在观看处理后的视频，可以轻松理解音频内容，并且能够关注视频画面的细节。由于合成的目标音频融合了原始音频中说话人的特征信息，保留了原始音频中说话人的个性化音频特征。因此，本技术实施例可以提高所合成的多媒体视频中音频的逼真度。
44.请参阅图2，图2是本技术实施例提供的第二种视频处理方法的流程示意图，流程可以包括：
45.201、获取原始多媒体视频，原始多媒体视频包括具有第一语种的原始音频、视频文件和具有第二语种的字幕文本。
46.201的具体实施请参见101的实施例，在此不再赘述。
47.202、将原始音频裁剪成与字幕文本中说话人的语句字幕对应的音频片段。
48.比如，电子设备获取到原始多媒体视频后，本技术实施例从原始多媒体视频中提取出原始音频，即将原始音频从原始多媒体视频中分离出来，然后从原始音频中提取前景音频(即原始音频)，可以理解的是，原始音频为原始多媒体视频中的语音，其与字幕文本是对应的。
49.本实施例中，原始音频包括两个以上(含两个)的说话人，可以将原始音频按照每个说话人的语句字幕进行裁剪，裁剪得到的音频片段都只包含单个说话人。关于具体如何对原始音频进行裁剪，请参见102中的实施例，在此不再赘述。
50.203、提取音频片段中说话人的特征信息。
51.203的具体实施例可以参见103的实施例，在此不再赘述。
52.204、若说话人的特征信息符合第一预设条件，则根据说话人的特征信息获取说话人的目标特征信息。
53.比如，在一个实施例中，说话人的特征信息可以是声音特征信息。若说话人的声音特征信息符合第一预设条件，则根据说话人的声音特征信息获取说话人的目标特征信息。
54.需要说明的是，说话人的目标特征信息可以是说话人的年龄、性别和情绪中的至少一种。例如，说话人的目标特征信息可以包括说话人的年龄，再如，说话人的目标特征信息可以包括说话人的年龄和性别，又如，说话人的目标特征信息可以包括说话人的年龄、性别和情绪，等等。
55.在一个实施例中，可以预先设定一个说话人信息库，说话人信息库中存储有与已经识别过的说话人对应的声音特征信息和目标特征信息。将提取的说话人的特征信息与说话人信息库中已经识别过的说话人对应的声音特征信息进行比较，若提取的说话人的特征信息与说话人信息库中已经识别过的说话人对应的声音特征信息符合第一预设条件，则直接从说话人信息库中获取说话人的目标特征信息。
56.例如，第一预设条件可以是已经注册过的声音特征信息。可以根据音高的频率来判断音频片段中说话人是否为说话人信息库中已经识别过的说话人。例如，可以给已经识别过的说话人a的音高频率(例如1500hz)设置一个波动范围(例如
±
25hz)，即说话人a的音高频率区间为1475-1525hz，当音频片段中说话人的频率为1520hz时，符合上述波动范围的第一预设条件，可以将该说话人识别为说话人a，从而可以直接从说话人信息库中获取说话人的目标特征信息，而不用花大量算力去计算该说话人的目标特征信息，节省了系统运算资源，减少计算量。
57.205、若说话人的特征信息符合第二预设条件，则确定说话人的目标特征信息。
58.在一个实施例中，说话人的特征信息可以是声音特征信息。若说话人的声音特征信息符合第二预设条件，则根据说话人的声音特征信息获取说话人的目标特征信息。
59.在一个实施例中，第二预设条件可以是未注册过的声音特征信息。可以根据音高的频率来判断音频片段中说话人是否为说话人信息库中已经识别过的说话人。当音频片段中说话人的音高的频率不属于说话人信息库中已经识别过的任一说话人的音高频率区间，即符合第二预设条件，则说明音频片段中该说话人没有被存储在说话人信息库中，为一个新说话人。因此，可以对该新说话人的目标特征信息进行识别确定。
60.在一个实施例中，可以通过深度学习模型来进行预测新说话人的年龄和性别。例如，预先准备一些说话者(不同年龄和性别)声音特征样本，每个说话者的声音特征样本可以包括音高、音，还可以进一步包括mel频率倒谱系数和共振峰。通过对大量的已知声音特征样本进行训练，得到可靠的深度学习模型。然后将音频片段中新说话人的声音特征作为输入，通过深度学习模型预测出音频片段中新说话人的年龄和性别。
61.在一个实施例中，可以根据新说话人的语句字幕和/或对应的音频片段的说话人的声音特征选择一种情绪作为该新说话人当前音频片段的情绪。在一个实施例中，情绪可以是愤怒、喜悦、悲伤或中性。例如，语句字幕的内容为争吵，或者音频片段的音强接近新说话人的音强区间上限，则给新说话人当前音频片段分配愤怒的情绪。
62.在得到新说话人的目标特征信息后，可以将新说话人、新说话人的声音特征信息以及新说话人的目标特征信息保存至说话人信息库中，以便后续再次识别到该新说话人的音频片段时，可以直接从说话人信息库中调用，节省系统运算资源，减少计算量。
63.206、根据说话人的语句字幕和说话人的目标特征信息生成具有第二语种的目标音频。
64.通过204或205，可以得到说话人的目标特征信息。由于说话人的目标特征信息不仅包括了说话人的声音特征，还可以包括说话人的年龄、性别和情绪中的一种，因此，根据说话人的语句字幕和说话人的目标特征信息生成具有第二语种的目标音频，该目标音频更接近于说话人的声音以及说话时的场景，因而该目标音频更加逼真说话人的真实声音。
65.207、将目标音频、视频文件和字幕文本合成目标多媒体视频。
66.207的具体实施可以参见105的实施例，在此不再赘述。
67.本技术实施例的视频处理方法，首先将原始多媒体视频中的原始音频裁剪成与字幕文本中说话人的语句字幕对应的音频片段，然后提取音频片段中说话人的特征信息，根据该特征信息得到说话人的目标特征信息，并根据说话人的语句字幕和说话人的目标特征信息生成具有第二语种的目标音频；最后将目标音频、视频文件和字幕文本合成目标多媒体视频。由于合成的目标音频与字幕文本属于同一语种，即第二语种，为目标用户所熟悉的语种，目标用户在观看处理后的视频，可以轻松理解音频内容，并且能够关注视频画面的细节。由于合成的目标音频参考了原始音频中说话人的目标特征信息，不仅包括了说话人的声音特征信息，并且融合了说话人的年龄、性别或情绪中的至少一种，该目标音频更接近于说话人的声音以及说话时的场景，因而该目标音频更加逼真，因此，本技术实施例可以提高所合成的多媒体视频中音频的逼真度。
68.请参阅图3，图3是本技术实施例提供的第三种视频处理方法的流程示意图，流程
可以包括：
69.301、获取原始多媒体视频，原始多媒体视频包括具有第一语种的原始音频、视频文件和具有第二语种的字幕文本。
70.301的具体实施可以参见101的实施例，在此不再赘述。
71.302、获取字幕文本中说话人的语句字幕。
72.在一个实施例中，可以根据字幕文本的内容对不同的说话人进行划分。例如，存在多个说话人时，可以根据对话获取不同说话人的语句字幕。
73.在一个实施例中，当首个说话人的语句字幕长度超过设定的字幕长度阈值时，可以确定该字幕文本只有单个说话人。在另一个实施例中，当首个说话人的语句字幕占用的时长超过设定的时间阈值时，可以确定该字幕文本只有单个说话人。
74.在一个实施例中，整个字幕文本中只有一个说话人，例如纪录片只有一个说话人，此时，整个字幕文本为该说话人的语句字幕。
75.303、将说话人的语句字幕按照预设语句数量阈值划分为多个语句字幕片段。
76.比如，整个字幕文本只有一个说话人，则整个字幕文本为该说话人的语句字幕，由于该语句字幕有可能太长，不方便直接生成目标音频。在一个实施例中，可以设定语句数量阈值，将说话人的语句字幕按照预设语句数量阈值划分为多个语句字幕片段。
77.需要说明的是，包括该语句数量阈值的语句长度，可以是半个或一个字幕行，也可以是两个或者多于两个字幕行等，具体的语句数量阈值本技术不做限定。
78.304、将与说话人的语句字幕对应的音频片段划分为与多个语句字幕片段对应的多个子音频片段。
79.当说话人的语句字幕较长，其对应的音频片段也较长，比如音频片段已经超出了预设长度阈值，则可以将说话人的语句字幕划分为多个语句字幕片段，相应的，将音频片段划分为与每个语句字幕片段对应的子音频片段。这样，说话人的多个语句字幕片段会对应多个子音频片段。
80.305、提取子音频片段中说话人的目标特征信息。
81.针对同一个说话人，每个子音频片段的声音特征信息以及目标特征信息中的年龄和性别均相同，但是每个子音频片段的情绪可以不一样。因此只用提取首个子音频片段中说话人的声音特征信息即可，并根据提取的声音特征信息确定该说话人的年龄和性别。然后根据该说话人的声音特征信息和语句字幕片段为相应的子音频片段选择一种情绪，从而得到子音频片段的目标特征信息。
82.306、根据多个语句字幕片段与对应的多个子音频片段中说话人的目标特征信息生成目标子音频片段。
83.在得到子音频片段的目标特征信息后，可以根据多个语句字幕片段与对应的多个子音频片段中说话人的目标特征信息生成目标子音频片段。可以理解的是，每个子音频片段中说话人的声音特征信息一样，性别、年龄等目标特征信息也相同，但是可以具有不同的情绪特征，从而可以使不同的目标子音频片段具有不同的情绪，以表达不同的感情。例如，本实施例的视频处理方法，针对朗诵视频，可以合成得到更富有感情的目标视频。
84.307、根据目标子音频片段生成目标音频。
85.比如，生成目标子音频片段后，可以按照时间区间顺序，将各目标子音频片段进行
连接得到目标音频，并且使各目标子音频片段与语句字幕片段对应进行同步，防止错位。
86.308、将目标音频、视频文件和字幕文本合成目标多媒体视频。
87.308的具体实施可以参见105的实施例，在此不再赘述。
88.本技术实施例的视频处理方法，将只包括说话人的原始多媒体视频中的字幕文本按照预设语句数量阈值划分为多个语句字幕片段，将与说话人的语句字幕对应的音频片段划分为与多个语句字幕片段对应的多个子音频片段，然后根据多个语句字幕片段与对应的多个子音频片段中说话人的目标特征信息生成目标子音频片段，以及根据目标子音频片段生成目标音频，最后将目标音频、视频文件和字幕文本合成目标多媒体视频。
89.由于说话人的语句字幕可能太长，不方便直接根据该语句字幕生成目标音频，因此，本技术实施例将说话人的语句字幕按照预设语句数量阈值划分为多个语句字幕片段，以便生成相应的目标子音频片段，再将目标子音频片段合成为目标音频。用户在观看目标多媒体视频时，可以轻松理解音频内容，并且能够关注视频画面的细节。由于合成的目标音频融合了原始音频中说话人的目标特征信息，不仅包括了说话人的声音特征信息，并且融合了说话人的年龄、性别或情绪中的至少一种，该目标音频更接近于说话人的真实声音以及说话时的场景，因而该目标音频更加逼真，因此，本技术实施例可以提高所合成的多媒体视频中音频的逼真度。
90.请参阅图4，图4为本技术实施例提供的视频处理装置400的结构示意图。视频处理装置400可以包括获取模块401、裁剪模块402、提取模块403、生成模块404和合成模块405。
91.获取模块401，用于获取原始多媒体视频，原始多媒体视频包括具有第一语种的原始音频、视频文件和具有第二语种的字幕文本；
92.裁剪模块402，用于将原始音频裁剪成与字幕文本中说话人的语句字幕对应的音频片段；
93.提取模块403，用于提取音频片段中说话人的特征信息；
94.生成模块404，用于根据说话人的语句字幕和说话人的特征信息生成具有第二语种的目标音频；
95.合成模块405，用于将目标音频、视频文件和字幕文本合成目标多媒体视频。
96.在一个实施例中，提取模块403，还用于：提取音频片段中说话人的特征信息；若说话人的特征信息符合第一预设条件，则根据说话人的特征信息获取说话人的目标特征信息；若说话人的特征信息符合第二预设条件，则确定说话人的目标特征信息。
97.在一个实施例中，说话人的特征信息包括声音特征信息，提取模块403，还用于：若说话人的声音特征信息符合第一预设条件，则根据说话人的声音特征信息获取说话人的目标特征信息。
98.在一个实施例中，目标特征信息包括情绪、年龄和性别中的至少一种，提取模块403，还用于：若说话人的声音特征信息符合第一预设条件，则据说话人的声音特征信息获取说话人的情绪、年龄和性别中的至少一种。
99.在一个实施例中，说话人的特征信息包括声音特征信息，提取模块403，还用于：若说话人的声音特征信息符合第二预设条件，则确定说话人的目标特征信息。
100.在一个实施例中，目标特征信息包括情绪、年龄和性别中的至少一种，提取模块403，还用于：若说话人的声音特征信息符合第二预设条件，则确定说话人的情绪、年龄和性
别中的至少一种。
101.在一个实施例中，生成模块404，还用于：根据字幕文本中说话人的语句字幕与对应音频片段中说话人的目标特征信息生成目标音频片段；根据目标音频片段生成目标音频。
102.在一个实施例中，合成模块405，还用于：将目标音频与字幕文本进行同步；将同步后的目标音频、字幕文本与视频文件合成为目标多媒体视频。
103.在一个实施例中，裁剪模块402，还用于：获取字幕文本中说话人的语句字幕；将说话人的语句字幕按照预设语句数量阈值划分为多个语句字幕片段；将与说话人的语句字幕对应的音频片段划分为与多个语句字幕片段对应的多个子音频片段。
104.在一个实施例中，生成模块404，还用于：根据多个语句字幕片段与对应的多个子音频片段中说话人的目标特征信息生成目标子音频片段；根据目标子音频片段生成目标音频。
105.本技术实施例还提供一种电子设备，包括存储器，处理器以及音频模组，所述处理器通过调用所述存储器中存储的计算机程序，用于执行本实施例提供的视频处理方法中的流程。
106.例如，上述电子设备可以是诸如智能手机、智能电视、电脑等具有视频处理功能的设备。请参阅图5，图5为本技术实施例提供的电子设备的结构示意图。
107.该电子设备500可以包括存储器501、处理器502等部件。本领域技术人员可以理解，图5中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
108.存储器501可用于存储应用程序和数据。存储器501存储的应用程序中包含有可执行代码。应用程序可以组成各种功能模块。处理器502通过运行存储在存储器501的应用程序，从而执行各种功能应用以及数据处理。
109.处理器502是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器501内的应用程序，以及调用存储在存储器501内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。
110.在本实施例中，电子设备中的处理器502会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行代码加载到存储器501中，并由处理器502来运行存储在存储器501中的应用程序，从而执行：
111.获取原始多媒体视频，所述原始多媒体视频包括具有第一语种的原始音频、视频文件和具有第二语种的字幕文本；将所述原始音频裁剪成与所述字幕文本中说话人的语句字幕对应的音频片段；提取所述音频片段中说话人的特征信息；根据所述说话人的语句字幕和所述说话人的特征信息生成具有第二语种的目标音频；将所述目标音频、所述视频文件和所述字幕文本合成目标多媒体视频。
112.请参阅图6，电子设备500可以包括存储器501、处理器502、输入单元503、输出单元504、扬声器505等部件。
113.存储器501可用于存储应用程序和数据。存储器501存储的应用程序中包含有可执行代码。应用程序可以组成各种功能模块。处理器502通过运行存储在存储器501的应用程序，从而执行各种功能应用以及数据处理。
114.处理器502是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器501内的应用程序，以及调用存储在存储器501内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。
115.输入单元503可用于接收输入的数字、字符信息或用户特征信息(比如指纹)，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
116.输出单元504可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。输出单元可包括显示面板。
117.扬声器505可以用于播放声音信号。
118.此外，电子设备还可以包括诸如电池等部件。电池用于为电子设备的各个模块供应电力。
119.在本实施例中，电子设备中的处理器502会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行代码加载到存储器501中，并由处理器502来运行存储在存储器501中的应用程序，从而执行：
120.获取原始多媒体视频，所述原始多媒体视频包括具有第一语种的原始音频、视频文件和具有第二语种的字幕文本；
121.将所述原始音频裁剪成与所述字幕文本中说话人的语句字幕对应的音频片段；
122.提取所述音频片段中说话人的特征信息；
123.根据所述说话人的语句字幕和所述说话人的特征信息生成具有第二语种的目标音频；
124.将所述目标音频、所述视频文件和所述字幕文本合成目标多媒体视频。
125.在一种实施方式中，处理器502执行所述提取所述音频片段中说话人的特征信息时，可以执行：提取所述音频片段中说话人的特征信息；若所述说话人的特征信息符合第一预设条件，则根据所述说话人的特征信息获取所述说话人的目标特征信息；若所述说话人的特征信息符合第二预设条件，则确定所述说话人的目标特征信息。
126.在一种实施方式中，所述说话人的特征信息包括声音特征信息，处理器502可以执行：若所述说话人的声音特征信息符合所述第一预设条件，则根据所述说话人的声音特征信息获取所述说话人的目标特征信息。
127.在一种实施方式中，所述目标特征信息包括情绪、年龄和性别中的至少一种，处理器可以502执行：若所述说话人的声音特征信息符合所述第一预设条件，则据所述说话人的声音特征信息获取所述说话人的情绪、年龄和性别中的至少一种。
128.在一种实施方式中，所述说话人的特征信息包括声音特征信息，处理器502可以执行：若所述说话人的声音特征信息符合所述第二预设条件，则确定所述说话人的目标特征信息。
129.在一种实施方式中，所述目标特征信息包括情绪、年龄和性别中的至少一种，处理器502可以执行：所述若所述说话人的声音特征信息符合所述第二预设条件，则确定所述说话人的情绪、年龄和性别中的至少一种。
130.在一种实施方式中，处理器502可以执行：根据所述字幕文本中说话人的语句字幕与对应音频片段中说话人的目标特征信息生成目标音频片段；根据所述目标音频片段生成
所述目标音频。
131.在一种实施方式中，处理器502可以执行：将所述目标音频与所述字幕文本进行同步；将同步后的所述目标音频、字幕文本与所述视频文件合成为所述目标多媒体视频。
132.在一种实施方式中，处理器502可以执行：获取所述字幕文本中说话人的语句字幕；将所述说话人的语句字幕按照预设语句数量阈值划分为多个语句字幕片段；将与所述说话人的语句字幕对应的音频片段划分为与所述多个语句字幕片段对应的多个子音频片段。
133.在一种实施方式中，处理器502可以执行：根据所述多个语句字幕片段与对应的多个子音频片段中说话人的目标特征信息生成目标子音频片段；根据所述目标子音频片段生成所述目标音频。
134.本技术实施例提供的一种计算机可读的存储介质，其上存储有计算机程序，当计算机程序在计算机上执行时，使得计算机执行如本实施例提供的视频处理方法中的流程。
135.请参阅图7，图7为本技术实施例提供的视频处理系统的结构示意图。该视频处理系统包括流媒体设备601和音频合成服务器602，流媒体设备601包括音视频分离器6011、音频预处理模块6012和同步器6013，音频合成服务器602包括语音识别模块6021和语音合成器6022，其中，
136.音视频分离器6011，用于获取原始多媒体视频，并从原始多媒体视频中确定具有第一语种的原始音频、视频文件和具有第二语种的字幕文本；
137.音频预处理模块6012，与音视频分离器连接6011，用于将原始音频裁剪成与字幕文本中说话人的语句字幕对应的音频片段；
138.语音识别模块6021，与音频预处理模块6012连接，用于提取音频片段中说话人的特征信息；
139.语音合成器6022，与语音识别模块6021连接，用于根据说话人的语句字幕和说话人的特征信息生成具有第二语种的目标音频；
140.同步器6013，与语音合成器6022连接，用于将目标音频、视频文件和字幕文本合成目标多媒体视频。
141.本技术实施例的视频处理系统，流媒体设备601只进行原始多媒体视频的分离、音频裁剪和视频合成处理，音频识别与音频合成处理在音频合成服务器602进行，可以减少流媒体设备601的数据处理量，降低流媒体设备601的硬件配置要求。
142.在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对视频处理方法的详细描述，此处不再赘述。
143.本技术实施例提供的所述视频处理装置与上文实施例中的视频处理方法属于同一构思，在所述视频处理装置上可以运行所述视频处理方法实施例中提供的任一方法，其具体实现过程详见所述视频处理方法实施例，此处不再赘述。
144.需要说明的是，对本技术实施例所述视频处理方法而言，本领域普通技术人员可以理解实现本技术实施例所述视频处理方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述计算机程序可存储于一计算机可读取存储介质中，如存储在存储器中，并被至少一个处理器执行，在执行过程中可包括如所述视频处理方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储器(rom，read only memory)、随机
存取记忆体(ram，random access memory)等。
145.对本技术实施例的所述视频处理装置而言，其各功能模块可以集成在一个处理芯片中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中，所述存储介质譬如为只读存储器，磁盘或光盘等。
146.以上对本技术实施例所提供的一种视频处理方法、装置、电子设备、可读存储介质及系统进行了详细介绍，本文中应用了具体个例对本技术的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本技术的方法及其核心思想；同时，对于本领域的技术人员，依据本技术的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本技术的限制。

技术特征：

1.一种视频处理方法，其特征在于，包括：获取原始多媒体视频，所述原始多媒体视频包括具有第一语种的原始音频、视频文件和具有第二语种的字幕文本；将所述原始音频裁剪成与所述字幕文本中说话人的语句字幕对应的音频片段；提取所述音频片段中说话人的特征信息；根据所述说话人的语句字幕和所述说话人的特征信息生成具有第二语种的目标音频；将所述目标音频、所述视频文件和所述字幕文本合成目标多媒体视频。2.根据权利要求1所述的视频处理方法，其特征在于，所述提取所述音频片段中说话人的特征信息，包括：提取所述音频片段中说话人的特征信息；若所述说话人的特征信息符合第一预设条件，则根据所述说话人的特征信息获取所述说话人的目标特征信息；若所述说话人的特征信息符合第二预设条件，则确定所述说话人的目标特征信息。3.根据权利要求2所述的视频处理方法，其特征在于，所述说话人的特征信息包括声音特征信息，所述若所述说话人的特征信息符合第一预设条件，则根据所述说话人的特征信息获取所述说话人的目标特征信息，包括：若所述说话人的声音特征信息符合所述第一预设条件，则根据所述说话人的声音特征信息获取所述说话人的目标特征信息。4.根据权利要求3所述的视频处理方法，其特征在于，所述目标特征信息包括情绪、年龄和性别中的至少一种，所述若所述说话人的声音特征信息符合所述第一预设条件，则根据所述说话人的声音特征信息获取所述说话人的目标特征信息，包括：若所述说话人的声音特征信息符合所述第一预设条件，则据所述说话人的声音特征信息获取所述说话人的情绪、年龄和性别中的至少一种。5.根据权利要求2所述的视频处理方法，其特征在于，所述说话人的特征信息包括声音特征信息，所述若所述说话人的特征信息符合第二预设条件，则获取所述说话人的目标特征信息，包括：若所述说话人的声音特征信息符合所述第二预设条件，则确定所述说话人的目标特征信息。6.根据权利要求5所述的视频处理方法，其特征在于，所述目标特征信息包括情绪、年龄和性别中的至少一种，所述若所述说话人的声音特征信息符合所述第二预设条件，则确定所述说话人的目标特征信息，包括：所述若所述说话人的声音特征信息符合所述第二预设条件，则确定所述说话人的情绪、年龄和性别中的至少一种。7.根据权利要求2至6任一项所述的视频处理方法，其特征在于，根据所述说话人的语句字幕和所述说话人的特征信息生成具有第二语种的目标音频，包括：根据所述字幕文本中说话人的语句字幕与对应音频片段中说话人的目标特征信息生成目标音频片段；根据所述目标音频片段生成所述目标音频。8.根据权利要求3至6中任一项所述的视频处理方法，其特征在于，所述声音特征信息
包括音高或音。9.根据权利要求1所述的视频处理方法，其特征在于，所述将所述目标音频、所述视频文件和所述字幕文本合成目标多媒体视频，包括：将所述目标音频与所述字幕文本进行同步；将同步后的所述目标音频、字幕文本与所述视频文件合成为所述目标多媒体视频。10.根据权利要求2所述的视频处理方法，其特征在于，所述将所述原始音频裁剪成与所述字幕文本中说话人的语句字幕对应的音频片段，包括：获取所述字幕文本中说话人的语句字幕；将所述说话人的语句字幕按照预设语句数量阈值划分为多个语句字幕片段；将与所述说话人的语句字幕对应的音频片段划分为与所述多个语句字幕片段对应的多个子音频片段。11.根据权利要求2所述的视频处理方法，其特征在于，所述根据所述说话人的语句字幕和所述说话人的特征信息生成具有第二语种的目标音频，包括：根据所述语句字幕片段与对应的多个子音频片段中说话人的目标特征信息生成目标子音频片段；根据所述目标子音频片段生成所述目标音频。12.一种视频处理装置，其特征在于，包括：获取模块，用于获取原始多媒体视频，所述原始多媒体视频包括具有第一语种的原始音频、视频文件和具有第二语种的字幕文本；裁剪模块，用于将所述原始音频裁剪成与所述字幕文本中说话人的语句字幕对应的音频片段；提取模块，用于提取所述音频片段中说话人的特征信息；生成模块，用于根据所述说话人的语句字幕和所述说话人的特征信息生成具有第二语种的目标音频；合成模块，用于将所述目标音频、所述视频文件和所述字幕文本合成目标多媒体视频。13.一种计算机可读的存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序在计算机上执行时，使得所述计算机执行如权利要求1至11中任一项所述的方法。14.一种电子设备，其特征在于，包括存储器和处理器，其特征在于，所述处理器通过调用所述存储器中存储的计算机程序，用于执行如权利要求1至11中任一项所述的方法。15.一种视频处理系统，其特征在于，包括流媒体设备和音频合成服务器，所述流媒体设备包括音视频分离器、音频预处理模块和同步器，所述音频合成服务器包括语音识别模块和语音合成器，其中，所述音视频分离器，用于获取原始多媒体视频，并从所述原始多媒体视频中确定具有第一语种的原始音频、视频文件和具有第二语种的字幕文本；所述音频预处理模块，与所述音视频分离器连接，用于将所述原始音频裁剪成与所述字幕文本中说话人的语句字幕对应的音频片段；所述语音识别模块，与所述音频预处理模块连接，用于提取所述音频片段中说话人的特征信息；所述语音合成器，与所述语音识别模块连接，用于根据所述说话人的语句字幕和所述
说话人的特征信息生成具有第二语种的目标音频；所述同步器，与所述语音合成器连接，用于将所述目标音频、所述视频文件和所述字幕文本合成目标多媒体视频。

技术总结

本申请公开一种视频处理方法、装置、电子设备、可读存储介质及系统，视频处理方法包括：获取原始多媒体视频，原始多媒体视频包括具有第一语种的原始音频、视频文件和具有第二语种的字幕文本；将原始音频裁剪成与字幕文本中说话人的语句字幕对应的音频片段；提取音频片段中说话人的特征信息；根据说话人的语句字幕和说话人的特征信息生成具有第二语种的目标音频；将目标音频、视频文件和字幕文本合成目标多媒体视频。本申请可以提高所合成的多媒体视频中音频的逼真度。频中音频的逼真度。频中音频的逼真度。