模板化语音合成方法、装置、设备及计算机可读存储介质与流程

阅读：评论：0

1.本发明涉及语音合成技术领域，尤其涉及一种模板化语音合成方法、装置、设备及计算机可读存储介质。

背景技术：

2.智能语音技术是最早落地的人工智能技术，已经广泛应用于多个行业。智能语音技术是实现人与机器通信的重要纽带，智能语音技术落地期的到来使得传统的客服行业朝向智能化转型，智能语音将代替人工客服，缓解客服业务的压力，实现降本增效，从而优化客户体验，加强核心竞争力。
3.金融行业在数字化转型的浪潮之中，智能语音技术的落地正当其时。各金融机构纷纷开始投入打造智能语音客服，通过将各业务流程节点的话术输入至机器人中，在进入业务流程的各节点时，通过调用语音合成算法接口，将话术转换为语音文件，进而自动播报。然而，大部分公司并无自研的语音合成算法能力，在saas(software-as-a-service，软件即服务)服务模式流行的当下，很多中小公司会优先选择购买saas服务进行调用。而关于语音合成算法服务的收费，市面上主流的人工智能算法头部企业均按照字数收费且每次合成不能超过300个字。在金融场景下，用户办理一个业务流程，需要转换的合同注意事项、风险告知书等话术文本相对较长，合成成本过高。

技术实现要素：

4.本发明的主要目的在于提供一种模板化语音合成方法、装置、设备及计算机可读存储介质，旨在降低语音合成成本。
5.为实现上述目的，本发明提供一种模板化语音合成方法，所述模板化语音合成方法包括：
6.获取待进行语音合成的话术的目标模板编号和变量信息；
7.获取所述目标模板编号对应的模板语音文件；
8.根据所述变量信息合成得到变量语音文件；
9.对所述模板语音文件和所述变量语音文件进行合并，得到合成语音文件。
10.优选地，所述获取所述目标模板编号对应的模板语音文件的步骤包括：
11.检测预设数据库中是否存在所述目标模板编号对应的模板语音文件；
12.若不存在，则获取所述目标模板编号对应的目标模板文本，对所述目标模板文本进行语音合成处理，得到模板语音文件。
13.优选地，所述变量信息包括变量名称和变量值，所述根据所述变量信息合成得到变量语音文件的步骤包括：
14.分别对各变量值进行语音合成处理，得到变量语音片段；
15.获取各变量名称对应的位置信息，并根据所述位置信息生成对应的第一位置标识；
16.将各变量语音片段分别与对应的第一位置标识进行关联，以得到变量语音文件。
17.优选地，所述分别对各变量值进行语音合成处理，得到变量语音片段的步骤包括：
18.根据所述变量信息获取目标客户的业务办理信息；
19.根据所述业务办理信息确定目标语音合成算法；
20.通过所述目标语音合成算法分别对各变量值进行语音合成处理，得到变量语音片段。
21.优选地，所述对所述模板语音文件和所述变量语音文件进行合并，得到合成语音文件的步骤包括：
22.获取所述变量语音文件中各变量语音片段及其对应的第一位置标识；
23.获取所述模板语音文件中各模板音频片段及其对应的第二位置标识；
24.根据所述第一位置标识和所述第二位置标识对各变量语音片段和各模板音频片段进行合并，得到合成语音文件。
25.优选地，所述模板化语音合成方法还包括：
26.获取模板话术；
27.从所述模板话术中提取得到模板文本；
28.生成模板编号，将所述模板文本与所述模板编号进行关联存储。
29.优选地，所述模板化语音合成方法还包括：
30.接收模板更新请求，根据所述模板更新请求获取待更新模板编号和待更新模板话术；
31.从所述待更新模板话术中提取得到待更新模板文本；
32.根据所述待更新模板编号确定当前模板文本，并将所述当前模板文本更新为所述待更新模板文本；
33.删除所述待更新模板编号对应的模板语音文件。
34.此外，为实现上述目的，本发明还提供一种模板化语音合成装置，所述模板化语音合成装置包括：
35.第一获取模块，用于获取待进行语音合成的话术的目标模板编号和变量信息；
36.第二获取模块，用于获取所述目标模板编号对应的模板语音文件；
37.语音合成模块，用于根据所述变量信息合成得到变量语音文件；
38.音频合并模块，用于对所述模板语音文件和所述变量语音文件进行合并，得到合成语音文件。
39.此外，为实现上述目的，本发明还提供一种模板化语音合成设备，所述模板化语音合成设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的模板化语音合成程序，所述模板化语音合成程序被所述处理器执行时实现如上所述的模板化语音合成方法的步骤。
40.此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有模板化语音合成程序，所述模板化语音合成程序被处理器执行时实现如上所述的模板化语音合成方法的步骤。
41.本发明提供一种模板化语音合成方法、装置、设备及计算机可读存储介质，通过获取待进行语音合成的话术的目标模板编号和变量信息，然后获取目标模板编号对应的模板
语音文件，同时根据变量信息合成得到变量语音文件；进而对模板语音文件和变量语音文件进行合并，得到合成语音文件。即，将话术分为模板和变量两部分，模板部分对应的模板语音文件无需每次合成，只需对变量部分进行语音合成得到变量语音文件，进而对模板语音文件和变量语音文件进行合并，即可得到合成语音文件，以用于播报。通过上述方式，可大大减少语音合成量，从而可降低语音合成成本。同时，由于变量部分通常比较简短，不会超过提供语音合成算法的企业规定的每次合成字数上限值，从而无需多次调用算法接口，因此可进一步节省合成时间，提高响应效率，提升用户的使用体验。
附图说明
42.图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图；
43.图2为本发明模板化语音合成方法第一实施例的流程示意图；
44.图3为本发明模板化语音合成装置第一实施例的功能模块示意图。
45.本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
46.应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
47.参照图1，图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图。
48.本发明实施例模板化语音合成设备可以是pc(personal computer，个人计算机)，也可以是智能手机、平板电脑、便携计算机、服务器等终端设备。
49.如图1所示，该模板化语音合成设备可以包括：处理器1001，例如cpu，通信总线1002，用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
50.本领域技术人员可以理解，图1中示出的模板化语音合成设备结构并不构成对模板化语音合成设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
51.如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及模板化语音合成程序。
52.在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的模板化语音合成程序，并执行以下操作：
53.获取待进行语音合成的话术的目标模板编号和变量信息；
54.获取所述目标模板编号对应的模板语音文件；
55.根据所述变量信息合成得到变量语音文件；
56.对所述模板语音文件和所述变量语音文件进行合并，得到合成语音文件。
57.进一步地，所述变量信息包括变量名称和变量值，处理器1001可以调用存储器
1005中存储的模板化语音合成程序，还执行以下操作：
58.检测预设数据库中是否存在所述目标模板编号对应的模板语音文件；
59.若不存在，则获取所述目标模板编号对应的目标模板文本，对所述目标模板文本进行语音合成处理，得到模板语音文件。
60.进一步地，所述变量信息包括变量名称和变量值，处理器1001可以调用存储器1005中存储的模板化语音合成程序，还执行以下操作：
61.分别对各变量值进行语音合成处理，得到变量语音片段；
62.获取各变量名称对应的位置信息，并根据所述位置信息生成对应的第一位置标识；
63.将各变量语音片段分别与对应的第一位置标识进行关联，以得到变量语音文件。
64.进一步地，处理器1001可以调用存储器1005中存储的模板化语音合成程序，还执行以下操作：
65.根据所述变量信息获取目标客户的业务办理信息；
66.根据所述业务办理信息确定目标语音合成算法；
67.通过所述目标语音合成算法分别对各变量值进行语音合成处理，得到变量语音片段。
68.进一步地，处理器1001可以调用存储器1005中存储的模板化语音合成程序，还执行以下操作：
69.获取所述变量语音文件中各变量语音片段及其对应的第一位置标识；
70.获取所述模板语音文件中各模板音频片段及其对应的第二位置标识；
71.根据所述第一位置标识和所述第二位置标识对各变量语音片段和各模板音频片段进行合并，得到合成语音文件。
72.进一步地，处理器1001可以调用存储器1005中存储的模板化语音合成程序，还执行以下操作：
73.获取模板话术；
74.从所述模板话术中提取得到模板文本；
75.生成模板编号，将所述模板文本与所述模板编号进行关联存储。
76.进一步地，处理器1001可以调用存储器1005中存储的模板化语音合成程序，还执行以下操作：
77.接收模板更新请求，根据所述模板更新请求获取待更新模板编号和待更新模板话术；
78.从所述待更新模板话术中提取得到待更新模板文本；
79.根据所述待更新模板编号确定当前模板文本，并将所述当前模板文本更新为所述待更新模板文本；
80.删除所述待更新模板编号对应的模板语音文件。
81.基于上述硬件结构，提出本发明模板化语音合成方法的各实施例。
82.本发明提供一种模板化语音合成方法。
83.参照图2，图2为本发明模板化语音合成方法第一实施例的流程示意图。
84.在本实施例中，该模板化语音合成方法包括：
85.步骤s10，获取待进行语音合成的话术的目标模板编号和变量信息；
86.本实施例的模板化语音合成方法是由模板化语音合成设备实现的，该设备模板化语音合成设备可以是pc，也可以是智能手机、平板电脑、便携计算机、服务器等终端设备。
87.在本实施例中，先获取待进行语音合成的话术的目标模板编号和变量信息，其中，变量信息包括变量名称和变量值，变量名称即为模板话术中所需替换信息(变量)的名称，变量值即为变量的具体取值、是基于目标客户(当前客户)的客户信息确定的。
88.目标模板编号和变量信息的获取方式包括但不限于：1)当业务流程到达任一涉及语音播报的节点时，可先根据预设的流程节点与模板编号之间的映射关系及当前节点确定得到目标模板编号，然后获取该目标模板编号对应的模板文本，记为目标模板文本，并获取该目标模板文本对应的变量名称，进而从目标客户(当前客户)的客户信息中获取各变量名称所对应的值，记为变量值，基于该目标模板编号、变量名称和变量值触发语音合成请求，对应的，模板化语音合成设备接收到该语音合成请求时，即可获取到目标模板编号和变量信息；2)人工客服确定当前流程节点所需进行语音合成的话术，并获取该话术所对应的模板编号、该话术中所涉及的变量，然后在工作端输入目标模板编号、各变量所对应的值(基于客户信息确定的)，以触发触发语音合成请求，对应的，模板化语音合成设备接收到该语音合成请求时，即可获取到目标模板编号和变量信息。
89.步骤s20，获取所述目标模板编号对应的模板语音文件；
90.在获取到目标模板编号之后，获取目标模板编号对应的模板语音文件。其中，模板语音文件是由模板话术所提取得到的模板文本、经语音合成处理后得到的语音文件。
91.具体的，步骤s20包括：
92.步骤a21，检测预设数据库中是否存在所述目标模板编号对应的模板语音文件；
93.步骤a22，若不存在，则获取所述目标模板编号对应的目标模板文本，对所述目标模板文本进行语音合成处理，得到模板语音文件。
94.在获取模板语音文件时，先检测预设数据库中是否存在与目标模板编号对应的模板语音文件，即判断该目标模板编号对应的目标模板文本是否是第一次进行语音合成。若预设数据库中不存在该目标模板编号对应的模板语音文件，说明是第一次进行语音合成，此时，则获取目标模板编号对应的模板文本(记为目标模板文本)，对目标模板文本进行语音合成处理，得到模板语音文件。若预设数据库中存在该目标模板编号对应的模板语音文件，则直接获取该模板语音文件即可。
95.需要说明的是，为避免被唯一厂商绑定，通常会对接多个第三方厂商的语音合成算法，在对目标模板文本进行语音合成处理时，可制定相关的选择策略来确定目标语音合成算法，进而调用对应厂商的语音算法接口，以进行语音合成处理，得到模板语音文件。选择策略可根据实际情况进行制定，此处不作具体限定。
96.此外，由于目标模板文本是由多个模板文本片段构成的，各模板文本片段携带有对应的位置标识(为与变量语音片段的位置标识进行区别，将模板文本片段的位置标识记为第二位置标识)，在对目标模板文本进行语音合成处理时，分别对各模板文本片段进行语音合成处理，得到模板语音片段，进而将各模板语音片段分别与对应的第二位置标识进行关联，以得到模板语音文件。
97.步骤s30，根据所述变量信息合成得到变量语音文件；
98.其中，所述变量信息包括变量名称和变量值，步骤s30包括：
99.步骤a31，分别对各变量值进行语音合成处理，得到变量语音片段；
100.步骤a32，获取各变量名称对应的位置信息，并根据所述位置信息生成对应的第一位置标识；
101.步骤a33，将各变量语音片段分别与对应的第一位置标识进行关联，以得到变量语音文件。
102.在获取到变量信息之后，采用tts(text to speech，文本到语音)算法分别对各变量值进行语音合成处理，得到变量语音片段。
103.然后，获取各变量名称对应的位置信息，即各变量在模板文本中的所处的位置，进而根据位置信息生成对应的第一位置标识。例如，以如下模板话术为例：
104.@firstname@先生您好，我将与您核对你的个人信息，请问您的姓名是@username@，性别@gender@，身份证号是@idcard@，请问以上信息是否正确？
105.上述模板话术中包括firstname、username、gender和idcard 4个变量，根据其在模板文本中的所处的位置，可依次生成位置标识1、3、5、7。
106.最后，将各变量语音片段分别与对应的第一位置标识进行关联，以得到变量语音文件。
107.进一步地，步骤a31包括：
108.步骤a311，根据所述变量信息获取目标客户的业务办理信息；
109.步骤a312，根据所述业务办理信息确定目标语音合成算法；
110.步骤a313，通过所述目标语音合成算法分别对各变量值进行语音合成处理，得到变量语音片段。
111.在本实施例中，为避免被唯一厂商绑定，通常会对接多个第三方厂商的语音合成算法，在对各变量值进行语音合成处理时，可制定相关的选择策略来确定目标语音合成算法，进而调用对应厂商的语音算法接口，以进行语音合成处理，得到变量语音文件。
112.作为其中一种实施方式，可根据目标客户的业务办理信息来确定目标语音合成算法，其中，业务办理信息包括但不限于：客户等级、业务金额、业务办理次数、业务办理失败次数等。在获取到目标客户的业务办理信息之后，根据业务办理信息和预设选择策略来确定目标语音合成算法，预设选择策略的制定原则包括但不限于：1)客户等级越高，选择价格越高、合成速度越快的语音合成算法；2)业务金额越高，选择价格越高、合成速度越快的语音合成算法；3)业务办理次数越多，选择价格越高、合成速度越快的语音合成算法；4)业务办理失败次数越多，选择价格越高、合成速度越快的语音合成算法。当然，在具体实施时，还可根据实际情况进行制定其他选择策略，此处不作具体限定。在确定目标语音合成算法后，调用对应厂商的语音算法接口分别对各变量值进行语音合成处理，得到变量语音片段。
113.步骤s40，对所述模板语音文件和所述变量语音文件进行合并，得到合成语音文件。
114.具体的，步骤s40包括：
115.步骤a41，获取所述变量语音文件中各变量语音片段及其对应的第一位置标识；
116.步骤a42，获取所述模板语音文件中各模板音频片段及其对应的第二位置标识；
117.步骤a43，根据所述第一位置标识和所述第二位置标识对各变量语音片段和各模
板音频片段进行合并，得到合成语音文件。
118.本实施例中，在获取到模板语音文件和变量语音文件之后，再获取变量语音文件中各变量语音片段及其对应的第一位置标识，同时获取模板语音文件中各模板音频片段及其对应的第二位置标识；根据第一位置标识和第二位置标识对各变量语音片段和各模板音频片段进行合并，得到合成语音文件，以用于播报。具体的，可通过ffmpeg(一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序)对各变量语音片段和各模板音频片段进行拼接合并。此外，还可以进行音量、播放速度、声道、采样率的调整等操作。
119.例如，以上述模板文本为例，该模板话术中包括firstname、username、gender和idcard 4个变量，对应的第一位置标识依次为1、3、5、7，还包括“先生您好，我将与您核对你的个人信息，请问您的姓名是”、“性别”、“身份证号是”、“请问以上信息是否正确？”这4段模板文本片段，对应的第二位置标识依次为2、4、6、8。可根据第一位置标识和第二位置标识对各变量语音片段和各模板音频片段进行合并，即，按位置标识1-8的顺序对各音频片段进行拼接合并。
120.本发明实施例提供一种模板化语音合成方法，通过获取待进行语音合成的话术的目标模板编号和变量信息，然后获取目标模板编号对应的模板语音文件，同时根据变量信息合成得到变量语音文件；进而对模板语音文件和变量语音文件进行合并，得到合成语音文件。即，将话术分为模板和变量两部分，模板部分对应的模板语音文件无需每次合成，只需对变量部分进行语音合成得到变量语音文件，进而对模板语音文件和变量语音文件进行合并，即可得到合成语音文件，以用于播报。通过上述方式，可大大减少语音合成量，从而可降低语音合成成本。同时，由于变量部分通常比较简短，不会超过提供语音合成算法的企业规定的每次合成字数上限值，从而无需多次调用算法接口，因此可进一步节省合成时间，提高响应效率，提升用户的使用体验。
121.进一步地，基于上述第一实施例，提出本发明模板化语音合成方法的第二实施例。
122.在本实施例中，在上述步骤s10之前，该模板化语音合成方法还包括：
123.步骤a，获取模板话术；
124.在本实施例中，工作人员需事先录入各业务流程节点的模板话术，以提取出模板文本，用于后续进行语音合成、播报。其中，该模板话术是通过对业务流程节点中涉及的话术进行标记后得到的，标记方式包括但不限于：1)人工标记；2)自动标记；3)自动标记+人工标记结合的方式。在标记时，需采用预设格式进行标记，以便于后续进行变量内容的提取。其中，预设格式可以为“字符+变量的英文表达+字符”的形式。
125.例如，以银行信托客户开户业务为例，目前信托开户业务都在做线上自助开户，业务系统需要将注意事项播报出来，这时就需要调用语音合成接口，将需要播报的文字转换成语音播放出来，其涉及的播报话术如下：
126.【张】先生您好，我将与您核对你的个人信息，请问您的姓名是【张志明】，性别【男】，身份证号是【130626xxxxxxxx2211】，请问以上信息是否正确？
127.此时，可标记得到如下模板话术：
128.@firstname@先生您好，我将与您核对你的个人信息，请问您的姓名是@username@，性别@gender@，身份证号是@idcard@，请问以上信息是否正确？
129.步骤b，从所述模板话术中提取得到模板文本；
130.然后，从模板话术中提取得到模板文本。具体的，可先通过正则表达式从模板话术中提取得到变量内容，然后对变量内容进行替换，替换成预设字符(如换行符)，再根据预设字符对模板话术进行切分，得到多个模板话术片段。基于各模板话术片段在模板文本中所处的位置生成对应的位置标识(记为第二位置标识)，进而根据各模板话术片段分别与对应的第二位置标识进行关联，以构成模板文本。
131.例如上述模板话术中，可提取得到变量内容：firstname、username、gender和idcard，进而可切分得到4个模板话术片段：“先生您好，我将与您核对你的个人信息，请问您的姓名是”、“性别”、“身份证号是”、“请问以上信息是否正确？”，根据各模板话术片段在模板文本中的所处的位置，可依次生成位置标识2、4、6、8。
132.步骤c，生成模板编号，将所述模板文本与所述模板编号进行关联存储。
133.最后，生成模板编号，将所述模板文本与该模板编号进行关联存储，存储值预设数据库中，以便于后续通过获取到的目标模板编号查得到对应的目标模板文本。
134.进一步地，基于上述第一实施例，提出本发明模板化语音合成方法的第三实施例。
135.在本实施例中，该模板化语音合成方法还包括：
136.步骤d，接收模板更新请求，根据所述模板更新请求获取待更新模板编号和待更新模板话术；
137.在本实施例中，当业务流程中的话术需要更新时，需对对应的模板文本和模板语音文件进行更新，具体的，可通过工作端(如pc)中相应的app上传待更新模板编号和待更新模板话术、以发起模板更新请求。对应的，服务器在接收到模板更新请求时，根据该模板更新请求获取得到待更新模板编号和待更新模板文本。
138.步骤e，从所述待更新模板话术中提取得到待更新模板文本；
139.然后，从待更新模板话术中提取得到待更新模板文本，具体的，可先从待更新模板话术中提取得到变量内容，然后对变量内容进行替换，替换成预设字符(如换行符)，再根据预设字符对待更新模板话术进行切分，得到多个待更新模板话术片段，基于各待更新模板话术片段在待更新模板文本中所处的位置生成对应的位置标识，进而根据各待更新模板话术片段及其位置标识构成待更新模板文本。具体的提取过程可参照上述第二实施例中的模板文本的提取方法，此处不作赘述。
140.步骤f，根据所述待更新模板编号确定当前模板文本，并将所述当前模板文本更新为所述待更新模板文本；
141.接着，根据待更新模板编号确定当前模板文本，并将当前模板文本更新为待更新模板文本，即用待更新模板文本替换掉当前模板文本。
142.步骤g，删除所述待更新模板编号对应的模板语音文件。
143.最后，删除该待更新模板编号对应的模板语音文件，此外，还可以对待更新模板文本进行语音合成处理，得到新的模板语音文件，并与待更新模板编号关联保存至预设数据库中。当然，也可以待下一次需使用待更新模板编号对应的模板语音文件时，再进行语音合成处理并保存。
144.本实施例中，通过上述方式，可实现模板文本的自动更新。
145.本发明还提供一种模板化语音合成装置。
146.参照图3，图3为本发明模板化语音合成装置第一实施例的功能模块示意图。
147.如图3所示，所述模板化语音合成装置包括：
148.第一获取模块10，用于获取待进行语音合成的话术的目标模板编号和变量信息；
149.第二获取模块20，用于获取所述目标模板编号对应的模板语音文件；
150.语音合成模块30，用于根据所述变量信息合成得到变量语音文件；
151.音频合并模块40，用于对所述模板语音文件和所述变量语音文件进行合并，得到合成语音文件。
152.进一步地，所述第二获取模块20包括：
153.检测单元，用于检测预设数据库中是否存在所述目标模板编号对应的模板语音文件；
154.第一获取单元，用于若不存在，则获取所述目标模板编号对应的目标模板文本，对所述目标模板文本进行语音合成处理，得到模板语音文件。
155.进一步地，所述变量信息包括变量名称和变量值，所述语音合成模块30包括：
156.语音合成单元，用于分别对各变量值进行语音合成处理，得到变量语音片段；
157.标识生成单元，用于获取各变量名称对应的位置信息，并根据所述位置信息生成对应的第一位置标识；
158.绑定单元，用于将各变量语音片段分别与对应的第一位置标识进行关联，以得到变量语音文件。
159.进一步地，所述语音合成单元具体用于：
160.根据所述变量信息获取目标客户的业务办理信息；
161.根据所述业务办理信息确定目标语音合成算法；
162.通过所述目标语音合成算法分别对各变量值进行语音合成处理，得到变量语音片段。
163.进一步地，所述音频合并模块40包括：
164.第二获取单元，用于获取所述变量语音文件中各变量语音片段及其对应的第一位置标识；
165.第三获取单元，用于获取所述模板语音文件中各模板音频片段及其对应的第二位置标识；
166.音频合并单元，用于根据所述第一位置标识和所述第二位置标识对各变量语音片段和各模板音频片段进行合并，得到合成语音文件。
167.进一步地，所述模板化语音合成装置还包括：
168.第三获取模块，用于获取模板话术；
169.第一提取模块，用于从所述模板话术中提取得到模板文本；
170.存储模块，用于生成模板编号，将所述模板文本与所述模板编号进行关联存储。
171.进一步地，所述模板化语音合成装置还包括：
172.第四获取模块，用于接收模板更新请求，根据所述模板更新请求获取待更新模板编号和待更新模板话术；
173.第二提取模块，用于从所述待更新模板话术中提取得到待更新模板文本；
174.文本更新模块，用于根据所述待更新模板编号确定当前模板文本，并将所述当前模板文本更新为所述待更新模板文本；
175.文件删除模块，用于删除所述待更新模板编号对应的模板语音文件。
176.其中，上述模板化语音合成装置中各个模块的功能实现与上述模板化语音合成方法实施例中各步骤相对应，其功能和实现过程在此处不再一一赘述。
177.本发明还提供一种计算机可读存储介质，该计算机可读存储介质上存储有模板化语音合成程序，所述模板化语音合成程序被处理器执行时实现如以上任一项实施例所述的模板化语音合成方法的步骤。
178.本发明计算机可读存储介质的具体实施例与上述模板化语音合成方法各实施例基本相同，在此不作赘述。
179.需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
180.上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
181.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。
182.以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

技术特征：

1.一种模板化语音合成方法，其特征在于，所述模板化语音合成方法包括：获取待进行语音合成的话术的目标模板编号和变量信息；获取所述目标模板编号对应的模板语音文件；根据所述变量信息合成得到变量语音文件；对所述模板语音文件和所述变量语音文件进行合并，得到合成语音文件。2.如权利要求1所述的模板化语音合成方法，其特征在于，所述获取所述目标模板编号对应的模板语音文件的步骤包括：检测预设数据库中是否存在所述目标模板编号对应的模板语音文件；若不存在，则获取所述目标模板编号对应的目标模板文本，对所述目标模板文本进行语音合成处理，得到模板语音文件。3.如权利要求1所述的模板化语音合成方法，其特征在于，所述变量信息包括变量名称和变量值，所述根据所述变量信息合成得到变量语音文件的步骤包括：分别对各变量值进行语音合成处理，得到变量语音片段；获取各变量名称对应的位置信息，并根据所述位置信息生成对应的第一位置标识；将各变量语音片段分别与对应的第一位置标识进行关联，以得到变量语音文件。4.如权利要求3所述的模板化语音合成方法，其特征在于，所述分别对各变量值进行语音合成处理，得到变量语音片段的步骤包括：根据所述变量信息获取目标客户的业务办理信息；根据所述业务办理信息确定目标语音合成算法；通过所述目标语音合成算法分别对各变量值进行语音合成处理，得到变量语音片段。5.如权利要求3所述的模板化语音合成方法，其特征在于，所述对所述模板语音文件和所述变量语音文件进行合并，得到合成语音文件的步骤包括：获取所述变量语音文件中各变量语音片段及其对应的第一位置标识；获取所述模板语音文件中各模板音频片段及其对应的第二位置标识；根据所述第一位置标识和所述第二位置标识对各变量语音片段和各模板音频片段进行合并，得到合成语音文件。6.如权利要求1至5中任一项所述的模板化语音合成方法，其特征在于，所述模板化语音合成方法还包括：获取模板话术；从所述模板话术中提取得到模板文本；生成模板编号，将所述模板文本与所述模板编号进行关联存储。7.如权利要求1至5中任一项所述的模板化语音合成方法，其特征在于，所述模板化语音合成方法还包括：接收模板更新请求，根据所述模板更新请求获取待更新模板编号和待更新模板话术；从所述待更新模板话术中提取得到待更新模板文本；根据所述待更新模板编号确定当前模板文本，并将所述当前模板文本更新为所述待更新模板文本；删除所述待更新模板编号对应的模板语音文件。8.一种模板化语音合成装置，其特征在于，所述模板化语音合成装置包括：
第一获取模块，用于获取待进行语音合成的话术的目标模板编号和变量信息；第二获取模块，用于获取所述目标模板编号对应的模板语音文件；语音合成模块，用于根据所述变量信息合成得到变量语音文件；音频合并模块，用于对所述模板语音文件和所述变量语音文件进行合并，得到合成语音文件。9.一种模板化语音合成设备，其特征在于，所述模板化语音合成设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的模板化语音合成程序，所述模板化语音合成程序被所述处理器执行时实现如权利要求1至7中任一项所述的模板化语音合成方法的步骤。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有模板化语音合成程序，所述模板化语音合成程序被处理器执行时实现如权利要求1至7中任一项所述的模板化语音合成方法的步骤。

技术总结

本发明公开了一种模板化语音合成方法、装置、设备及计算机可读存储介质。该模板化语音合成方法包括：获取待进行语音合成的话术的目标模板编号和变量信息；获取所述目标模板编号对应的模板语音文件；根据所述变量信息合成得到变量语音文件；对所述模板语音文件和所述变量语音文件进行合并，得到合成语音文件。本发明能够降低语音合成成本。明能够降低语音合成成本。明能够降低语音合成成本。