一种双录时对采集的音频音量的自动调整控制方法与流程

阅读：评论：0

1.本发明涉及语音识别技术领域，特别是一种双录时对采集的音频音量的自动调整控制方法。

背景技术：

2.目前根据银保监的监管要求，在销售保险产品时，为规范销售从业人员的销售行为，也为了更好地保护客户的合法权益，要求以录音录像方式对销售过程予以记录。为了便于后续对所记录的音视频内容进行查看，在双录时要确保所记录的音频和图像的内容必须清晰和连贯。
3.保险销售人员保险销售时，一般都使用智能终端设备（手机、平板电脑等）上的双录app来完成双录。整个双录过程是由若干个双录环节组成，每个双录环节的类型可以是下面几种类型之一：播报话术、播报话术和销售人员展示证件、播报话术和客户语音回答、播报话术和展示电子文档、播报话术和展示电子文档及客户电子签名等。双录app在整个双录过程（包括所有双录环节）中，需要使用摄像头对双录参与人员（主要为销售人员、客户）进行图像拍摄，同时需要对话术播报以及客户语音回答的声音进行音频采集，并将采集的图像和音频同步保存到一个视频文件中。
4.在双录时，为了能够同时采集到双录参与人员（销售人员、客户）的头像，一般双录参与人员与设备之间的距离在半米以上。那么在“播报话术和客户语音回答”的双录环节中，如果客户按照正常对话的音量进行语音回答，会出现麦克风采集到的客户语音回答的声音比采集到的播报话术的声音要小很多的情况，导致录制出的双录视频的视听效果不好：往往是客户回答问题时声音都偏小。
5.现有的大部分双录app在双录时，都是直接将麦克风采集到的pcm音频数据经过压缩处理后保存到视频文件中。为了解决录制出的视频中的客户回答的声音比较小的问题，可能在录制过程中，同时检测所采集到的pcm音视频数据的音量，如果长时间采集到的音视频的音量较小，则在app界面上用文字提醒客户提高回答问题的音量（比如：“请您大声回答”），以便在录制的视频中客户的语音回答的声音也比较响亮。该技术方法采用了音量检测的方式来反馈提醒客户做特殊的配合，对客户不够友好，影响了客户购买保险的过程体验。

技术实现要素：

6.本发明提出了一种双录时对采集的音频音量的自动调整控制方法，是一种基于双录的过程信息对采集到的音频数据进行实时处理的流程和算法，来解决双录时客户按照正常的说话的音量对话术中的问题进行语音回答时，在保证客户语音回答的音的前提下，使得客户语音回答在所录制的双录视频中的音量与播报话术的音量相当，从而改善录制出的双录视频的视听效果。
7.为了解决上诉技术问题，本发明采用如下技术方案：
在保险销售时双录流程中分割为播报话术及客户语音回答环节，在整个双录过程中的所有播报话术及客户语音回答环节进行处理为：对麦克风在客户语音回答操作片段时所采集到的pcm音频数据的音量根据在播报话术操作片段所采集到的pcm音频数据的音量来进行自适应的倍增处理；最后，将倍增处理后的pcm音频数据压缩后，与该操作片段的图像内容同步存储到视频文件中。
8.上述的一种双录时对采集的音频音量的自动调整控制方法，其中：(1) 操作类型及操作时间片段的标记；双录是逐个环节进行录制的，在双录的过程中，双录app根据环节的类型，首先确定每个环节中的操作个数以及操作类型；同时对每个双录环节标记三个时刻：话术播报开始(即环节开始)、话术播报结束（即环节第二个操作开始）、环节结束（即环节第二个操作结束）；若对第i个环节进行标记，话术播报开始时刻标记为ti,s，话术播报结束时刻标记为ti,o ，环节结束时刻标记为ti,e ；如果这个环节没有第二个操作，即话术播报结束后环节就结束，则ti,o =ti,e，那么第i个环节的第一个操作，即播报话术，时间片段则为[ti,s, ti,o)，第二操作的时间片段则为[ti,o, ti,e)。
[0009]
上述的一种双录时对采集的音频音量的自动调整控制方法，其中：(2) 处理流程及倍增算法；通过上面的操作片段的划分方法，在双录的过程中，知道每个播报话术和客户语音回答环节的播报话术和客户语音回答的操作片段及其起止时刻。
[0010]
上述的一种双录时对采集的音频音量的自动调整控制方法，其中：双录时，采集的pcm音频数据为16位整型数据，采样率根据实际需要进行调整；对客户进行语音回答操作的pcm音频数据倍增的处理流程的算法及流程为：(a) 系统开始双录时，预设初始的“播报话术”的最大值pcm音频数据采样值为vmax=0，音量倍增系数m=8.0；(b) 对每个双录环节进行循环处理，对每个双录环节，根据环节类型按照下面两个方式之一进行处理：(b.1) 如果当前的操作为“播报话术和客户语音回答”环节，在两个操作时间片段中的处理方式分别如下：(b.1.1) 在ts-》o ，即播报话术操作时间片段中，直接将采集到的pcm音频数据进行音频压缩并与图像同步保存，同时，记录在整个操作时间片段中采集到的pcm音频数据的最大值v。在to时刻，用其更新vmax=v；(b.1.2) 在to-》e ，即客户语音回答操作时间片段中，先对每个采集的16位的pcm音频数据v进行倍增：v’=amplicate(v, m)，其中：amplicate(v, m)= v ≥ 0 min(v*m, 215-1) : max(v*m,
ꢀ‑
215+1)再进行音频压缩并与图像同步保存；同时，记录整个操作片段过程中采集的pcm音频数据的原始最大值记为vmax；在te时刻，如果vmax大于0，当前操作完成后计算新的音量倍增系数 m=vmax/vmax，并更新音量倍增系数m = θ *m+(1
‑ꢀ
θ)*m，其中θ为音量倍增系统的自动调整因子，取值范围为[0, 1]；当θ = 0时，表示每个播报话术和客户语音回答环节的音量倍增系数依赖于上一个环节中客户语音回答与话术播报的音量差异；当θ = 1时，表示每个播报话术和客户语音回答环节的音量倍增系数为初始的音量倍增系数；
(b.2) 如果当前的环节为其它类型环节，则直接将采集到的pcm音频数据进行音频压缩并与图像同步保存；(c) 双录结束，处理流程结束。
[0011]
上述的一种双录时对采集的音频音量的自动调整控制方法，其中：(a)过程，m=8.0是一个安全的初始值，不会导致倍增后的音频数据超过最大音响96db，m=8.0不是确定的固定值，在应用中进行调整；音频采用的量化位数为8位或者64位，也需要调整音量倍增系数m。
[0012]
与现有技术相比，本发明的有益效果是：采用本发明的技术方案，可以自适应地增加在双录录制的视频中客户语音回答的音量，以便改善双录视频的视听效果。通过动态调整音量倍增系统的方案，可以让客户语音回答的音量接近于播报话术的音量，让双录的视频效果自动适应于实际的录制情况，比如实际客户回答的原始音量的不同等。
[0013]
说明书附图图1为操作类型及操作时间片段的标记的示意图。
[0014]
图2为处理流程及倍增算法的示意图。
具体实施方式
[0015]
下面将结合实施例对本发明的实施方案进行详细描述，但是本领域技术人员将会理解，下列实施例仅用于说明本发明，而不应视为限制本发明的范围。实施例中未注明具体条件者，按照常规条件或制造商建议的条件进行。
[0016]
缩略语和关键术语定义双录：录音录像app：应用程序pcm: 脉冲编码调制本发明主要提出了一种方法流程可以改善双录过程中录制出视频中，话术播报和客户语音回答的音量相当；同时，通过自动调整控制的策略，该方法也可以更好地适应于实际的录制环境。
[0017]
根据保险销售时双录流程的特点，每个双录环节可以分割为一个或两个操作：第一个为“播报话术”；有些环节的第二个操作没有或者为“销售人员展示证件”、“客户语音回答”、“展示电子文档”、“展示电子文档及客户电子签名”等操作中的任意一个。本发明主要关注的双录环节是“播报话术及客户语音回答”环节，这类环节可以分割为前后两个操作片段：“播报话术”和“客户语音回答”。
[0018]
本发明在整个双录过程中的所有“播报话术及客户语音回答”环节进行处理：对麦克风在“客户语音回答”操作片段时所采集到的pcm音频数据的音量根据在“播报话术”操作片段所采集到的pcm音频数据的音量来进行自适应的倍增处理；最后，将倍增处理后的pcm音频数据压缩后，与该操作片段的图像内容同步存储到视频文件中。下面对具体的操作类型及操作时间片段的标记、处理流程及倍增算法进行展开描述。
[0019]
(1) 操作类型及操作时间片段的标记一般双录是逐个环节进行录制的。在双录的过程中，双录app可以根据环节的类型，首先确定每个环节中的操作个数以及操作类型；同时可以对每个双录环节标记三个时
刻：话术播报开始(即环节开始)、话术播报结束（即环节第二个操作开始）、环节结束（即环节第二个操作结束）。比如，若对第i个环节进行标记，话术播报开始时刻标记为t
i,s
，话术播报结束时刻标记为t
i,o
，环节结束时刻标记为t
i,e (如果这个环节没有第二个操作（即话术播报结束后环节就结束），则t
i,o
=t
i,e
)，那么第i个环节的第一个操作（即“播报话术”）时间片段则为[t
i,s
, t
i,o
)，第二操作的时间片段则为[t
i,o
,t
i,e
)。如图1所示(条纹底的部分为环节的第一个操作，斑点底的部分为环节的第二个操作)，每个操作的起始和结束时刻都可以被标记出来。
[0020]
若图1第i个环节为“播报话术和客户语音回答”环节，则[t
i,s
, t
i,o
)为“播报话术”操作时间片段，记为t
s-》o
；[t
i,o
,t
i,e
)为“客户语音回答”操作时间片段，记为t
o-》e
。
[0021]
(2) 处理流程及倍增算法通过上面的操作片段的划分方法，在双录的过程中，则可以知道每个“播报话术和客户语音回答”环节的“播报话术”和“客户语音回答”的操作片段及其起止时刻。双录时，采集的pcm音频数据一般为16位整型数据，采样率根据实际需要进行调整(比如16k、22.05k等)。那么，以采样数据为16位为例，对“客户进行语音回答”操作的pcm音频数据倍增的处理流程的算法及流程图如下（需要说明的是：本处理流程同样适用于采用数据的大小为其它位数整型的情况（比如8位、64位）。在此以采用16位的采样数据，仅仅是为了后面算法中相应参数取值于固定参考标准）：(a) 系统开始双录时，预设初始的“播报话术”的最大值pcm音频数据采样值为v
max
=0，音量倍增系数m=8.0（相当于音响增加18db）（一般正常说话声音为30~40db，所以m=8.0是一个安全的初始值，一般不会导致倍增后的音频数据超过最大音响96db。m=8.0不是本发明确定的固定值，在应用中可以实际情况进行调整；音频采用的量化位数为8位或者64位，也需要调整音量倍增系数m）。
[0022]
(b) 对每个双录环节进行循环处理。对每个双录环节，根据环节类型按照下面两个方式之一进行处理：(b.1) 如果当前的操作为“播报话术和客户语音回答”环节，在两个操作时间片段中的处理方式分别如下：(b.1.1) 在t
s-》o (即“播报话术”操作时间片段)中，直接将采集到的pcm音频数据进行音频压缩并与图像同步保存，同时，记录在整个操作时间片段中采集到的pcm音频数据的最大值v。在to时刻，用其更新v
max
=v；(b.1.2) 在t
o-》e (即“客户语音回答”操作时间片段)中，先对每个采集的16位的pcm音频数据v进行倍增：v’=amplicate(v, m)，其中：amplicate(v, m)= v ≥ 0 min(v*m, 2
15-1) : max(v*m,
ꢀ‑215
+1)再进行音频压缩并与图像同步保存；同时，记录整个操作片段过程中采集的pcm音频数据的原始最大值记为v
max
。在te时刻，如果v
max
大于0，当前操作完成后计算新的音量倍增系数 m=v
max
/v
max
，并更新音量倍增系数m = θ *m+(1
‑ꢀ
θ)*m，其中θ为音量倍增系统的自动调整因子，取值范围为[0, 1]。当θ = 0时，表示每个“播报话术和客户语音回答”环节的音量倍增系数依赖于上一个环节中“客户语音回答”与“话术播报”的音量差异；当θ = 1时，表示每个“播报话术和客户语音回答”环节的音量倍增系数为初始的音量倍增系数。
[0023]
(b.2) 如果当前的环节为其它类型环节，则直接将采集到的pcm音频数据进行音
频压缩并与图像同步保存。
[0024]
(c) 双录结束，处理流程结束。
[0025]
以下面流程附图2说明，左侧为主控制流程，在整个流程中提供双录过程信息；右侧为音频采用及处理流程。

技术特征：

1.一种双录时对采集的音频音量的自动调整控制方法，其特征在于，在保险销售时双录流程中分割为播报话术及客户语音回答环节，在整个双录过程中的所有播报话术及客户语音回答环节进行处理为：对麦克风在客户语音回答操作片段时所采集到的pcm音频数据的音量根据在播报话术操作片段所采集到的pcm音频数据的音量来进行自适应的倍增处理；最后，将倍增处理后的pcm音频数据压缩后，与该操作片段的图像内容同步存储到视频文件中。2.如权利要求1所述的一种双录时对采集的音频音量的自动调整控制方法，其特征在于：(1) 操作类型及操作时间片段的标记；双录是逐个环节进行录制的，在双录的过程中，双录app根据环节的类型，首先确定每个环节中的操作个数以及操作类型；同时对每个双录环节标记三个时刻：话术播报开始(即环节开始)、话术播报结束（即环节第二个操作开始）、环节结束（即环节第二个操作结束）；若对第i个环节进行标记，话术播报开始时刻标记为t
i,s
，话术播报结束时刻标记为t
i,o
，环节结束时刻标记为t
i,e ；如果这个环节没有第二个操作，即话术播报结束后环节就结束，则t
i,o
=t
i,e
，那么第i个环节的第一个操作，即播报话术，时间片段则为[t
i,s
, t
i,o
)，第二操作的时间片段则为[t
i,o
,t
i,e
)。3.如权利要求2所述的一种双录时对采集的音频音量的自动调整控制方法，其特征在于：(2) 处理流程及倍增算法；通过上面的操作片段的划分方法，在双录的过程中，知道每个播报话术和客户语音回答环节的播报话术和客户语音回答的操作片段及其起止时刻。4.如权利要求3所述的一种双录时对采集的音频音量的自动调整控制方法，其特征在于：双录时，采集的pcm音频数据为16位整型数据，采样率根据实际需要进行调整；对客户进行语音回答操作的pcm音频数据倍增的处理流程的算法及流程为：(a) 系统开始双录时，预设初始的“播报话术”的最大值pcm音频数据采样值为vmax=0，音量倍增系数m=8.0；(b) 对每个双录环节进行循环处理，对每个双录环节，根据环节类型按照下面两个方式之一进行处理：(b.1) 如果当前的操作为“播报话术和客户语音回答”环节，在两个操作时间片段中的处理方式分别如下：(b.1.1) 在ts->o ，即播报话术操作时间片段中，直接将采集到的pcm音频数据进行音频压缩并与图像同步保存，同时，记录在整个操作时间片段中采集到的pcm音频数据的最大值v；在to时刻，用其更新vmax=v；(b.1.2) 在to->e ，即客户语音回答操作时间片段中，先对每个采集的16位的pcm音频数据v进行倍增：v’=amplicate(v, m)，其中：amplicate(v, m)= v ≥0 min(v*m, 215-1) : max(v*m,
ꢀ‑
215+1)再进行音频压缩并与图像同步保存；同时，记录整个操作片段过程中采集的pcm音频数据的原始最大值记为vmax；在te时刻，如果vmax大于0，当前操作完成后计算新的音量倍增系数 m=vmax/vmax，并更新音量倍增系数m = θ *m+(1
‑ꢀ
θ)*m，其中θ为音量倍增系统的自动调整因子，取值范围为[0, 1]；当θ = 0时，表示每个播报话术和客户语音回答环节的音量倍增系数依赖于上一个环节中客户语音回答与话术播报的音量差异；当θ = 1时，表示每个播报话术和客户语音回答环节的音量倍增系数为初始的音量倍增系数；(b.2) 如果当前的环节为其它类型环节，则直接将采集到的pcm音频数据进行音频压缩并与图像同步保存；(c) 双录结束，处理流程结束。5.如权利要求4所述的一种双录时对采集的音频音量的自动调整控制方法，其特征在于：(a)过程，m=8.0是一个安全的初始值，不会导致倍增后的音频数据超过最大音响96db，m=8.0不是确定的固定值，在应用中进行调整；音频采用的量化位数为8位或者64位，也需要
调整音量倍增系数m。

技术总结

本发明公开了一种双录时对采集的音频音量的自动调整控制方法，采用本发明的技术方案，自适应地增加在双录录制的视频中客户语音回答的音量，以便改善双录视频的视听效果。通过动态调整音量倍增系统的方案，可以让客户语音回答的音量接近于播报话术的音量，让双录的视频效果自动适应于实际的录制情况，比如实际客户回答的原始音量的不同等。客户回答的原始音量的不同等。客户回答的原始音量的不同等。