基于语音交互的账号注册的方法和系统

阅读：评论：0

著录项

申请号 CN202010223003.7
申请日 20200326
公开（公告）号 CN111464519A
公开日 20200728
申请（专利权）人支付宝（杭州）信息技术有限公司
发明人刘磊
主分类号 H04L29/06
分类号
H04L29/06 G06K9/00
地址浙江省杭州市西湖区西溪路556号8层B段801-11
国省代码浙江(33)
代理机构北京市一法律师事务所
代理人刘荣娟

摘要

本说明书提供的基于语音交互的账号注册的方法和系统，可以通过多轮会话的方式引导申请人通过语音输入注册信息进行目标账号的注册，使注册过程无屏化。在目标账号注册过程中，所述系统可以基于申请人的面部图像或语音应答信息对申请人进行活体判断，并将申请人的面部图像、声纹特征以及语音应答信息与所述目标账号关联。

权利要求



1.一种基于语音交互的账号注册的方法，包括，通过至少一个处理器：

接收申请人通过客户端发送的注册目标账号的请求；

向所述客户端发送引导信息；

获取所述申请人的响应于所述引导信息的语音应答信息；

获取所述申请人的活体识别信息，将所述活体识别信息输入活体识别模型，判断所述申请人为活体；以及

基于所述语音应答信息，生成所述目标账号。

2.如权利要求1所述的基于语音交互的账号注册的方法，其中，所述活体识别信息包括所述语音应答信息，所述活体识别模型包括语义识别模型；以及

所述将所述活体识别信息输入活体识别模型，判断所述申请人为活体包括：

将所述引导信息和所述语音应答信息输入所述语义识别模型，对所述引导信息和所述语音应答信息进行匹配；以及

当所述引导信息和所述语音应答信息匹配时，判断所述申请人为活体。

3.如权利要求1所述的基于语音交互的账号注册的方法，其中，所述活体识别信息包括所述申请人的面部图像，所述活体识别模型为人脸活体识别模型，其中，所述申请人的面部图像与所述目标账号关联。



4.如权利要求1所述的基于语音交互的账号注册的方法，其中，所述引导信息包括多个提问，

所述语音应答信息包括多个语音应答，

所述多个语音应答中的每个语音应答对应所述多个提问中的一个提问，

所述多个提问和所述多个语音应答在语义上形成多轮会话，以及

所述语音应答信息包括所述申请人的注册信息，其中，所述注册信息与所述目标账户关联。



5.如权利要求4所述的基于语音交互的账号注册的方法，其中，

所述向所述客户端发送引导信息包括，在所述多轮会话中的每一轮会话中：

将所述多个语音应答中上一时刻的语音应答的应答文本输入至预先训练好的会话模型中，生成所述多个提问中的当前时刻的提问；以及

将所述当前时刻的提问发送至所述客户端；

所述获取所述申请人的响应于所述引导信息的语音应答信息包括，在所述多轮会话中的每一轮会话中：

获取响应于所述当前时刻的提问的语音应答的应答文本；

将所述响应于所述当前时刻的提问的语音应答的应答文本输入特征提取模型中，得到对应的标签，其中，所述标签与所述目标账号关联。



6.如权利要求5所述的基于语音交互的账号注册的方法，其中，所述获取所述申请人的响应于所述引导信息的语音应答信息还包括，在所述多轮会话中的每一轮会话中：

将所述响应于所述当前时刻的提问的语音应答的应答文本发送给所述客户端，展示给所述申请人。

7.如权利要求6所述的基于语音交互的账号注册的方法，其中，所述获取所述申请人的响应于所述引导信息的语音应答信息还包括，在所述多轮会话中的每一轮会话中：

当预设时间内未采集到所述申请人的语音应答时，结束所述多轮会话。

8.如权利要求4所述的基于语音交互的账号注册的方法，其中，所述注册信息包括所述申请人的身份信息，所述引导信息包括身份引导信息，所述语音应答信息包括响应于所述身份引导信息的身份语音应答，所述获取所述申请人的响应于所述引导信息的语音应答信息包括：

获取所述申请人响应于所述身份引导信息的所述身份语音应答；

获取所述身份语音应答中的身份特征；

将所述身份特征发送给第三方系统进行认证；以及

接收认证结果，当所述认证结果通过时，所述身份信息与所述目标账号关联。

9.如权利要求1所述的基于语音交互的账号注册的方法，其中，所述基于所述语音应答信息，生成所述目标账号包括：

将所述语音应答信息输入声纹特征提取模型中，生成所述申请人的声纹特征，所述声纹特征与所述目标账号关联。

10.一种基于语音交互的账号注册的系统，包括：

至少一个存储介质，包括至少一个指令集，用于基于语音交互的账号注册；以及

至少一个处理器，同所述至少一个存储介质通讯连接，

其中，当所述系统运行时，所述至少一个处理器读取所述至少一个指令集，并且根据所述至少一个指令集的指示执行权利要求1-9中任一项所述的基于语音交互的账号注册的方法。

说明书

技术领域

本说明书涉及互联网技术领域，尤其涉及一种基于语音交互的账号注册的方法和系统。

随着信息技术和互联网技术的快速发展，人们的工作、生活、学习等与网络密切相连，在线业务办理给人们的生活、工作带来了极大的便利。一般的，用户在进行在线办理业务时，需要在相应的应用程序客户端或者网站进行账号注册。一般情况下，不同的应用程序或者网站的注册信息会由各个应用程序或网站单独保存。因此，在日常生活中，用户会经常面临账号注册的问题。现有的注册流程需要手动填入用户的个人信息。大多数的注册都是在手机屏幕或者键盘上输入个人信息。尤其是手机的触屏，尺寸很小，通过触屏输入注册信息很不方便。对于一些用户，比如老年人、不熟悉键盘输入的人、在走路时或者身处地铁等晃动环境中的人，输入个人信息尤其困难。同时，由于整个注册过程中都是通过屏幕、键盘等文字输入工具进行的，注册后对用户的确认手段也必然有限，比如手机验证码等文字手段来进行验证用户的身份。这使得账号的认证并不可靠。

因此，需要一种更快捷更舒适和可靠的账号注册的方法和系统。

为了解决上述注册账号中遇到的输入不便的技术问题，本说明书提供一种更快捷更舒适的基于语音交互的账号注册的方法和系统。

本说明书提供的基于语音交互的账号注册的方法和系统，可以通过多轮会话的方式引导申请人通过语音输入注册信息进行账号注册，使注册过程无屏化。在账号注册过程中，所述系统可以基于所述申请人的面部图像或语音应答信息对所述申请人进行活体判断，并将所述申请人的面部图像、声纹特征以及语音应答信息与目标账号关联。

第一方面，本说明书提供一种基于语音交互的账号注册的方法，包括，通过至少一个处理器：接收申请人通过客户端发送的注册目标账号的请求；向所述客户端发送引导信息；获取所述申请人的响应于所述引导信息的语音应答信息；获取所述申请人的活体识别信息，将所述活体识别信息输入活体识别模型，判断所述申请人为活体；以及基于所述语音应答信息，生成所述目标账号。

在一些实施例中，所述活体识别信息包括所述语音应答信息，所述活体识别模型包括语义识别模型；以及所述将所述活体识别信息输入活体识别模型，判断所述申请人为活体包括：将所述引导信息和所述语音应答信息输入所述语义识别模型，对所述引导信息和所述语音应答信息进行匹配；以及当所述引导信息和所述语音应答信息匹配时，判断所述申请人为活体。

在一些实施例中，所述活体识别信息包括所述申请人的面部图像，所述活体识别模型为人脸活体识别模型，其中，所述申请人的面部图像与所述目标账号关联。

在一些实施例中，所述引导信息包括多个提问，所述语音应答信息包括多个语音应答，所述多个语音应答中的每个语音应答对应所述多个提问中的一个提问，所述多个提问和所述多个语音应答在语义上形成多轮会话，以及所述语音应答信息包括所述申请人的注册信息，其中，所述注册信息与所述目标账户关联。

在一些实施例中，所述向所述客户端发送引导信息包括，在所述多轮会话中的每一轮会话中：将所述多个语音应答中上一时刻的语音应答的应答文本输入至预先训练好的会话模型中，生成所述多个提问中的当前时刻的提问；以及将所述当前时刻的提问发送至所述客户端；所述获取所述申请人的响应于所述引导信息的语音应答信息包括，在所述多轮会话中的每一轮会话中：获取响应于所述当前时刻的提问的语音应答的应答文本；将所述响应于所述当前时刻的提问的语音应答的应答文本输入特征提取模型中，得到对应的标签，其中，所述标签与所述目标账号关联。

在一些实施例中，所述获取所述申请人的响应于所述引导信息的语音应答信息还包括，在所述多轮会话中的每一轮会话中：将所述响应于所述当前时刻的提问的语音应答的应答文本发送给所述客户端，展示给所述申请人。

在一些实施例中，所述获取所述申请人的响应于所述引导信息的语音应答信息还包括，在所述多轮会话中的每一轮会话中：当预设时间内未采集到所述申请人的语音应答时，结束所述多轮会话。

在一些实施例中，所述注册信息包括所述申请人的身份信息，所述引导信息包括身份引导信息，所述语音应答信息包括响应于所述身份引导信息的身份语音应答，所述获取所述申请人的响应于所述引导信息的语音应答信息包括：获取所述申请人响应于所述身份引导信息的所述身份语音应答；获取所述身份语音应答中的身份特征；将所述身份特征发送给第三方系统进行认证；以及接收认证结果，当所述认证结果通过时，所述身份信息与所述目标账号关联。

在一些实施例中，所述基于所述语音应答信息，生成所述目标账号包括：将所述语音应答信息输入声纹特征提取模型中，生成所述申请人的声纹特征，所述声纹特征与所述目标账号关联。

第二方面，本说明书提供一种基于语音交互的账号注册的系统，包括：至少一个存储介质，包括至少一个指令集，用于基于语音交互的账号注册；以及至少一个处理器，同所述至少一个存储介质通讯连接，其中，当所述系统运行时，所述至少一个处理器读取所述至少一个指令集，并且根据所述至少一个指令集的指示执行本说明书所述的基于语音交互的账号注册的方法。

由以上技术方案可知，本说明书提供的基于语音交互的账号注册的方法和系统通过多轮会话的方式引导申请人通过语音输入注册信息进行账号注册，使注册过程无屏化。解决了上述注册账号中遇到的输入不便的技术问题。同时，在账号注册过程中，所述系统可以基于所述申请人的面部图像或语音应答信息对所述申请人进行活体判断，并将所述申请人的面部图像、声纹特征以及语音应答信息与目标账号关联。这样，在注册后对用户的确认手段除了常规的文字手段验证外又增加了图像和声纹等维度的验证手段。这使得账号的注册和认证更加可靠。

本说明书提供的基于语音交互的账号注册的方法和系统的其他功能将在以下说明中部分列出。根据描述，以下数字和示例介绍的内容将对那些本领域的普通技术人员显而易见。本说明书提供的基于语音交互的账号注册的方法、系统和存储介质的创造性方面可以通过实践或使用下面详细示例中所述的方法、装置和组合得到充分解释。

为了更清楚地说明本说明书实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本说明书的实施例提供的一种基于语音交互的账号注册的系统示意图；

图2示出了根据本说明书的实施例提供的一种基于语音交互的账号注册的服务器结构示意图；

图3示出了根据本说明书的实施例提供的一种基于语音交互的账号注册的方法流程图；以及

图4示出了根据本说明书的实施例提供的一种账号注册页面的示意图。

以下描述提供了本说明书的特定应用场景和要求，目的是使本领域技术人员能够制造和使用本说明书中的内容。对于本领域技术人员来说，对所公开的实施例的各种局部修改是显而易见的，并且在不脱离本说明书的精神和范围的情况下，可以将这里定义的一般原理应用于其他实施例和应用。因此，本说明书不限于所示的实施例，而是与权利要求一致的最宽范围。

这里使用的术语仅用于描述特定示例实施例的目的，而不是限制性的。比如，除非上下文另有明确说明，这里所使用的，单数形式“一”，“一个”和“该”也可以包括复数形式。当在本说明书中使用时，术语“包括”、“包含”或“含有”意思是指所关联的整数，步骤、操作、元素或组件存在，但不排除一个或多个其他特征、整数、步骤、操作、元素、组件或组的存在或在该系统/方法中可以添加其他特征、整数、步骤、操作、元素、组件或组。

考虑到以下描述，本说明书的这些特征和其他特征、以及结构的相关元件的操作和功能、以及部件的组合和制造的经济性可以得到明显提高。参考附图，所有这些形成本说明书的一部分。然而，应该清楚地理解，附图仅用于说明和描述的目的，并不旨在限制本说明书的范围。还应理解，附图未按比例绘制。

本说明书中使用的流程图示出了根据本说明书中的一些实施例的系统实现的操作。应该清楚地理解，流程图的操作可以不按顺序实现。相反，操作可以以反转顺序或同时实现。此外，可以向流程图添加一个或多个其他操作。可以从流程图中移除一个或多个操作。

现有技术中，应用程序或网站在引导用户进行账号注册时，通常采取的方式是在注册页面提供注册引导信息，用户需要在注册页面通过键盘手动输入注册信息。随着智能手机的快速发展，大多注册过程都可以在智能手机设备上完成。但是，智能手机设备的屏幕较小，而在账号注册流程中又有大量的需要用户输入注册信息的场景，用户需要在注册页面上进行放大、缩小以及页面切换的操作，在交互体感上的体验较差。

本说明书提供了基于语音交互的账号注册的方法和系统。所述基于语音交互的账号注册是指，在用户注册账号时，通过多轮会话的方式引导用户进行语音注册。所述方法和系统可以使账号注册的操作流程无键盘化和全屏化。

第一方面，本说明书提供了一种基于语音交互的账号注册的系统100(以下简称系统100)。第二方面，本说明书从服务器端描述了一种基于语音交互的账号注册的方法P100。图1示出了一种基于语音交互的账号注册的系统100的示意图。系统100可以包括服务器200、客户端300、网络120以及数据库150。

服务器200可以存储有执行本说明书描述的基于语音交互的账号注册的方法P100的数据或指令。服务器200可以执行或用于执行本说明书中描述的基于语音交互的账号注册的方法P100的数据或指令。

如图1所示，申请人110是注册目标账号的请求者。客户端300是申请人110注册所述目标账号的请求设备。客户端300与服务器200通讯连接。在一些实施例中，客户端300可以安装有一个或多个应用(APP)。所述APP能够为申请人110提供通过网络120同外界交互的能力以及界面。所述APP包括但不限于：聊天类APP程序、购物类APP程序、视频类APP程序、理财类APP程序等等，例如支付宝TM、淘宝TM、京东TM或银行等金融服务机构、理财产品等APP程序。客户端300上装载有与服务器200相对应的注册所述目标账号的目标APP。在一些实施例中，客户端300可以包括移动设备300-1、平板电脑300-2、笔记本电脑300-3、机动车辆300-4的内置设备或类似内容，或其任意组合。在一些实施例中，移动设备300-1可包括智能家居设备、智能移动设备、虚拟现实设备、增强现实设备或类似设备，或其任意组合。在一些实施例中，所述智能家居装置可包括智能电视、台式电脑等，或任意组合。在一些实施例中，所述智能移动设备可包括智能手机、个人数字辅助、游戏设备、导航设备等，或其任意组合。在一些实施例中，所述虚拟现实设备或增强现实设备可能包括虚拟现实头盔、虚拟现实眼镜、虚拟现实补丁、增强现实头盔、增强现实眼镜、增强现实补丁或类似内容，或其中的任何组合。例如，所述虚拟现实设备或所述增强现实设备可能包括谷歌眼镜、头戴式显示器、齿轮VR等。在一些实施例中，机动车300-4中的内置装置可包括车载计算机、车载电视等。在一些实施例中，客户端300可以是具有定位技术的设备，用于定位客户端300的位置。

网络120可以促进信息或数据的交换。如图1所示，客户端300、服务器200、数据库150可以同网络120连接，并且通过网络120互相传输信息或数据。例如，服务器200可以通过网络120从客户端300获取服务请求。在一些实施例中，网络120可以是任何类型的有线或无线网络，也可以是其组合。比如，网络120可以包括电缆网络，有线网络、光纤网络、电信通信网络、内联网、互联网、局域网(LAN)、广域网(WAN)、无线局域网(WLAN)、大都市市区网(MAN)、广域网(WAN)、公用电话交换网(PSTN)、蓝牙网络、ZigBee网络、近场通信(NFC)网络或类似网络。在一些实施例中，网络120可以包括一个或多个网络接入点。例如，网络120可以包括有线或无线网络接入点，如或互联网交换点120-1、120-2，……，通过该接入点，客户端300、服务器200、数据库150的一个或多个组件可以连接到网络120以交换数据或信息。

数据库150可以存储数据或指令。在一些实施例中，数据库150可以存储从服务器200或客户端300获得的数据。在一些实施例中，数据库150可以存储服务器200可以执行或用于执行本说明书中描述的基于语音交互的账号注册的方法P100的数据或指令。在一些实施例中，数据库150可以存储所有用户的注册信息和操作信息。数据库150中也可以存储账号注册所需的所有引导信息。服务器200和客户端300可能具有访问数据库150的权限，服务器200和客户端300可以通过网络120访问存储在数据库150中的数据或指令。在一些实施例中，数据库150可以直接连接到服务器200和客户端300。在一些实施例中，数据库150可以是服务器200的一部分。在一些实施例中，数据库150可以包括大容量存储、可移动存储、易失性读写存储器、只读存储器(ROM)或类似内容，或其任意组合。示例性大容量存储可能包括磁盘、光盘、固态驱动器等非暂时性存储介质(non-transitory storage medium)。可移动存储可能包括闪存驱动器、软盘、光盘、存储卡、zip磁盘、磁带等。典型的易失性读写内存可能包括随机存取存储器(RAM)。RAM可能包括动态RAM(DRAM)、双日期速率同步动态RAM(DDRSDRAM)、静态RAM(SRAM)、晶闸管RAM(T-RAM)和零电容RAM(Z-RAM)等。ROM可能包括掩码ROM(MROM)、可编程ROM(PROM)、可虚拟可编程ROM(PEROM)、电子可编程ROM(EEPROM)、光盘(CD-ROM)和数字多功能磁盘ROM等。在一些实施例中，数据库150可以在云平台上实现。仅仅作为例子，所述云平台可能包括私有云、公共云、混合云、社区云、分布式云、云间云等形式，或者同上述形式类似的形式，或这上述形式的任意组合。

如图1所示，申请人110在客户端300上发出注册目标账号的请求，所述注册目标账号的请求通过网络120传输给服务器200；服务器200执行存储在服务器200或数据库150中的基于语音交互的账号注册的方法P100的指令；同时，客户端300接收服务器200的指令并执行；最后，完成所述目标账号的注册。

图2示出了一种基于语音交互的账号注册的服务器200的结构示意图。服务器200可以执行本说明书描述的基于语音交互的账号注册的方法。所述基于语音交互的账号注册的方法在本说明书中的其他部分介绍。比如，在图3和图4的描述中介绍了所述基于语音交互的账号注册的方法P100。

如图2所示，服务器200包括至少一个存储介质230和至少一个处理器220。在一些实施例中，服务器200还可以包括通信端口250和内部通信总线210。同时，服务器200还可以包括I/O组件260。

内部通信总线210可以连接不同的系统组件，包括存储介质230和处理器220。

I/O组件260支持服务器200和其他组件(例如，客户端300)之间的输入/输出。

存储介质230可以包括数据存储装置。所述数据存储装置可以是非暂时性存储介质，也可以是暂时性存储介质。比如，所述数据存储装置可以包括磁盘232、只读存储介质(ROM)234或随机存取存储介质(RAM)236中的一种或多种。存储介质230还包括存储在所述数据存储装置中的至少一个指令集。所述指令是计算机程序代码，所述计算机程序代码可以包括执行本说明书提供的基于语音交互的账号注册的方法的程序、例程、对象、组件、数据结构、过程、模块等等。

通信端口250用于服务器200同外界的数据通讯。比如，服务器200可以通过通信端口250连接网络120，接收申请人110在目标APP(例如支付宝TM或淘宝TM)上的注册目标账号的请求，进而通过通信端口250向所述目标APP对申请人110完成基于语音交互的账号注册。

至少一个处理器220同至少一个存储介质230通过内部通信总线210通讯连接。至少一个处理器220用以执行上述至少一个指令集。当系统100运行时，至少一个处理器220读取所述至少一个指令集，并且根据所述至少一个指令集的指示执行本说明书提供的基于语音交互的账号注册的方法P100。处理器220可以执行基于语音交互的账号注册的方法P100包含的所有步骤。处理器220可以是一个或多个处理器的形式，在一些实施例中，处理器220可以包括一个或多个硬件处理器，例如微控制器，微处理器，精简指令集计算机(RISC)，专用集成电路(ASIC)，特定于应用的指令集处理器(ASIP)，中央处理单元(CPU)，图形处理单元(GPU)，物理处理单元(PPU)，微控制器单元，数字信号处理器(DSP)，现场可编程门阵列(FPGA)，高级RISC机器(ARM)，可编程逻辑器件(PLD)，能够执行一个或多个功能的任何电路或处理器等，或其任何组合。仅仅为了说明问题，在本说明书中服务器200中仅描述了一个处理器220。然而，应当注意，本说明书中服务器200还可以包括多个处理器，因此，本说明书中披露的操作或方法步骤可以如本说明书所述的由一个处理器执行，也可以由多个处理器联合执行。例如，如果在本说明书中服务器200的处理器220执行步骤A和步骤B，则应该理解，步骤A和步骤B也可以由两个不同处理器220联合或分开执行(例如，第一处理器执行步骤A，第二处理器执行步骤B，或者第一和第二处理器共同执行步骤A和B)。

虽然上述结构描述的是服务器200，此结构也适用于客户端300。

图3示出了一种基于语音交互的账号注册的方法P100的流程图。如前所述，服务器200可以执行本说明书提供的基于语音交互的账号注册的方法P100。具体地，服务器200中的处理器220可以执行本说明书提供的基于语音交互的账号注册的方法P100。所述方法P100可以包括：

S100：接收申请人110通过客户端300发送的注册目标账号的请求。

其中，所述注册所述目标账号的请求由申请人110从客户端300发起。申请人110通过客户端300的所述目标APP或网页向服务器200发送所述注册所述目标账号的请求。所述目标账号可以是任何平台的账号。例如，申请人110可以通过支付宝TM客户端向支付宝TM服务器发送注册支付宝TM账号的请求。再比如，申请人110可以通过美团TM客户端向美团TM服务器发送注册美团TM账号的请求。

上述请求中可以包括客户端300的设备标识。所述客户端300的设备标识可以为客户端300的唯一编码等信息，只要是可以唯一的区别客户端300的信息都可以作为客户端300的标识。所述客户端300的设备标识可以与所述目标账号相关联。当服务器200接收到客户端300发送的所述注册所述目标账号的请求后，可以基于客户端300的设备标识对客户端300的设备环境以及设备状态进行识别，以判断客户端300是否具备语音注册账号的条件。当客户端300具备语音注册账号的条件时，服务器200便向客户端300发送语音注册所述目标账号的推荐。比如服务器200可以向客户端300发送指令，使其在触屏上弹出一个会话框询问申请人是否同意语音注册。

当申请人110同意通过语音进行所述目标账号的注册时，服务器200便开启语音注册所述目标账号流程。举例来说，客户端300可以是手机设备300-1。当申请人110通过手机设备申请注册支付宝TM账号时，支付宝TM服务器200可以通过申请人110的所述手机设备300-1的设备标识，判断所述手机设备300-1的型号，进而判断所述手机设备300-1安装的操作系统、是否具备录音功能以及是否具有摄像头，等等。当支付宝TM服务器200判断出申请人110的所述手机设备300-1满足语音注册支付宝TM账号的条件时，服务器200向申请人110的所述手机设备300-1发送语音注册支付宝TM账号的请求。当申请人110同意通过语音注册支付宝TM账号时，支付宝TM服务器200开启语音注册支付宝TM账号的流程，即申请人110通过语音输入注册信息的注册流程。相反，当申请人110不同意通过语音注册支付宝TM账号时，支付宝TM服务器200开启常规注册支付宝TM账号的流程，即申请人110通过键盘操作输入注册信息的注册流程。所述注册信息可以包括申请人110的身份信息，比如申请人110的姓名、身份证号、社保账号、手机号、邮箱号，等等，还可以包括申请人110的属性特征信息，比如，申请人110的年龄、职业、爱好，等等。所述注册信息还可以包括申请人110的生物特征，比如，申请人110的面部图像、虹膜、巩膜、指纹、掌纹、声纹、骨骼投影等等。为了方便说明，本说明书中使用面部图像作为例子对本发明进行说明。当然，本领域普通技术人员可以理解，上述其他方式的生物特征也可以作为申请人110的属性特征信息而在注册过程中被采集。

当申请人110同意通过语音进行所述目标账号的注册时，服务器200可以请求申请人110开启图像采集。第一方面，客户端300采集的图像可以作为注册协议保存。第二方面，服务器200可以通过图像采集对申请人110进行活体判断。第三方面，服务器200可以通过图像采集申请人110的面部图像进行身份认证。第四方面，服务器200可以通过图像采集申请人110的面部图像作为所述目标账号的登录信息。关于图像采集的具体信息将在本说明书后面的部分具体介绍。

S300：向客户端300发送引导信息。

当申请人110同意通过语音进行所述目标账号的注册时，服务器200便向客户端300发送引导信息。所述引导信息可以在所述图像采集之前、之后或者同时进行。所述引导信息可以包括注册引导信息。所述引导信息可以是语音引导信息，也可以是显示在客户端300屏幕上的文字引导信息，当然，也可以是语音和文字引导信息的组合。申请人110可以根据自己的喜好，选择语音形象，比如，可以选择萌娃语音，蜡笔小新语音，等等。申请人110也可以根据自己的喜好选择文字的字体。当服务器200开启语音注册账号的流程时，客户端300的注册页面可以展示一个虚拟形象，通过所述虚拟形象向申请人110展示所述引导信息。所述虚拟形象可以是卡通人物形象，比如柯南，也可以是卡通动物形象，比如，机器猫，等等，本说明书中对所述虚拟形象的外形不做具体限制。服务器200中可以设置多个不同的虚拟形象，申请人110可以根据自己的喜好自行设置。所述虚拟形象可以提升注册流程的交互感，并使注册过程新颖有趣，同时可以提升科技感。并且申请人110可以自行设置虚拟形象，提升用户的体验感，在采集用户注册信息时，减少用户的烦躁感，使注册流程变得有趣和人性化。所述引导信息可以包括身份引导信息，还可以包括属性特征引导信息，甚至可以包括生物特征引导信息。

S500：获取申请人110的响应于所述引导信息的语音应答信息。

由于所述语音应答信息响应于所述引导信息，因此，步骤S300与步骤S500不是独立存在的，两个步骤是交叉进行的。也就是说，服务器200在执行步骤S300时向申请人110发送了提问，然后在步骤S500中从客户端300接收到申请人110的应答，然后服务器200会根据所述应答再进行下一轮提问，也就是再次执行步骤S300，并再次执行步骤S500从客户端300接收到申请人110的下一轮应答，以此类推，反复执行步骤S300和S500，直至收集到所有注册所需的信息或者遇到中断注册的条件。

因此，所述引导信息可以包括多个提问，所述语音应答信息可以包括多个语音应答。所述多个语音应答中的每个语音应答对应所述多个提问中的一个提问。也就是说所述每个语音应答不仅在时间序列上可以紧接着相应的提问，在语义上也同相应的提问是连贯的。因此，所述多个提问和所述多个语音应答在语义上形成多轮会话。比如，当提问的问题是“您是哪年出生的？”相应的语音应答是“1990年1月1日。”这个应答应当发生在下一个提问之前，并且提供的信息在语义上是对所述提问的回答。

当服务器200向客户端300发送提问时，客户端300采集申请人110响应于所述一个提问的语音应答，并发送给服务器200。如前所述，所述引导信息可以包括注册引导信息，引导申请人110提供注册需要的信息。由于所述语音应答是对所述引导信息的回答，所述语音应答信息便自然地包括申请人110的注册信息。当然，所述注册信息可以与所述目标账户关联。所述关联，可以是所述注册信息可以与所述目标账户绑定。

所述引导信息可以是预先存储的。比如，数据库150或服务器200内置的非暂时性存储介质(比如硬盘)中存储有预先设置好的会话库，即多轮会话中所有的引导信息。需要说明的是，所述多轮会话是由服务器200发起的，且在每一轮会话中，服务器200会基于上一轮会话中申请人110的应答语音，从所述会话库中挑选下一个会话向申请人110发送。比如，服务器200在向客户端300发送多个提问时可以同时运行一个训练好的会话模型。所述会话模型可以是人工智能模型并连接到所述会话库中。客户端300传来的每个应答都会被输入到所述会话模型中。所述会话模型可以根据同所述客户端300进行的会话中已经收集到的注册需要的信息从所述会话库中挑选下一个会话向申请人110发送。所述下一个会话的语义可以是用来收集注册信息中还没有被采集到的信息，同时所述下一个会话的语言选择可以同上一个会问题和/或应答在表达上行成连贯顺畅的会话关系。

综上，服务器200在所述多轮会话中的每一轮会话中会先执行步骤S300，即，服务器200先向客户端300发送引导信息。具体地，服务器200可以：将所述多个语音应答中上一时刻的语音应答的应答文本输入至预先训练好的所述会话模型中，生成所述多个提问中的当前时刻的提问，然后将所述当前时刻的提问发送至客户端300。比如，所述会话模型是预先通过机器学习训练好的。所述会话模型是基于大量的历史会话信息训练得到的。服务器200将上一时刻服务器200与客户端300响应于所述引导信息的应答文本输入至所述会话模型中，通过所述会话模型的计算，输出当前时刻会话的标签，根据所述当前时刻会话的标签，服务器200从所述会话库中挑选出与之对应的提问(即所述引导信息)向申请人110发送。

然后，服务器可以执行步骤S500，即服务器200获取申请人110的响应于所述引导信息的所述语音应答信息。在这一步中，服务器200首先可以获取响应于所述当前时刻的提问的语音应答的应答文本；然后将所述响应于所述当前时刻的提问的语音应答的应答文本输入特征提取模型中，得到对应的标签，其中，所述标签与所述目标账号关联。

比如，当客户端300接收到服务器200发送的当前时刻的提问(即所述引导信息)后，采集申请人110响应于所述当前时刻的提问的语音应答，并将所述语音应答发送给服务器200；服务器200接收客户端300发送的响应于当前时刻的提问的语音应答，并提取出所述语音应答对应的应答文本；并将所述应答文本输入所述会话模型中，开启下一轮的会话。需要说明的是，服务器200在获取所述应答文本后，可以将所述应答文本输入所述特征提取模型中，得到所述应答文本对应的标签；将所述标签保存在数据库中，所述标签可以和所述目标账号关联。所述特征提取模型是基于大量的文本信息和与所述文本信息对应的标签通过训练得到的。所述标签可以是申请人110的注册信息。比如，所述标签可以是申请人110的姓名、年龄、爱好、身份证号、手机号，等等。所述标签与所述目标账号关联。在申请人110后期使用所述目标APP的过程中，服务器200可以依据所述标签向申请人110推送一些可能感兴趣的信息和话题，提升用户粘合度。当然，申请人110在注册账号时输入的注册信息，在使用过程中也可以随时进行修改。

这种智能会话的方式可以使注册过程更有趣，更智能，服务器200可以根据申请人110的语音回答向申请人110推送下一个问题，整个会话过程会根据申请人110的爱好进行定制，而不是机械化地要求申请人110填写注册信息，提升申请人110对所述目标APP的用户体验，增强后期申请人110与所述目标APP的粘合度。

此外，在每一轮会话过程中执行步骤S500时，服务器200在获取申请人110响应于所述引导信息的语音应答信息后，还可以将所述语音应答的应答文本发送给客户端300，展示给申请人110。比如，在服务器200获取到响应于所述当前时刻的提问的所述语音应答后，可以将所述应答文本发送至客户端300。客户端300在收到所述应答文本后，可以以文字的形式展示给申请人110。这么做的有益效果是，一方面，申请人110可以通过查看文字信息确认服务器200采集的信息是正确的。第二方面，也可以作为注册协议，保存在数据库150中。服务器200可以抽取一部分应答文本展示给申请人110，也可以将所有的应答文本展示给申请人110。

为了更好的展示步骤S300和S500，下面将以申请人110在手机设备300-1上注册支付宝TM账号为例进行进一步说明。图4示出了根据本说明书实施例提供的一种账号注册页面的示意图。为了便于说明，本实施例中的所述引导信息将以文字形式向申请人110展示。

在开启语音注册支付宝TM账号后，支付宝TM服务器200首先输出语句0。语句0可以是预先设定的开场白，例如，“欢迎来到支付宝，我是您的专属客服，小A”。语句0也可以是关于支付宝TM的功能介绍。有时，关于支付宝TM的功能介绍也可以在账号注册完成后介绍。语句0还可以是询问申请人110是否愿意开启某些功能的提问，例如，“请问您是否愿意开启视频采集功能？”、“请问您是否愿意开启定位功能”，等等。接着，申请人110针对语句0进行语音应答1，例如，“我愿意”。支付宝TM服务器200从语音应答1中提取出相应的文本信息，并显示在申请人110的手机设备300-1上，如图4所示。针对申请人的语音应答1，支付宝TM服务器200从所述会话库中挑选出下一个语句2发送给手机设备300-1。例如，语句2可以是“请问我该怎么称呼您呢，小，小哥哥，女士，先生？”语句2也可以是“您方便告诉我您的年龄吗？”，等等。针对语句2，申请人110回答语句3“XXX”。支付宝TM服务器200从语音应答3中提取出相应的文本信息，并显示在申请人110的手机设备300-1上。接着，针对申请人的语音应答3，支付宝TM服务器200从所述会话库中挑选出下一个语句4发送给手机设备300-1。例如，语句4可以是“您平时喜欢看电影吗？”，等等。图4所示出的只是示例性会话。服务器200与申请人110的会话不限于图4示出的信息和数量，在此不做赘述。图4示出的展示模式也是示例性模式，实际应用中展示模式可以有多种样式，例如服务器200与申请人110的文本信息颜不同，等等，本说明书对此不做限定。

通过这种采集语音信息进行智能会话的方式，可以一定程度上解放申请人110的双手，申请人110可以在轻松愉快的氛围中完成注册，同时对于不常使用智能手机或者对在线注册业务不熟悉的人来说，注册的过程更加简单，避免了输入困难，而且一定程度上降低了申请人110对信息输入的敏感程度。

此外，在执行步骤S500时，如果在一轮会话中，当预设时间内未采集到申请人110的语音应答时，服务器200可以结束所述多轮会话。具体地，当服务器200向申请人110发送语句N后，在预设时间内，客户端300未采集到申请人110的语音应答，所述多轮会话结束。所述预设时间可以是5秒、8秒，甚至可以是更长时间或更短时间，本说明书在此不做限定。在一些实施例中，当将申请人110的语音应答对应的文本信息输入所述会话模型中，输出结果的标签对应的是所述会话库中的结束会话的信息时，服务器200结束所述多轮会话。例如，当申请人110回答“我不想再继续了”，服务器200立即结束多轮会话。

如前所述，所述引导信息可以是所述注册引导信息，可以包括身份引导信息，还可以包括属性特征引导信息，甚至可以包括生物特征引导信息。所述语音应答信息可以包括所述注册信息。所述注册信息可以包括申请人110的身份信息，比如申请人110的姓名、身份证号、社保账号、手机号、邮箱号，等等，还可以包括申请人110的属性特征信息，比如，申请人110的年龄、职业、爱好，等等。所述注册信息还可以包括申请人110的生物特征，比如，申请人110的面部图像、虹膜、巩膜、指纹、掌纹、声纹、骨骼投影等等。

另外，当所述引导信息是所述身份引导信息时，服务器200接收到的所述语音应答信息可以包括身份语音应答。此时，步骤S500还可以进一步包括：服务器200获取申请人110响应于所述身份引导信息的所述身份语音应答；获取所述身份语音应答中的身份特征；将所述身份特征发送给第三方系统进行认证；以及接收认证结果，当所述认证结果通过时，所述身份信息与所述目标账号关联。

比如，所述身份引导信息可以是引导申请人110语音输入身份信息。所述身份信息可以是申请人110的姓名、身份证号、社保账号、手机号、邮箱号，等等。当所述身份引导信息是引导申请人110语音输入手机号时，服务器200获取申请人110的身份语音应答，并从所述身份语音应答中识别出所述申请人110的手机号；服务器200将所述手机号发送给第三方系统进行认证，所述第三方系统是所述手机号所属的运营商系统，服务器200可以向所述运营商系统发送所述手机号，并指示所述运营商系统发送认证信息至所述手机号；然后，服务器200可以向客户端300发送认证引导信息，引导申请人读出所述认证信息中的验证码；服务器200获取申请人110的语音验证信息，并识别出对应的验证文本，将所述验证文本与所述验证信息进行匹配；当所述验证文本与所述验证信息匹配时，认证结果为通过，所述手机号与所述目标账号关联。申请人110后期可以使用所述手机号登录所述目标账号。邮箱号的验证过程与手机号的验证过程类似，在此不再赘述。当申请人110输入的手机号已经被服务器200注册时，服务器200可以引导申请人110将身份证号与所述目标账号关联。

当所述身份引导信息是引导申请人110语音输入身份证号时，服务器200获取申请人110的身份语音应答，并从所述身份语音应答中识别出所述申请人110的身份证号；服务器200将所述身份证号发送给第三方系统进行认证，所述第三方系统可以是公安系统，服务器200可以向所述公安系统发送所述身份证号，并采集申请人110的面部图像发送给所述公安系统，所述公安系统对申请人110的所述面部图像和所述身份证号进行认证；然后，服务器200可以接收所述公安系统发送的认证结果；当所述面部图像和所述身份证号匹配时，认证结果为通过，所述身份证号与所述目标账号关联。申请人110后期可以使用所述身份证号登录所述目标账号。社保账号的验证过程与身份证号的验证过程类似，在此不再赘述。

S700：获取申请人110的活体识别信息，将所述活体识别信息输入活体识别模型，判断110申请人为活体。

在账号注册时，为防止垃圾账号注册或批量注册，常常需要对申请人110进行活体识别，以判断申请人110为活体。当申请人110为活体时，基于所述语音应答信息生成所述目标账号；当申请人110不是活体时，终止所述目标账号的注册。

所述活体识别信息可以包括所述语音应答信息，所述活体识别模型可以包括语义识别模型。如前所述，所述引导信息和所述语音应答信息在语义上形成多轮会话。所述语义识别模型是基于历史会话信息训练得到的。因此，步骤S700中，服务器200可以将所述引导信息和所述语音应答信息输入所述语义识别模型，对所述引导信息和所述语音应答信息进行匹配；当所述引导信息和所述语音应答信息匹配时，判断申请人110为活体。

具体地，服务器200将所述引导信息和所述语音应答信息形成的多轮会话输入所述语义识别模型中识别语义，并将所述引导信息的语义和所述语音应答信息的语义进行匹配，可以得到所述引导信息和所述语音应答信息的匹配概率。当所述匹配概率超过匹配概率阈值时，证明所述引导信息和所述语音应答信息的语义相匹配，从而服务器200判断申请人110为活体；当所述匹配概率未超过匹配概率阈值时，证明所述引导信息和所述语音应答信息的语义不匹配，从而服务器判断申请人110不是活体。

在一些实施例中，所述活体识别信息还可以是活体验证应答语音。举例来说，服务器200向申请人110发送活体验证引导信息，并获取申请人110的活体验证应答语音。所述活体验证引导信息可以是随机的问题，例如，“爸爸的爸爸叫什么？”，“请读出以下文字”，其中所述文字是随机的，还可以是简单的数学计算，“2+3＝？”，等等。所述活体验证应答语音是响应于所述活体验证引导信息的语音应答。所述活体识别模型是语义识别模型。将所述活体验证应答语音对应的应答文本输入所述语义识别模型中，判断所述活体验证应答语音与所述活体验证引导信息是否匹配；当所述活体验证应答语音与所述活体验证引导信息匹配时，判断申请人110为活体，当所述活体验证应答语音与所述活体验证引导信息不匹配时，判断申请人110不是活体。

此外，所述活体识别信息还可以是申请人110的面部图像。相应地，所述活体识别模型可以为人脸活体识别模型，其中，申请人110的面部图像与所述目标账号关联。

如前所述，服务器200在开启语音注册所述目标账号时可以请求申请人110同意图像采集。当申请人110同意进行图像采集时，服务器200可以对申请人110进行视频图像采集。服务器200可以通过采集到的面部图像对申请人110进行活体判断。所述面部图像可以是申请人110的静态人脸图像，也可以是申请人110的视频图像。所述人脸活体识别模型是基于拍摄的图像和活体图像通过训练得到的。当所述面部图像为静态人脸图像时，活体识别过程中，申请人110无需和客户端300进行交互，也称为静默式活体验证。所述静默式活体验证通过检测屏幕边框、照片反射、屏幕摩尔纹等等进行活体判断。当所述面部图像为视频图像时，所述人脸活体识别模型通过检测申请人110在注册过程中唇部动态、皮肤纹理、眼睛反光等等对申请人110进行活体判断。

在一些实施例中，所述活体识别信息还可以是申请人110与客户端300的交互式视频图像。具体地，所述活体识别信息可以包括服务器200向客户端300发送的视频动作引导信息和申请人110按照所述视频动作引导信息做出规定动作的视频。这种活体识别方式被称为交互式活体识别。申请人110执行服务器200指定的脸部动作，例如眨眼、张嘴、摇头、抬头等，通过次序和次数增加随机性，服务器200采集申请人110的动作视频，并输入所述人脸活体识别模型进行活体判断。

在一些实施例中，服务器200可以通过图像采集，生成申请人110的面部图像，并与所述目标账号关联。申请人110的所述面部图像可以作为所述目标账号的登录信息。

S900：基于所述语音应答信息，生成所述目标账号。

当申请人110被判断为活体时，服务器200可以基于所述语音应答信息生成所述目标账号。具体地，所述语音应答信息可以包括申请人110的注册信息，比如，申请人110的身份信息、属性特征数据和生物特征数据。所述注册信息与所述目标账号关联。所述关联可以是所述注册信息与所述目标账号绑定。服务器200可以根据所述目标账号调取申请人110的身份信息、属性特征数据和生物特征数据。服务器200可以从这些信息和数据中抽取特征，作为注册信息中的一部分与所述目标账号关联。比如，服务器200可以将所述语音应答信息输入声纹特征提取模型中，生成申请人110的声纹特征数据，其中所述声纹特征提取模型是基于大量的语音数据和声纹特征通过训练得到的。然后服务器200可以将所述声纹特征数据作为注册信息中的一部分与所述目标账号关联。所述声纹特征可以作为申请人110登录所述目标账号的登录信息。在申请人110后期使用所述目标APP的过程中，服务器200可以依据所述注册信息向申请人110推送一些可能感兴趣的信息和话题，提升用户粘合度。

综上所述，本说明书提供的基于语音交互的账号注册的方法P100和系统100，可以通过多轮会话的方式引导申请人110通过语音输入注册信息进行所述目标账号注册，使注册过程无屏化，解决了上述注册账号中遇到的输入不便的技术问题。在所述目标账号注册过程中，服务器200可以基于申请人110的面部图像或语音应答信息对申请人110进行活体判断，并将申请人110的面部图像、声纹特征以及语音应答信息与所述目标账号关联。所述方法P100和系统100不但可以增加账号注册过程的趣味性，简化账号注册流程，增加申请人110对所述目标APP的好感度，提升申请人110注册时的用户体验，而且在注册后对用户的确认手段除了常规的文字手段验证外又增加了图像和声纹等维度的验证手段。这使得账号的注册和认证更加可靠。

上述对本说明书特定实施例进行了描述。其他实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者是可能有利的。

综上所述，在阅读本详细公开内容之后，本领域技术人员可以明白，前述详细公开内容可以仅以示例的方式呈现，并且可以不是限制性的。尽管这里没有明确说明，本领域技术人员可以理解本说明书需求囊括对实施例的各种合理改变，改进和修改。这些改变，改进和修改旨在由本说明书提出，并且在本说明书的示例性实施例的精神和范围内。

此外，本说明书中的某些术语已被用于描述本说明书的实施例。例如，“一个实施例”，“实施例”或“一些实施例”意味着结合该实施例描述的特定特征，结构或特性可以包括在本说明书的至少一个实施例中。因此，可以强调并且应当理解，在本说明书的各个部分中对“实施例”或“一个实施例”或“替代实施例”的两个或更多个引用不一定都指代相同的实施例。此外，特定特征，结构或特性可以在本说明书的一个或多个实施例中适当地组合。

应当理解，在本说明书的实施例的前述描述中，为了帮助理解一个特征，出于简化本说明书的目的，本说明书将各种特征组合在单个实施例、附图或其描述中。然而，这并不是说这些特征的组合是必须的，本领域技术人员在阅读本说明书的时候完全有可能将其中一部分特征提取出来作为单独的实施例来理解。也就是说，本说明书中的实施例也可以理解为多个次级实施例的整合。而每个次级实施例的内容在于少于单个前述公开实施例的所有特征的时候也是成立的。

本文引用的每个专利，专利申请，专利申请的出版物和其他材料，例如文章，书籍，说明书，出版物，文件，物品等，可以通过引用结合于此。用于所有目的的全部内容，除了与其相关的任何起诉文件历史，可能与本文件不一致或相冲突的任何相同的，或者任何可能对权利要求的最宽范围具有限制性影响的任何相同的起诉文件历史。现在或以后与本文件相关联。举例来说，如果在与任何所包含的材料相关联的术语的描述、定义或使用与本文档相关的术语、描述、定义或之间存在任何不一致或冲突时，使用本文件中的术语为准。

最后，应理解，本文公开的申请的实施方案是对本说明书的实施方案的原理的说明。其他修改后的实施例也在本说明书的范围内。因此，本说明书披露的实施例仅仅作为示例而非限制。本领域技术人员可以根据本说明书中的实施例采取替代配置来实现本说明书中的申请。因此，本说明书的实施例不限于申请中被精确地描述过的实施例。

本文发布于:2023-04-13 17:53:09，感谢您对本站的认可！

本文链接：https://patent.en369.cn/patent/3/86140.html

上一篇：IP地址申请方法和装置

下一篇：电网调度防误操作票系统

标签：基于语音交互的账号注册的方法和系统

留言与评论（共有 0 条评论）