用户跟踪方法、装置、计算机设备及其存储介质与流程

阅读：评论：0

1.本技术涉及云计算技术领域，特别是涉及一种用户跟踪方法、装置、计算机设备及其存储介质。

背景技术：

2.随着人工智能技术的不断发展，智能机器人在人们的生活和工作中都带来了极大的便利，为进一步提升智能机器人带给用户的用户体验，智能机器人与用户的交互能力成为了人们愈加关注的重要能力。
3.现有技术中，通过判断声源中是否存在唤醒智能机器人的唤醒词，进而确定需要处理的声源；通过对声源进行定位处理，确定声源位置，从而实现目标用户的确定。
4.但是，现有技术无法在有多个用户且多个用户同时说话的情况下，确定目标用户。

技术实现要素：

5.基于此，有必要针对上述技术问题，提供一种用户跟踪方法、装置、计算机设备及其存储介质。
6.第一方面，本技术提供了一种用户跟踪方法。所述方法包括：
7.对待处理语音进行分离，从分离出的多个语音中确定目标语音；
8.基于所述目标语音，确定所述目标语音对应的声源位置；
9.获取所述声源位置的视频信息；
10.对所述视频信息进行用户识别，从识别得到的候选用户中确定所述目标语音对应的目标用户。
11.在其中一个实施例中，所述对所述视频信息进行用户识别，从识别得到的候选用户中确定所述目标语音对应的目标用户，包括：
12.对所述视频信息进行用户识别，确定所述声源位置的候选用户数量；
13.根据所述候选用户数量，从识别得到的候选用户中确定所述目标语音对应的目标用户。
14.在其中一个实施例中，所述根据所述候选用户数量，从识别得到的候选用户中确定所述目标语音对应的目标用户，包括：
15.若所述候选用户数量为1，确定所述候选用户为所述目标用户；
16.若所述候选用户数量不为1，基于所述声源位置获取的新的待处理语音，根据所述新的待处理语音和所述目标语音，从识别得到的候选用户中确定所述目标语音对应的目标用户。
17.在其中一个实施例中，所述根据所述新的待处理语音和所述目标语音，从识别得到的候选用户中确定所述目标语音对应的目标用户，包括：
18.对所述新的待处理语音进行分离处理，确定多个第一候选语音；
19.基于所述目标语音的声纹信息，从多个所述第一候选语音中确定与所述目标语音
匹配的新的目标语音；
20.基于所述新的目标语音，采用视频声源定位算法从多个所述候选用户中确定所述目标用户。
21.在其中一个实施例中，所述对待处理语音进行分离，从分离出的多个语音中确定目标语音，包括：
22.对所述待处理语音进行分离处理，确定所述待处理语音中的多个第二候选语音；
23.对多个所述第二候选语音进行文字识别处理，确定多个候选文本；
24.基于预先设定的唤醒词，确定多个候选文本中存在所述唤醒词的目标候选文本，所述目标候选文本对应的第二候选语音即为所述目标语音。
25.在其中一个实施例中，所述方法还包括：
26.基于预先设定的识别部位，对所述目标用户的识别部位进行特征识别，确定所述目标用户的目标特征；
27.在所述视频信息中，对所述目标用户的所述目标特征进行标记处理。
28.第二方面，本技术还提供了一种用户跟踪装置。所述装置包括：
29.分离模块，用于对待处理语音进行分离，从分离出的多个语音中确定目标语音；
30.确定模块，用于基于所述目标语音，确定所述目标语音对应的声源位置；
31.获取模块，用于获取所述声源位置的视频信息；
32.第一识别模块，用于对所述视频信息进行用户识别，从识别得到的候选用户中确定所述目标语音对应的目标用户。
33.第三方面，本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面任一实施例所述的用户跟踪方法。
34.第四方面，本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面任一实施例所述的用户跟踪方法。
35.第五方面，本技术还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如上述第一方面任一实施例所述的用户跟踪方法。
36.根据本技术的技术方案，通过确定目标语音，为后续定位声源位置和确定目标用户提供了数据基础，保证了后续确定目标用户流程的顺利进行，实现了在多人同时说话的情况下进行目标用户的确定；通过确定声源位置，实现了对于目标用户的初次定位，为后续根据视频信息确定目标用户提供了基础，保证了目标用户定位的准确性；通过视频信息确定目标用户，实现了多人物、多人同时说话的情况下对目标用户进行确定，提高了目标用户确定的准确性。
附图说明
37.图1为一个实施例中用户跟踪方法的应用环境图；
38.图2为本技术实施例提供的一种用户跟踪方法的流程图；
39.图3为本技术实施例提供的一种语音分离示意图；
40.图4为本技术实施例提供的一种多麦克风矩阵示意图；
41.图5为本技术实施例提供的另一种用户跟踪方法的流程图；
42.图6为本技术实施例提供的另一种用户跟踪方法的流程图；
43.图7为本技术实施例提供的另一种用户跟踪方法的流程图；
44.图8为本技术实施例提供的另一种用户跟踪方法的流程图；
45.图9为本技术实施例提供的一种用户跟踪装置的结构框图；
46.图10为本技术实施例提供的另一种用户跟踪装置的结构框图；
47.图11为本技术实施例提供的另一种用户跟踪装置的结构框图；
48.图12为本技术实施例提供的另一种用户跟踪装置的结构框图；
49.图13为一个实施例中计算机设备的内部结构图。
具体实施方式
50.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
51.应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。在本技术的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
52.现如今很多行业中都应用了服务型智能机器人，目前服务型智能机器人已经可以完成服务引导、服务咨询等相关工作中，给人们的生活和工作中都带来了极大的便利，并且，随着人工智能技术的进一步发展，未来会有更多的场所开始应用智能机器人，智能机器人将会进一步普及。
53.智能服务机器人跟目标用户交流的过程中如果能够实时锁定目标用户不仅可以方便的给目标用户呈现相关资料，同时也可以让目标用户感受到亲近感，从而更好的服务目标用户，与此同时也更智能化。
54.现有技术中，主要通过以下两种方式实现目标用户的锁定：
55.(1)首先判断是否存在需要处理的声源，如果判断存在需要处理的声源，则根据预设条件判断该声源是否为目标声源；若该声源为目标声源，则对目标声源进行声源定位，并基于人脸识别实现目标用户的锁定。其中，预设条件可以为预先设定的唤醒词，若声源中存在唤醒词，则该声源为目标声源。
56.(2)首先获取需要处理的声源，对声源就行唤醒词识别，确定包含唤醒词的目标声源；基于目标声源进行初步定位，确定初始位置；启动雷达传感器，确定周围空间的点云信息，基于点云信息对初始位置进行修订处理，确定声源定位，进而实现目标用户的锁定。
57.但是上述两种实现目标用户跟踪处理的方法，没有办法在有多个用户且多个用户同时说话的情况下，确定目标用户。
58.本技术实施例提供的用户跟踪方法，可以应用于如图1所示的应用环境中。在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图1所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储用户跟踪的获取数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种用户跟踪方法。
59.本技术公开了一种用户跟踪方法、装置、计算机设备及其存储介质。工作人员的计算机设备通过对待处理语音进行分离，确定目标语音；并基于目标语音确定声源位置，根据声源位置的视频信息进行用户识别，确定目标语音对应的目标用户。
60.图2为本技术实施例提供的一种用户跟踪方法的流程图，如图2所示，该用户跟踪方法可以包括以下步骤：
61.步骤201，对待处理语音进行分离，从分离出的多个语音中确定目标语音。
62.其中，待处理语音指的是通过声音收集设备收集到的包含有n个语音的语音集合，其中，n为大于或者等于1的正整数。声音收集设备可以包括但不限于：麦克风设备和语音采集设备等。
63.需要说明的是，当需要对待处理语音进行分离处理时，可根据语音分离器对待处理语音进行分离处理；具体的，将待处理语音输入至语音分离器的接收端，从而控制语音分离器对待处理语音进行分离处理，得到分离出的语音。
64.在本技术的一种实施例中，如图3所示，假设待处理语音为三个单独语音混合而成的语音，当需要对待处理语音进行分离处理时，将待处理语音输入至语音分离器进行分离处理，得到分离后的三个单独语音。
65.在本技术的一种实施例中，可通过预先设定的唤醒词，从多个语音中确定目标语音；具体的，确定预先设定的唤醒词为“abc”，可以理解为，当语音中识别到唤醒词“abc”时，则该语音即为目标语音。当对待处理语音进行分离出后得到多个单独语音时，对每个单独语音进行文本翻译，确定每个单独语音的文本信息，对每个单独语音的文本信息进行文本识别，判断文本信息中是否存在唤醒词“abc”，若某一单独语音的文本信息中包含唤醒词“abc”，则该单独语音即为目标语音；若某一单独语音的文本信息中不包含唤醒词“abc”，则该单独语音不是目标语音。
66.在本技术的一种实施例中，可根据目标用户的目标声纹，从多个语音中确定目标语音；具体的，预先确定目标用户的目标声纹，对待处理语音进行分离出后得到多个单独语音，将多个单独语音的声纹与目标声纹进行对比；若单独语音的声纹与目标声纹相同，则该单独语音即为目标语音；若单独语音的声纹与目标声纹不相同，则该单独语音不是目标语音。
67.步骤202，基于目标语音，确定目标语音对应的声源位置。
68.在本技术的一个实施例中，可通过设置多麦克风矩阵实现对于目标语音对应的声源位置的确定；具体的，如图4所示，通过设置多麦克风矩阵，确定目标语音到每个麦克风的时间和目标语音达到不同麦克风的时间差，进而计算得出目标语音对应的声源位置。
69.其中，计算标语音对应的声源位置的公式可根据多麦克风矩阵中每个麦克风实际的摆放位置和麦克风之间的相对关系进行确定。
70.进一步说明，多麦克风矩阵中的麦克风可用声音传感器来代替；具体的，通过确定目标语音到达每个声音传感器的时间和目标语音达到不同声音传感器的时间差，进而计算得出目标语音对应的声源位置。
71.步骤203，获取声源位置的视频信息。
72.需要说明的是，获取声源位置视频信息都是方法有很多，具体的，可将获取声源位置视频信息的方法分为以下两种，一种为存在可以控制拍摄角度的拍摄装置，另一种为不存在可以控制拍摄角度的拍摄装置；下面将对两种方法进行详细说明：
73.在本技术的一种实施例中，若存在可以控制拍摄角度的拍摄装置，当需要获取声源位置的视频信息时，确定目标语音的声源位置后，调整已有摄像装置的拍摄角度，实现对声源位置进行拍摄，进而获取声源位置的视频信息。
74.在本技术的一种实施例中，若不存在可以控制拍摄角度的拍摄装置，当需要获取声源位置的视频信息时，确定目标语音的声源位置后，获取周围环境固定摄像头的候选视频信息，基于声源位置，定位包含声源位置的候选视频信息，该候选视频信息即为声源位置的视频信息。
75.步骤204，对视频信息进行用户识别，从识别得到的候选用户中确定目标语音对应的目标用户。
76.在本技术的一种实施例汇总，通过对视频信息进行用户识别，确定候选用户的数量，若候选用户的数量为1，则可以确定该候选用户即为目标语音对应的目标用户；若候选用户的数量大于1，则对多个候选用户进行二次确认，进而确定候选用户中的目标用户；若候选用户的数量为0，则表示视频信息中不包含候选用户，则重新执行“对待处理语音进行分离，从分离出的多个语音中确定目标语音”的步骤，重新对视频信息进行获取。
77.需要说明的，若候选用户的数量大于1，则从多个候选用户中确定目标用户时，可获取多个候选用户发出的新的待检测语音，通过对新的待检测语音进行分离处理，确定分离出的多个新语音，对多个新语音和目标语音进行对比，进而确定出与目标语音的声纹相同的新语音，进而可根据与目标语音的声纹相同的新语音，确定目标语音对应的目标用户。
78.根据本技术的用户跟踪方法，通过确定目标语音，为后续定位声源位置和确定目标用户提供了数据基础，保证了后续确定目标用户流程的顺利进行，实现了在多人同时说话的情况下进行目标用户的确定；通过确定声源位置，实现了对于目标用户的初次定位，为后续根据视频信息确定目标用户提供了基础，保证了目标用户定位的准确性；通过视频信息确定目标用户，实现了多人物、多人同时说话的情况下对目标用户进行确定，提高了目标用户确定的准确性。
79.需要说明的是，可根据候选用户的数量，确定目标语音对应的目标用户；可选地，如图5所示，图5为本技术实施例提供的另一种用户跟踪方法的流程图。具体的，确定目标语音对应的目标用户可以包括以下步骤：
80.步骤501，对视频信息进行用户识别，确定声源位置的候选用户数量。
81.需要说明的是，通过对视频信息进行用户识别，实现了对于视频信息中候选用户数量的确定；具体的，可通过对视频信息进行人脸识别，判断在视频信息中出现过的人脸数
量。
82.在本技术的一种实施例中，当需要确定声源位置的候选用户数量时，可对视频信息进行人脸特征识别，确定在检测到目标语音之后的预设时间段内，出现的人脸特征数量，其中，每一个人脸特征均表示一个候选用户，进而确定出在检测到目标语音之后的预设时间段内声源位置的候选用户数量。
83.其中，预设时间段的时长设定可根据实际情况进行判断，再次不做限定。
84.步骤502，根据候选用户数量，从识别得到的候选用户中确定目标语音对应的目标用户。
85.在本技术的一种实施例中，若候选用户数量为1，确定候选用户为目标用户；若候选用户数量不为1，基于声源位置获取的新的待处理语音，根据新的待处理语音和目标语音，从识别得到的候选用户中确定目标语音对应的目标用户。
86.需要说明的是，当候选用户数量不为1时可存在两种情况，一种为候选用户的数量大于1，则需要根据新的待处理语音和目标语音，从多个候选用户中确定目标语音对应的目标用户；另一种为候选用户的数量为0，则可表示视频信息中不存在候选数量，需要根据新的待处理语音重新定位声源位置，进而获取新的视频信息，根据新的视频信息，再次确定候选用户数量。
87.在本技术的一种实施例中，当候选用户的数量大于1时，确定目标用户的方法可以包括以下步骤：对新的待处理语音进行分离处理，确定多个第一候选语音；基于目标语音的声纹信息，从多个第一候选语音中确定与目标语音匹配的新的目标语音；基于新的目标语音，采用视频声源定位算法从多个候选用户中确定目标用户。
88.需要说明的是，可根据预先设定的诱导方法，诱导声源位置的目标用户发声，进而实现对于新的待处理语音的获取。若获取到声源位置的新的待处理语音，则基于新的待处理语音和目标语音，确定目标语音对应的目标用户；若未获取到声源位置的新的待处理语音，则停止对目标用户的确定。
89.需要说明的是，预先设定的诱导方法可以包括但不限于：通过对话的方式诱导用户发声和通过视觉提醒的方式诱导用户发声等。具体的，当需要通过对话的方式诱导用户发声时，通过播放预先设定的诱导对话内容，来实现对目标用户的诱导发声；当需要通过视觉提醒的方式诱导用户发声时，将预先设定的诱导对话内容在显示屏幕上进行显示，从而达到诱导目标用户进行发声的目的。其中，预先设定的诱导对话内容可以为：
‘
请再说一遍’和
‘
刚才没听清，再说一遍吧’等。
90.根据本技术的用户跟踪方法，通过确定候选用户的数量，实现了根据不通过的情况制定不同的目标用户确定方法，保证了本技术能够在多种情况下完成对目标用户的确定，实现了在多人同时说话的情况下进行目标用户的确定；通过获取新的待处理语音，实现对声源位置的候选用户进行进一步筛选，保证了目标用户确定的准确性，保证了在多人同时说话的情况下能够确定目标用户；并且，通过声纹信息，实现了在多个候选用户中确定目标用户，保证了确定目标用户的流程顺利进行，保证了目标用户确定的准确性。
91.需要说明的是，可通过对待处理语音分离出的语音进行文字识别，确定候选文本，进而根据候选文本确定目标语音；可选地，如图6所示，图6为本技术实施例提供的另一种用户跟踪方法的流程图。具体的，确定目标语音可以包括以下步骤：
92.步骤601，对待处理语音进行分离处理，确定待处理语音中的多个第二候选语音。
93.需要说明的是，当需要对待处理语音进行分离处理时，可将待处理语音输入至语音分离器中，从而确定待处理语音中的多个第二候选语音；其中第二候选语音为独立用户发出的独立语音，且每个第二候选语音均对应有一个唯一的声纹，可根据声纹区分不同的第二候选语音。
94.步骤602，对多个第二候选语音进行文字识别处理，确定多个候选文本。
95.需要说明的是，当需要确定目标语音时，可通过识别第二候选语音中是否存在预先设定的唤醒词从而确定目标语音，为判断第二候选语音中是否存在唤醒词，需要对第二候选语音进行文字识别，从而确定候选文本。
96.步骤603，基于预先设定的唤醒词，确定多个候选文本中存在唤醒词的目标候选文本，目标候选文本对应的第二候选语音即为目标语音。
97.其中，候选词可根据实际情况和用户使用习惯进行自主设置，再次不对候选词的内容进行限定。
98.需要说明的是，由于目标语音为目标用户发出的包含唤醒词的语音，为确定目标语音，则可根据语音中是否含有唤醒词进行判断，具体的，判断多个候选文本中是否存在唤醒词，若某一个候选文本存在唤醒词，则该候选文本即为目标候选文本，该目标候选文本对应的第二候选语音即为目标语音；若某一个候选文本不存在唤醒词，则该候选文本不是目标候选文本，并且，该目标候选文本对应的第二候选语音不是目标语音。其中，目标语音可以为一个也可以为多个。
99.需要说明的是，当需要确定目标语音时，可对第二候选语音进行音频识别，判断第二候选语音中是否存在唤醒词的音频，进而判断该第二候选语音是否为目标语音；具体的，确定唤醒词的音频数据，基于音频数据对第二候选语音进行音频识别处理，判断第二候选语音中是否存在唤醒词的音频数据，若第二候选语音中存在唤醒词，该第二候选语音即为目标语音；若第二候选语音中不存在唤醒词，该第二候选语音不是目标语音。
100.根据本技术的用户跟踪方法，通过对第二候选语音进行文本识别处理，保证了后续能够判断第二候选语音中，是否存在唤醒词，进而实现对于目标语音的判断，实现了在多人同时说话的情况下能够确定目标用户，保证了对于目标语音的精准定位，为后续确定目标用户提供了数据基础。
101.需要说明的是，可通过对目标用户进行特征识别，进而对目标用户的目标特征进行标记处理；可选地，如图7所示，图7为本技术实施例提供的另一种用户跟踪方法的流程图。具体的，对目标用户的目标特征进行标记处理可以包括以下步骤：
102.步骤701，基于预先设定的识别部位，对目标用户的识别部位进行特征识别，确定目标用户的目标特征。
103.其中，预先设定的识别部位可以包括但不限于：脸部、手部、嘴部和眼部等等。
104.需要说明的是，当需要对目标用户进行特征识别时，可将包含目标用户的视频信息转化为若干帧图像，基于预先设定的识别部位，对每个帧图像进行图像识别处理，确定出每个帧图像中目标用户的目标特征。
105.步骤702，在视频信息中，对目标用户的目标特征进行标记处理。
106.需要说明的是，需要对目标用户的目标特征进行标记处理时，获取包含目标用户
的视频信息，并将视频信息转换为若干帧图像，对每个帧图像进行图像识别处理，确定出每个帧图像中目标用户的目标特征，并且，对每个帧图像中的目标特征进行标记处理。
107.其中标记处理可以包括但不限于：用红圆圈圈定，将目标特征周围区域填充为黄等。
108.根据本技术的用户跟踪方法，通过对目标用户进行特征识别，保证了后续能够顺利对目标用户的目标特征进行标记处理，为后续流程的顺利进行提供基础，通过对目标特征标记处理，实现了对目标用户的目标特征进行突出显示，便于对目标用户的目标特征进行观察处理。
109.在本技术的一种实施例中，如图8所示，图8为本技术实施例提供的另一种用户跟踪方法的流程图，当需要对用户进行跟踪时：
110.步骤801，获取待处理语音，确定待处理语音中的目标语音。
111.步骤802，确定目标语音对应的声纹信息。
112.步骤803，基于目标语音，确定目标语音对应的声源位置。
113.步骤804，获取声源位置的视频信息。
114.步骤805，确定声源位置的候选用户数量，若候选用户数量大于1，则执行步骤806；若候选用户数量等于1，则执行步骤808。
115.步骤806，基于声源位置获取的新的待处理语音，对新的待处理语音进行分离处理，确定多个第一候选语音；若声源位置没有新的待处理语音，则停止用户跟踪。
116.步骤807，基于目标语音的声纹信息，从多个第一候选语音中确定与目标语音匹配的新的目标语音；若第一候选语音中不存在与目标语音匹配的新的目标语音，则停止用户跟踪。
117.步骤808，基于目标语音，确定目标用户。
118.根据本技术的用户跟踪方法，通过确定目标语音，为后续定位声源位置和确定目标用户提供了数据基础，保证了后续确定目标用户流程的顺利进行，实现了在多人同时说话的情况下进行目标用户的确定；通过确定声源位置，实现了对于目标用户的初次定位，为后续根据视频信息确定目标用户提供了基础，保证了目标用户定位的准确性；通过视频信息确定目标用户，实现了多人物、多人同时说话的情况下对目标用户进行确定，提高了目标用户确定的准确性。
119.应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
120.基于同样的发明构思，本技术实施例还提供了一种用于实现上述所涉及的用户跟踪方法的用户跟踪装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个用户跟踪装置实施例中的具体限定可以参见上文中对于用户跟踪方法的限定，在此不再赘述。
121.在一个实施例中，如图9所示，图9为本技术实施例提供的一种用户跟踪装置的结构框图，提供了一种用户跟踪装置，包括：分离模块910、确定模块920和获取模块930，其中：
122.分离模块910，用于对待处理语音进行分离，从分离出的多个语音中确定目标语音。
123.确定模块920，用于基于目标语音，确定目标语音对应的声源位置。
124.获取模块930，用于获取声源位置的视频信息。
125.第一识别模块940，用于对视频信息进行用户识别，从识别得到的候选用户中确定目标语音对应的目标用户。
126.根据本技术的用户跟踪装置，通过确定目标语音，为后续定位声源位置和确定目标用户提供了数据基础，保证了后续确定目标用户流程的顺利进行，实现了在多人同时说话的情况下进行目标用户的确定；通过确定声源位置，实现了对于目标用户的初次定位，为后续根据视频信息确定目标用户提供了基础，保证了目标用户定位的准确性；通过视频信息确定目标用户，实现了多人物、多人同时说话的情况下对目标用户进行确定，提高了目标用户确定的准确性。
127.在一个实施例中，如图10所示，图10为本技术实施例提供的另一种用户跟踪装置的结构框图，提供了一种用户跟踪装置，该用户跟踪装置中，第一识别模块1040包括：第一确定单元1041和第二确定单元1042。
128.第一确定单元1041，用于对视频信息进行用户识别，确定声源位置的候选用户数量。
129.第二确定单元1042，用于根据候选用户数量，从识别得到的候选用户中确定目标语音对应的目标用户。
130.需要说明的是，若候选用户数量为1，确定候选用户为目标用户；若候选用户数量不为1，基于声源位置获取的新的待处理语音，根据新的待处理语音和目标语音，从识别得到的候选用户中确定目标语音对应的目标用户。
131.在本技术的一种实施例中，当需要从候选用户中确定目标语音对应的目标用户时，对新的待处理语音进行分离处理，确定多个第一候选语音；基于目标语音的声纹信息，从多个第一候选语音中确定与目标语音匹配的新的目标语音；基于新的目标语音，采用视频声源定位算法从多个候选用户中确定目标用户。
132.其中，图10中1010-1030和图9中910-930具有相同功能和结构。
133.根据本技术的用户跟踪装置，通过确定候选用户的数量，实现了根据不通过的情况制定不同的目标用户确定方法，保证了本技术能够在多种情况下完成对目标用户的确定，实现了在多人同时说话的情况下进行目标用户的确定；通过获取新的待处理语音，实现对声源位置的候选用户进行进一步筛选，保证了目标用户确定的准确性，保证了在多人同时说话的情况下能够确定目标用户；并且，通过声纹信息，实现了在多个候选用户中确定目标用户，保证了确定目标用户的流程顺利进行，保证了目标用户确定的准确性。
134.在一个实施例中，如图11所示，图11为本技术实施例提供的另一种用户跟踪装置的结构框图，提供了一种用户跟踪装置，该用户跟踪装置中，分离模块1110包括：第三确定单元1111、第四确定单元1112和第五确定单元1113。
135.第三确定单元1111，用于对待处理语音进行分离处理，确定待处理语音中的多个
第二候选语音。
136.第四确定单元1112，用于对多个第二候选语音进行文字识别处理，确定多个候选文本。
137.第五确定单元1113，用于基于预先设定的唤醒词，确定多个候选文本中存在唤醒词的目标候选文本，目标候选文本对应的第二候选语音即为目标语音。
138.其中，图11中1120-1140和图10中1020-1040具有相同功能和结构。
139.根据本技术的用户跟踪装置，通过对第二候选语音进行文本识别处理，保证了后续能够判断第二候选语音中，是否存在唤醒词，进而实现对于目标语音的判断，实现了在多人同时说话的情况下能够确定目标用户，保证了对于目标语音的精准定位，为后续确定目标用户提供了数据基础。
140.在一个实施例中，如图12所示，图12为本技术实施例提供的另一种用户跟踪装置的结构框图，提供了一种用户跟踪装置，该用户跟踪装置中还包括：第二识别模块1250和标记模块1260。
141.第二识别模块1250，用于基于预先设定的识别部位，对目标用户的识别部位进行特征识别，确定目标用户的目标特征。
142.标记模块1260，用于在视频信息中，对目标用户的目标特征进行标记处理。
143.其中，图12中1210-1240和图11中1110-1140具有相同功能和结构。
144.根据本技术的用户跟踪装置，通过对目标用户进行特征识别，保证了后续能够顺利对目标用户的目标特征进行标记处理，为后续流程的顺利进行提供基础，通过对目标特征标记处理，实现了对目标用户的目标特征进行突出显示，便于对目标用户的目标特征进行观察处理。
145.上述用户跟踪装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
146.在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图13所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过wifi、移动蜂窝网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种用户跟踪方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。
147.本领域技术人员可以理解，图13中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
148.在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：
149.对待处理语音进行分离，从分离出的多个语音中确定目标语音；
150.基于目标语音，确定目标语音对应的声源位置；
151.获取声源位置的视频信息；
152.对视频信息进行用户识别，从识别得到的候选用户中确定目标语音对应的目标用户。
153.在一个实施例中，处理器执行计算机程序时还实现以下步骤：
154.对视频信息进行用户识别，确定声源位置的候选用户数量；
155.根据候选用户数量，从识别得到的候选用户中确定目标语音对应的目标用户。
156.在一个实施例中，处理器执行计算机程序时还实现以下步骤：
157.若候选用户数量为1，确定候选用户为目标用户；
158.若候选用户数量不为1，基于声源位置获取的新的待处理语音，根据新的待处理语音和目标语音，从识别得到的候选用户中确定目标语音对应的目标用户。
159.在一个实施例中，处理器执行计算机程序时还实现以下步骤：
160.对新的待处理语音进行分离处理，确定多个第一候选语音；
161.基于目标语音的声纹信息，从多个第一候选语音中确定与目标语音匹配的新的目标语音；
162.基于新的目标语音，采用视频声源定位算法从多个候选用户中确定目标用户。
163.在一个实施例中，处理器执行计算机程序时还实现以下步骤：
164.对待处理语音进行分离处理，确定待处理语音中的多个第二候选语音；
165.对多个第二候选语音进行文字识别处理，确定多个候选文本；
166.基于预先设定的唤醒词，确定多个候选文本中存在唤醒词的目标候选文本，目标候选文本对应的第二候选语音即为目标语音。
167.在一个实施例中，处理器执行计算机程序时还实现以下步骤：
168.基于预先设定的识别部位，对目标用户的识别部位进行特征识别，确定目标用户的目标特征；
169.在视频信息中，对目标用户的目标特征进行标记处理。
170.在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：
171.对待处理语音进行分离，从分离出的多个语音中确定目标语音；
172.基于目标语音，确定目标语音对应的声源位置；
173.获取声源位置的视频信息；
174.对视频信息进行用户识别，从识别得到的候选用户中确定目标语音对应的目标用户。
175.在一个实施例中，计算机程序被处理器执行时还实现以下步骤：
176.对视频信息进行用户识别，确定声源位置的候选用户数量；
177.根据候选用户数量，从识别得到的候选用户中确定目标语音对应的目标用户。
178.在一个实施例中，计算机程序被处理器执行时还实现以下步骤：
179.若候选用户数量为1，确定候选用户为目标用户；
180.若候选用户数量不为1，基于声源位置获取的新的待处理语音，根据新的待处理语
音和目标语音，从识别得到的候选用户中确定目标语音对应的目标用户。
181.在一个实施例中，计算机程序被处理器执行时还实现以下步骤：
182.对新的待处理语音进行分离处理，确定多个第一候选语音；
183.基于目标语音的声纹信息，从多个第一候选语音中确定与目标语音匹配的新的目标语音；
184.基于新的目标语音，采用视频声源定位算法从多个候选用户中确定目标用户。
185.在一个实施例中，计算机程序被处理器执行时还实现以下步骤：
186.对待处理语音进行分离处理，确定待处理语音中的多个第二候选语音；
187.对多个第二候选语音进行文字识别处理，确定多个候选文本；
188.基于预先设定的唤醒词，确定多个候选文本中存在唤醒词的目标候选文本，目标候选文本对应的第二候选语音即为目标语音。
189.在一个实施例中，计算机程序被处理器执行时还实现以下步骤：
190.基于预先设定的识别部位，对目标用户的识别部位进行特征识别，确定目标用户的目标特征；
191.在视频信息中，对目标用户的目标特征进行标记处理。
192.在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：
193.对待处理语音进行分离，从分离出的多个语音中确定目标语音；
194.基于目标语音，确定目标语音对应的声源位置；
195.获取声源位置的视频信息；
196.对视频信息进行用户识别，从识别得到的候选用户中确定目标语音对应的目标用户。
197.在一个实施例中，计算机程序被处理器执行时还实现以下步骤：
198.对视频信息进行用户识别，确定声源位置的候选用户数量；
199.根据候选用户数量，从识别得到的候选用户中确定目标语音对应的目标用户。
200.在一个实施例中，计算机程序被处理器执行时还实现以下步骤：
201.若候选用户数量为1，确定候选用户为目标用户；
202.若候选用户数量不为1，基于声源位置获取的新的待处理语音，根据新的待处理语音和目标语音，从识别得到的候选用户中确定目标语音对应的目标用户。
203.在一个实施例中，计算机程序被处理器执行时还实现以下步骤：
204.对新的待处理语音进行分离处理，确定多个第一候选语音；
205.基于目标语音的声纹信息，从多个第一候选语音中确定与目标语音匹配的新的目标语音；
206.基于新的目标语音，采用视频声源定位算法从多个候选用户中确定目标用户。
207.在一个实施例中，计算机程序被处理器执行时还实现以下步骤：
208.对待处理语音进行分离处理，确定待处理语音中的多个第二候选语音；
209.对多个第二候选语音进行文字识别处理，确定多个候选文本；
210.基于预先设定的唤醒词，确定多个候选文本中存在唤醒词的目标候选文本，目标候选文本对应的第二候选语音即为目标语音。
211.在一个实施例中，计算机程序被处理器执行时还实现以下步骤：
212.基于预先设定的识别部位，对目标用户的识别部位进行特征识别，确定目标用户的目标特征；
213.在视频信息中，对目标用户的目标特征进行标记处理。
214.需要说明的是，本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。
215.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory，rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory，mram)、铁电存储器(ferroelectric random access memory，fram)、相变存储器(phase change memory，pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory，ram)或外部高速缓冲存储器等。作为说明而非局限，ram可以是多种形式，比如静态随机存取存储器(static random access memory，sram)或动态随机存取存储器(dynamic random access memory，dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。
216.以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
217.以上实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本技术专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术的保护范围应以所附权利要求为准。

技术特征：

1.一种用户跟踪方法，其特征在于，所述方法包括：对待处理语音进行分离，从分离出的多个语音中确定目标语音；基于所述目标语音，确定所述目标语音对应的声源位置；获取所述声源位置的视频信息；对所述视频信息进行用户识别，从识别得到的候选用户中确定所述目标语音对应的目标用户。2.根据权利要求1所述的方法，其特征在于，所述对所述视频信息进行用户识别，从识别得到的候选用户中确定所述目标语音对应的目标用户，包括：对所述视频信息进行用户识别，确定所述声源位置的候选用户数量；根据所述候选用户数量，从识别得到的候选用户中确定所述目标语音对应的目标用户。3.根据权利要求2所述的方法，其特征在于，所述根据所述候选用户数量，从识别得到的候选用户中确定所述目标语音对应的目标用户，包括：若所述候选用户数量为1，确定所述候选用户为所述目标用户；若所述候选用户数量不为1，基于所述声源位置获取的新的待处理语音，根据所述新的待处理语音和所述目标语音，从识别得到的候选用户中确定所述目标语音对应的目标用户。4.根据权利要求3所述的方法，其特征在于，所述根据所述新的待处理语音和所述目标语音，从识别得到的候选用户中确定所述目标语音对应的目标用户，包括：对所述新的待处理语音进行分离处理，确定多个第一候选语音；基于所述目标语音的声纹信息，从多个所述第一候选语音中确定与所述目标语音匹配的新的目标语音；基于所述新的目标语音，采用视频声源定位算法从多个所述候选用户中确定所述目标用户。5.根据权利要求1至4任意一项所述的方法，其特征在于，所述对待处理语音进行分离，从分离出的多个语音中确定目标语音，包括：对所述待处理语音进行分离处理，确定所述待处理语音中的多个第二候选语音；对多个所述第二候选语音进行文字识别处理，确定多个候选文本；基于预先设定的唤醒词，确定多个候选文本中存在所述唤醒词的目标候选文本，所述目标候选文本对应的第二候选语音即为所述目标语音。6.根据权利要求1所述的方法，其特征在于，所述方法还包括：基于预先设定的识别部位，对所述目标用户的识别部位进行特征识别，确定所述目标用户的目标特征；在所述视频信息中，对所述目标用户的所述目标特征进行标记处理。7.一种用户跟踪装置，其特征在于，所述装置包括：分离模块，用于对待处理语音进行分离，从分离出的多个语音中确定目标语音；确定模块，用于基于所述目标语音，确定所述目标语音对应的声源位置；获取模块，用于获取所述声源位置的视频信息；第一识别模块，用于对所述视频信息进行用户识别，从识别得到的候选用户中确定所
述目标语音对应的目标用户。8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

技术总结

本申请涉及云计算技术领域，特别是涉及一种用户跟踪方法、装置、计算机设备及其存储介质。方法包括：对待处理语音进行分离，从分离出的多个语音中确定目标语音；基于目标语音，确定目标语音对应的声源位置；获取声源位置的视频信息；对视频信息进行用户识别，从识别得到的候选用户中确定目标语音对应的目标用户。本申请实现了多人物、多人同时说话的情况下对目标用户进行确定，提高了目标用户确定的准确性。性。性。