数据波动归因分析方法、系统及相关装置与流程

阅读: 评论:0



1.本技术实施例涉及互联网技术领域,尤其涉及数据波动归因分析方法、系统及相关装置。


背景技术:



2.现如今,各行各业常需收集和分析有关的数据信息,以应对生产应用过程中的流程规划或作业状况等。因此,面对不时更新变动的数据信息,难以避免的要切实有效地分析它们的变动缘由。
3.以日均活跃用户数量(dau,daily active user)指标为例,现有场景中,可根据用户注册年龄、用户当前所在省份和终端设备等多个维度数据汇总分析得每天的总dau指标,但若某些用户当天在多个省份或当天使用不同型号的终端设备,即参与统计的用户会归属于某维度的不同维度值(或称为子维度)标签下,如某用户既算是a型手机这一子维度的参与用户,又算是b型手机甚至更多子维度的参与用户,则当天的总dau指标会出现数据重叠,使得其与历史总dau指标易产生数据量和统计结果上的异常波动。
4.然而,现有技术对这种数据重叠的处理不够到位,如直接忽略来源自不同维度值层面的交叉数据,进而模糊或遗漏了引起数据异动的可能缘由,甚至错误地将该缘由归结到无关联的维度上,从而影响后续的数据分析结果和作业进程。


技术实现要素:



5.本技术实施例提供了数据波动归因分析方法、系统及相关装置,用于准确定位出引起数据波动的根因维度。
6.本技术实施例第一方面提供一种数据波动归因分析方法,包括:
7.对于由多维度数据汇总分析得的目标统计数据,获取每一维度的各子维度下参与统计的子维度当前数据,其中,至少部分维度的子维度当前数据归属于同一维度下的不同子维度;
8.获取与所述目标统计数据采集时间不同的历史统计数据;
9.对于所述多维度中的各维度,根据所述目标统计数据和所述历史统计数据,计算所述维度的每一子维度下的子维度当前数据分别对应的数据波动度量值,所述数据波动度量值用于表示所述子维度当前数据在同维度的其他子维度当前数据的参与下相对历史统计数据发生的数据变化;
10.根据算得的各所述数据波动度量值,从所述多维度中确定出使得所述目标统计数据相对于所述历史统计数据发生超阈值波动的根因维度。
11.本技术实施例第二方面提供一种数据波动归因分析系统,包括:获取单元、计算单元和确定单元;
12.对于由多维度数据汇总分析得的目标统计数据,所述获取单元用于,获取每一维度的各子维度下参与统计的子维度当前数据,其中,至少部分维度的子维度当前数据归属
于同一维度下的不同子维度;
13.所述获取单元还用于,获取与所述目标统计数据采集时间不同的历史统计数据;
14.对于所述多维度中的各维度,所述计算单元用于,根据所述目标统计数据和所述历史统计数据,计算所述维度的每一子维度下的子维度当前数据分别对应的数据波动度量值,所述数据波动度量值用于表示所述子维度当前数据在同维度的其他子维度当前数据的参与下相对历史统计数据发生的数据变化;
15.所述确定单元用于,根据算得的各所述数据波动度量值,从所述多维度中确定出使得所述目标统计数据相对于所述历史统计数据发生超阈值波动的根因维度。
16.本技术实施例第三方面提供一种数据波动归因分析装置,包括:
17.中央处理器,存储器以及输入输出接口;
18.所述存储器为短暂存储存储器或持久存储存储器;
19.所述中央处理器配置为与所述存储器通信,并执行所述存储器中的指令操作以执行本技术实施例第一方面或第一方面的任一具体实现方式所描述的方法。
20.本技术实施例第四方面提供一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使得计算机执行如本技术实施例第一方面或第一方面的任一具体实现方式所描述的方法。
21.本技术实施例第五方面提供一种包含指令的计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行如本技术实施例第一方面或第一方面的任一具体实现方式所描述的方法。
22.从以上技术方案可以看出,本技术实施例具有以下优点:
23.考虑到某一子维度当前数据可能会被同维度下的其他子维度共享,故计算子维度当前数据分别对应的数据波动度量值,不仅能量化体现各子维度层面的数据变化,同时,还能反馈某一子维度当前数据受同维度的其他子维度当前数据的影响情况,使得借此可分析子维度之间的数据互斥或数据重叠场景,从而准确的推断出上层哪一维度为引起数据波动的根因维度,推进后续应用的进程。
附图说明
24.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
25.图1为本技术实施例的应用环境示意图;
26.图2为本技术实施例数据波动归因分析方法的一个流程示意图;
27.图3为本技术实施例数据波动归因分析方法的另一流程示意图;
28.图4为本技术实施例数据波动归因分析方法的另一流程示意图;
29.图5为本技术实施例数据波动归因分析方法的另一流程示意图;
30.图6为本技术实施例数据波动归因分析系统的一个结构示意图;
31.图7为本技术实施例数据波动归因分析装置的一个结构示意图。
具体实施方式
32.为了使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术作进一步地详细描述,所描述的实施例不应视为对本技术的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本技术保护的范围。
33.在以下的描述中,涉及到“一个具体实施方式”或“一个实施例”等类似表达,其描述了所有可能实施例的子集,但是可以理解,“一个具体实施方式”或“一个实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。在以下的描述中,涉及到的术语多个是指至少两个。
34.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术实施例的目的,不是旨在限制本技术。
35.为便于理解和说明,在对本技术实施例进行进一步详细说明之前,将对传统方案做简要说明:
36.1、adtributor归因算法无法很好的解决子维度间有数据重叠的情况,以dau指标为例,一个用户可能会同时出现在两个以上子维度(或称为维度值)中,即存在多个来源,而adtributor算法对此无法很好地做出来源排查及进一步的数据处理。
37.2、hotspot和squeeze归因算法效果假设根因维度的变化率和其子维度变化率是成比例的,但在大多数真实场景中,这种假设过于武断,使得归因分析的可靠性无法保证;
38.3、idice归因算法为了减少搜索空间,采用了暴力剪枝的方法,如直接将变化小于一定阈值的子维度节点减掉,而这往往会直接影响上层维度的分析,从而遗漏可能的根因维度。
39.有鉴于此,本技术提供数据波动归因分析方法,以有效解决传统方案对引起数据波动的根因维度定位不够准确的技术问题。
40.请参阅图1,图1示出了一种适用于本技术实施例的应用环境示意图。本技术实施例提供的数据波动归因分析方法可以应该用于如图1所示的交互系统100,该交互系统100包括终端设备101以及服务器102,服务器102与终端设备101通信连接。其中,服务器102可以是传统服务器,也可以是云端服务器,在此不作具体限定。
41.其中,终端设备101可以是具有显示屏且支持数据输入的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和可穿戴式电子设备等。具体的,数据输入可以是基于终端设备101上具有的语音模块输入语音、字符输入模块输入字符、图像输入模块输入图像等,还可以是基于终端设备101上安装有的手势识别模块,使得用户可以实现手势输入等交互方式。
42.其中,终端设备101上可以安装有客户端应用程序产品,用户可以基于客户端应用程序(例如app、小程序等)与服务器102进行通信,具体的,服务器102上安装有对应的服务端应用程序,用户可以基于客户端应用程序在服务器102注册一个用户帐号,并基于该用户帐号与服务器102进行通信,例如用户在客户端应用程序登录用户帐号,并基于该用户帐号通过客户端应用程序进行输入,可以输入文字信息、语音信息或图像信息等,客户端应用程序接收到用户输入的信息后,可以将该信息发送至服务器102,使得服务器102可以接收该信息并进行处理及存储,如用以汇总分析得某客户端应用程序的用户数等数据指标,
服务器102还可以接收该信息并根据该信息返回一个对应的输出信息至终端设备101。
43.上述的应用环境仅为方便理解所作的示例,可以理解的是,本技术实施例不仅局限于上述应用环境。
44.下面将对本技术实施例做进一步的详细说明。
45.请参阅图2,本技术第一方面提供数据波动归因分析方法的一个实施例,该实施例包括:
46.201、获取每一维度的各子维度下参与统计的子维度当前数据。
47.因构成目标统计数据的数据本质上来源于各子维度当前数据,故为分析目标统计数据,需获取每一维度的各子维度下参与统计的子维度当前数据,其中,至少部分维度的子维度当前数据归属于同一维度下的不同子维度。以dau指标为例,省份这一维度下包含河北省和河南省等多个子维度,即该维度下的具体维度值有多个,而记录在河北省这一子维度下的某用户及其用户数据信息,因其在当天跨省移动,会被同样记录成另一子维度(如河南省)下的参与统计用户,故这两省的当前数据会因该用户出现数据重叠的情况,如使得当天的目标统计数据在用户计数上反而多加了一。
48.202、获取与目标统计数据采集时间不同的历史统计数据。
49.为准确评判出目标统计数据相对于历史统计数据发生超阈值波动的原因为何,即到底归因于哪一维度,需获取用以对比该目标统计数据的参考数据,而该参考数据应为与目标统计数据采集时间不同的历史统计数据,从而协助追溯出致使目标统计数据发生超阈值波动的根因维度。
50.203、计算各维度的每一子维度下的子维度当前数据分别对应的数据波动度量值。
51.根据目标统计数据和历史统计数据,计算各维度的每一子维度下的子维度当前数据分别对应的数据波动度量值,数据波动度量值用于表示子维度当前数据在同维度的其他子维度当前数据的参与下相对历史统计数据发生的数据变化。因一维度下可包含多个子维度,故可理解的是,数据波动度量值也能表征同一维度层面的数据在不同采集时间的前后波动情况。
52.204、根据算得的各数据波动度量值,从多维度中确定出根因维度。
53.因数据波动度量值能表征维度层数据在不同采集时间的前后波动情况,故根据算得的各数据波动度量值,可从多维度中确定出使得目标统计数据相对于历史统计数据发生超阈值波动的根因维度。
54.需说明的是,上述步骤201和202的先后执行顺序不限。
55.综上,计算每一子维度当前数据分别对应的数据波动度量值的过程中,考虑到了某一子维度当前数据可能会被同维度下的其他子维度共享的情况,故通过数据波动度量值,不仅能量化体现各子维度层面的数据变化,同时,还能反馈某一子维度当前数据受同维度的其他子维度当前数据的影响情况,使得借此可分析子维度之间的数据互斥或数据重叠场景,从而准确的推断出上层哪一维度为引起数据波动的根因维度,以推进后续应用的进程,如获悉某款客户端应用程序产品在大众中的受欢迎程度。
56.在上述示例说明的基础上,下面将提供一些具体的可能实施示例,实际应用中,这些示例之间的实施内容可根据相应的功能原理和应用逻辑由需地结合实施。
57.请参阅图3,本技术提供一种数据波动归因分析方法的另一实施例,该实施例包
括:
58.301、获取每一维度的各子维度下参与统计的子维度当前数据。
59.仍以dau指标为例说明本技术的统计数据及其子维度数据,多维度dau指标这一目标统计数据除了可涵盖省份这一维度数据,还可涵盖用户所用终端这一维度数据,相应的,用户所用终端这一维度下至少包含a型号手机和b型号手机等多个子维度;同理的,对于被记录在a型号手机这一子维度下的某用户,因其当天还用了b型号手机进行关操作如再次登录同一客户端应用程序,而被同样记录成了b型号手机这一子维度下的参与统计用户,故这两款手机型号的当前数据会因该用户出现数据交叉记录的情况,如使得当天用户所用终端这一维度指向的总体dau在计数上反而多加了一,甚至其他的相关用户信息被重复登记计数,造成目标统计数据错乱;其中,总体dau可理解为某维度层面的数据指标。而这种类似情况若发生在大批量的用户上,则容易导致最终汇总分析得的目标统计数据较比作为参考的历史统计数据,发生超阈值的异常波动。
60.302、获取与目标统计数据采集时间不同的历史统计数据。
61.具体的,本技术中获取历史统计数据的过程,包括获取构成该历史统计数据的维度数据及下层的各子维度数据。
62.303、计算各维度的每一子维度下的子维度当前数据分别对应的数据波动度量值。
63.作为一种可能的实施方式,若数据波动度量值包括子维度当前数据对应的概率分布相似度和子维度当前数据对应的指标权重,则步骤303具体可包括步骤3031至3035:
64.3031、对于维度下的每个子维度,统计子维度下的子维度当前数据所指向的统计对象,因出现在同属维度的不同子维度中而得到的子维度经历量。
65.示例性的,对于第i个维度的第j个子维度(可表示为子维度或维度值ij),该子维度当前数据具体可为子维度ij对应的数据指标,如周四当天河北省对应的dau指标,该子维度ij所指向的统计对象具体可指注册号为0123的个体用户u,此处的个体用户可称为数据实体;相应的,n
ij
为该维度值ij下数据实体的个数,如该维度值ij下dau指标中的用户数;子维度ij所指向的统计对象u因出现在同属维度的不同子维度中而得到的子维度经历量,可表示为wu,换而言之,wu为用户u出现在不同维度值的个数,例如用户u出现在3个维度值中,那么wu=3用以表示3个维度值共享了用户u。
66.3032、计算子维度经历量相对于历史统计数据得到的先验概率,及子维度经历量相对于目标统计数据得到的后验概率,先验概率和后验概率用于表示统计对象在不同采集时间的统计数据中的概率分布。
67.在步骤3031的基础上,示例性的,根据下式计算子维度经历量相对于历史统计数据得到的先验概率p
ij

[0068][0069]
其中,f为历史统计数据中第i个维度对应的数据,如上周四的全国总体dau指标值,具体可理解为上周四源自全国的总用户数;
[0070]
同理,根据下式计算子维度经历量相对于目标统计数据得到的后验概率q
ij

[0071]
[0072]
其中,m表示目标统计数据中第i个维度对应的数据,如本周四的全国总体dau指标值,具体可理解为本周四源自全国的总用户数。
[0073]
3033、计算先验概率和后验概率之间的概率分布相似度。
[0074]
示例性的,概率分布相似度为js(jensen-shannon)散度,根据下式计算先验概率和后验概率之间的概率分布相似度js散度(s
ij
):
[0075][0076]
此概率分布相似度越大,表示子维度ij对应的数据在不同采集时间内引起的数据波动幅度越大。
[0077]
由上述说明及算式可知,最终算得的概率分布相似度,可用以表示由多维度数据汇总分析得的目标统计数据在子维度ij下的数据差异度,如此,依次计算各维度下的概率分布相似度(可简称为异常度),则可反馈出该目标统计数据在不同维度下较比参考数据引起的数据差异度,推动后续追溯得引起数据异常波动的根因维度。
[0078]
当然,还可用除js散度之外的其他概率分布相似度表示先验概率和后验概率之间的异常度,如kl(kullback-leibler)散度。
[0079]
步骤3031至3033为计算概率分布相似度的具体实现过程,下面将详细说明计算指标权重的具体实现过程。
[0080]
3034、将子维度对应的子维度当前数据更换成来自历史统计数据的同一子维度下对应的子维度历史数据。
[0081]
示例性的,对于第i个维度的第j个维度值,如河北省对应的dau指标,只将本周四河北省对应的dau值(可理解为用户数)100,更换成作为参考的上周四河北省用户数90,而省份这一维度下除河北省之外的其他各子维度当前数据不变即仍是本周四当前的dau值。
[0082]
3035、根据更换得的子维度历史数据,计算子维度当前数据相对于前后两次统计数据变化量的指标权重。
[0083]
在上述步骤3034的基础上,具体的,根据更换得的子维度历史数据(如上周四河北省用户数90),以及同维度下的其他子维度当前数据,得到将某维度值ij对应的数据换成相应的参考值后的维度指标值,如省份这一维度此时统计得的总体用户数m
ij
,并根据如下公式计算子维度当前数据相对于前后两次统计数据变化量的指标权重c
ij

[0084][0085]
其中,m和f同上述计算概率分布相似度过程中的表意。
[0086]
可见,指标权重c
ij
的作用在于,先假设某一子维度当前数据和同子维度的历史参考数据一样,从而量化表示该子维度当前数据对上层维度数据的影响程度和贡献度,如量化当前河北省数据对全国数据的影响,故本技术的指标权重可称为贡献度。当然,本技术中的指标权重可以不同于上式c
ij
的形式计算,只要其能同样表示数据贡献度,此处不做限定。
[0087]
另一方面,可理解的是,步骤3031至3035中的各计算公式,不仅适用于如上维度值之间存在数据重叠的情况,还适用于维度值之间数据互斥的情况,此互斥情况可表现为,同一维度下的各子维度当前数据均仅归属于其中一个子维度,如对于年龄这一维度下的各预设年龄区间(即子维度),18岁的用户只会归属于或计数在[15,20]这一个年龄区间内。当
然,这些公式同时也适用于除dau指标之外的其他计数型指标,或比率型的派生指标如成功率。
[0088]
需说明的是,计算概率分布相似度的各步骤,和计算指标权重的各步骤之间的先后执行顺序不限,即步骤3031至3033中的任一步骤,不要求是先于还是晚于步骤3034至3035中的任一步骤执行,只要最终能得到所需的概率分布相似度和指标权重等数据波动度量值即可。
[0089]
在一些具体示例中,同时采用概率分布相似度和指标权重的优势至少在于,有助于综合考察数据的异常度和贡献度表现,进而助推出真正的根因维度,以免仅以其中一个度量论得说服力不佳的归因结果。以省份这一维度下的dau指标为例,可能某子维度当前数据对应的异常度较比同维度下其他当前数据对应的异常度足够大,但前者主要对应或汇集的是当天来自某偏远省份的用户数据,而这部分偏远省份的用户数据对全国总用户数据(即上层维度层面)而言所占的贡献度是微小的,故此时若仅以异常度这一个度量值为依据,易将这类异常度大但贡献度小的维度错归为根因维度。同理的,当天某个省份对应的贡献度较比其他省份而言足够大,但前者其对应的异常度却是微小的,此时若仅以贡献度这一个度量值而论,也易将这类贡献度大但异常度小的维度错归为根因维度,从而影响数据波动归因进程的时效性和准确性。
[0090]
304、根据算得的各数据波动度量值,从多维度中确定出根因维度。
[0091]
作为一种可能的实施方式,步骤304具体可包括:
[0092]
对于每一维度,判断某维度下是否存在目标数目个(如k个),各类数据波动度量值均大于相应的数据波动阈值的子维度,数据波动阈值包括概率相似阈值和权重阈值;若存在,确定该维度为根因维度。当然,这过程中包括,若被分析的这一维度不是满足上述条件(当前维度下存在k个各类数据波动度量值均大于相应的数据波动阈值的子维度)的根因维度,则同理继续分析余下各维度,直至分析得满足条件的根因维度。
[0093]
如图4所示,示例性的,用以对比概率分布相似度的数据波动阈值记为异常度阈值ts,用以对比指标权重的数据波动阈值记为权重阈值tc;罗列出目标统计数据所关联的多维度列表(或称为待分析维度列表),对于其中某一个维度,若该维度下存在k个异常度大于ts且贡献度大于tc的子维度,这k个子维度可视作该维度对应的子维度组合;当然,这k个子维度具体可以是按某一数据波动度量值(如异常度)进行降序排列后的前k个子维度。若该维度下存在这样的组合,则将该维度加入候选根因列表,以表示该维度为根因维度;反之,若该维度下不存在这样的组合,则同理分析下一维度,直至出可作为根因维度的维度。当然,判断某维度是否为根因维度的条件还可根据实际需求设定,例如,某维度下是否存在异常度和贡献度的加权融合值达到某阈值的k个子维度。
[0094]
305、从多个根因维度中确定出最终的根因维度。
[0095]
若步骤304确定得的根因维度有多个,则具体可包括如下方式以确定出最终的根因维度。
[0096]
方式之一:对各根因维度对应的其中一类数据波动度量值进行降值排序,如按异常度对各根因维度进行降序排列,并选取预设数目个(如第一个)排序在先的根因维度作为最终的根因维度。
[0097]
方式之二:对每一根因维度对应的各类数据波动度量值进行融合处理,得到各根
因维度分别对应的结果融合值;选取结果融合值超过评选阈值的预设数目个根因维度作为最终的根因维度。当然,也可类似方式一,对结果融合值进行降值排序,并选取预设数目个排序在先的根因维度作为最终的根因维度。
[0098]
示例性的,以目前仅包含异常度和贡献度的两类数据波动度量为例,某根因维度的结果融合值=该根因维度的异常度
×
异常度权值+该根因维度的贡献度
×
贡献度权值。当然,根据实际需要,可将确定得的多个根因维度直接报告给所需方,而不用如步骤305推断出最终的根因维度后再报告。
[0099]
上述步骤301至304与步骤201至204所描述的操作类似,具体不再赘述。
[0100]
综上,在统计数据如dau指标发生异动时,通过对各个维度下数据指标的异常度和贡献度等进行合理量化,可快速定位出引起数据异常波动的根因维度,从而消除异常数据的影响,推进后续的作业进程。其中,因本技术的异常度和贡献度等公式既考虑了子维度之间数据互斥的场景,也考虑了有数据重叠的场景,故本技术能通用有效的快速排查得多场景的数据变动根因。
[0101]
在上述图2或图3所示实施例的基础上,为进一步提高对根因维度的定位时效性,加快数据的分析进程,执行步骤201或301之前,本技术的方法还可包括,通过数据调度平台查询并收集目标统计数据:
[0102]
具体的,如图5所示,若目标统计数据相对于历史统计数据的数据波动超过预设波动范围,则将目标统计数据作为触发定时归因分析的统计数据,并在目标统计数据开始定时归因分析之前,通过数据调度平台查询目标统计数据是否完成收集;若未完成,通过数据调度平台从数据源继续收集数据,直至收集完成。
[0103]
实际应用中,触发定时归因分析的统计数据具体可指,每隔一周期,数据波动幅度值超过预设波动范围的一类统计数据,如前述的dau指标,因此,此时需依赖数据调度平台定时检查待分析的这类数据是否采集到位,从而周期性的开始执行如图2或图3示例的智能归因分析步骤,而后生成相应的根因维度报告给虚拟机器人(如用以与用户交互的应用程序产品),使得用户最终能获悉引起数据异常波动的根因维度为何。
[0104]
当然,对于每隔一周期并不会超过预设波动范围的一类统计数据,如每天几乎不变的比率型派生指标如成功登录率,因这类统计数据每隔一周期,其数据变动也不大,故不必经历上述定时归因支线,使得频繁地开展智能归因分析步骤,而是换至异动触发归因支线,使得变动不大的这类统计数据只有在被监控达到某变动幅度阈值时,才开展如图2或图3示例的智能归因分析步骤,以避免资源占用。
[0105]
在上述图2至图5任一附图示例的基础上,为进一步提高对根因维度的定位准确性,执行步骤201或301之前,本技术的方法还可包括如下步骤:
[0106]
对于多维度中的每一维度,若维度下的各子维度之间满足互斥关系,则将维度作为只含互斥子维度的维度,且数据波动度量值包括子维度当前数据对应的数据差值;互斥关系表示同一维度下的各子维度当前数据均仅归属于其中一个子维度,例如,对于年龄这一维度下的各预设年龄区间(即子维度),18岁的用户只会归属于或计数于[15,20]这一个年龄区间内,并不会划分至[21,25]等其他子维度。
[0107]
相应的,针对这种只含互斥子维度的维度,则步骤203或303计算各维度的每一子维度下的子维度当前数据分别对应的数据波动度量值,具体可包括:
[0108]
计算只含互斥子维度的维度对应的维度当前数据相对于,来自历史统计数据的同一维度下的维度当前数据产生的数据差值。例如,计算上周四年龄这一维度统计得的用户数,与本周四年龄维度统计得的用户数之间的差值,使得而后可根据该差值确定出根因维度。
[0109]
由以上说明可知,本技术的方法,可以很好的适配各种复杂的业务场景,例如维度值之间有数据不互斥即数据有交叉的情况,在此再举例说明:
[0110]
假设当天源自全国的总体dau从1000降到900,降低了100,分析子维度即下述来源,来源1(某省份)的dau从200降低到190,降低了10,而去除来源1的用户数据影响(即当前来源1的dau仍以200为计)后,总体dau为902。
[0111]
按照原有adtributor的贡献度计算公式,其贡献度为10/100=10%,显然这种算法是不合理的,因为一个用户有可能同时存在于来源1和来源2中,那么真实的贡献度可能就远小于10%。
[0112]
按照本技术的贡献度计算公式,其贡献度为(900-902)/(900-1000)=2%。
[0113]
从以上示例可以看出来,adtributor算法计算出来的贡献度和本技术的贡献度相差甚远。
[0114]
同理,针对异常度计算,假设来源1的参考dau和当前dau均为100,那么adtributor算法计算出来的异常度就为0,代表没有任何异常,但是实际中考虑到具体用户和其他来源维度值的共享情况会发生较大变化,可能先验概率和后验概率之间会有很大差距,即异常度大。
[0115]
综上,本技术的数据波动归因分析方法,可广泛适用于各种实际应用场景,有助于高效排查得数据波动的根因,从而促进消除数据误差等后续作业进程,提升数据统计的准确性和时效性。
[0116]
请参阅图6,本技术第二方面提供一种数据波动归因分析系统的一个实施例,包括:获取单元601、计算单元602和确定单元603;
[0117]
对于由多维度数据汇总分析得的目标统计数据,获取单元601用于,获取每一维度的各子维度下参与统计的子维度当前数据,其中,至少部分维度的子维度当前数据归属于同一维度下的不同子维度;
[0118]
获取单元601还用于,获取与目标统计数据采集时间不同的历史统计数据;
[0119]
对于多维度中的各维度,计算单元602用于,根据目标统计数据和历史统计数据,计算维度的每一子维度下的子维度当前数据分别对应的数据波动度量值,数据波动度量值用于表示子维度当前数据在同维度的其他子维度当前数据的参与下相对历史统计数据发生的数据变化;
[0120]
确定单元603用于,根据算得的各数据波动度量值,从多维度中确定出使得目标统计数据相对于历史统计数据发生超阈值波动的根因维度。
[0121]
可选地,若数据波动度量值包括子维度当前数据对应的概率分布相似度和子维度当前数据对应的指标权重,则计算单元602具体用于:
[0122]
对于维度下的每个子维度,统计子维度下的子维度当前数据所指向的统计对象,因出现在同属维度的不同子维度中而得到的子维度经历量;
[0123]
计算子维度经历量相对于历史统计数据得到的先验概率,及子维度经历量相对于
目标统计数据得到的后验概率,先验概率和后验概率用于表示统计对象在不同采集时间的统计数据中的概率分布;
[0124]
计算先验概率和后验概率之间的概率分布相似度;
[0125]
将子维度对应的子维度当前数据,更换成来自历史统计数据的同一子维度下对应的子维度历史数据;
[0126]
根据更换得的子维度历史数据,计算子维度当前数据相对于前后两次统计数据变化量的指标权重。
[0127]
可选地,若数据波动度量值为包含概率分布相似度和指标权重的多类数据波动度量值,则确定单元603具体用于:
[0128]
对于每一维度,判断维度下是否存在目标数目个,各类数据波动度量值均大于相应的数据波动阈值的子维度,数据波动阈值包括概率相似阈值和权重阈值;
[0129]
若存在,确定维度为根因维度。
[0130]
可选地,若确定得的根因维度有多个,本系统还包括:
[0131]
处理单元604,用于对各根因维度对应的其中一类数据波动度量值进行降值排序,并选取预设数目个排序在先的根因维度作为最终的根因维度。
[0132]
可选地,若确定得的根因维度有多个,本系统还包括处理单元604,该处理单元604用于:
[0133]
对每一根因维度对应的各类数据波动度量值进行融合处理,得到各根因维度分别对应的结果融合值;
[0134]
选取结果融合值超过评选阈值的预设数目个根因维度作为最终的根因维度。
[0135]
可选地,本系统还包括处理单元604,该处理单元604用于:
[0136]
对于多维度中的每一维度,若维度下的各子维度之间满足互斥关系,则将维度作为只含互斥子维度的维度,且数据波动度量值包括子维度当前数据对应的数据差值;互斥关系表示同一维度下的各子维度当前数据均仅归属于其中一个子维度;
[0137]
计算单元602,具体用于:
[0138]
对于只含互斥子维度的维度,计算维度对应的维度当前数据相对于,来自历史统计数据的同一维度下的维度当前数据产生的数据差值。
[0139]
可选地,本系统还包括处理单元604,该处理单元604用于:
[0140]
若目标统计数据相对于历史统计数据的数据波动超过预设波动范围,则将目标统计数据作为触发定时归因分析的统计数据,并在目标统计数据开始定时归因分析之前,通过数据调度平台查询目标统计数据是否完成收集;
[0141]
若未完成,通过数据调度平台从数据源继续收集数据,直至收集完成。
[0142]
本技术实施例中,数据波动归因分析系统各单元所执行的操作,与前述第一方面或第一方面的任一具体方法实施例所描述的操作类似,具体此处不再赘述。
[0143]
请参阅图7,本技术实施例的数据波动归因分析装置700可以包括一个或一个以上中央处理器cpu(cpu,central processing units)701和存储器705,该存储器705中存储有一个或一个以上的应用程序或数据。
[0144]
其中,存储器705可以是易失性存储或持久存储。存储在存储器705的程序可以包括一个或一个以上模块,每个模块可以包括对数据波动归因分析装置中的一系列指令操
作。更进一步地,中央处理器701可以设置为与存储器705通信,在数据波动归因分析装置700上执行存储器705中的一系列指令操作。
[0145]
数据波动归因分析装置700还可以包括一个或一个以上电源702,一个或一个以上有线或无线网络接口703,一个或一个以上输入输出接口704,和/或,一个或一个以上操作系统,例如windows servertm,mac os xtm,unixtm,linuxtm,freebsdtm等。
[0146]
该中央处理器701可以执行前述第一方面或第一方面的任一具体方法实施例所执行的操作,具体不再赘述。
[0147]
可以理解的是,在本技术的各种实施例中,各步骤的序号大小并不意味着执行顺序的先后,各步骤的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。
[0148]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0149]
在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统或装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0150]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0151]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0152]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品(计算机程序产品)存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,业务服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

技术特征:


1.一种数据波动归因分析方法,其特征在于,包括:对于由多维度数据汇总分析得的目标统计数据,获取每一维度的各子维度下参与统计的子维度当前数据,其中,至少部分维度的子维度当前数据归属于同一维度下的不同子维度;获取与所述目标统计数据采集时间不同的历史统计数据;对于所述多维度中的各维度,根据所述目标统计数据和所述历史统计数据,计算所述维度的每一子维度下的子维度当前数据分别对应的数据波动度量值,所述数据波动度量值用于表示所述子维度当前数据在同维度的其他子维度当前数据的参与下相对历史统计数据发生的数据变化;根据算得的各所述数据波动度量值,从所述多维度中确定出使得所述目标统计数据相对于所述历史统计数据发生超阈值波动的根因维度。2.根据权利要求1所述的数据波动归因分析方法,其特征在于,若所述数据波动度量值包括所述子维度当前数据对应的概率分布相似度和所述子维度当前数据对应的指标权重,则计算所述维度的每一子维度下的子维度当前数据分别对应的数据波动度量值,包括:对于所述维度下的每个子维度,统计所述子维度下的子维度当前数据所指向的统计对象,因出现在同属维度的不同子维度中而得到的子维度经历量;计算所述子维度经历量相对于所述历史统计数据得到的先验概率,及所述子维度经历量相对于所述目标统计数据得到的后验概率,所述先验概率和所述后验概率用于表示所述统计对象在不同采集时间的统计数据中的概率分布;计算所述先验概率和所述后验概率之间的所述概率分布相似度;将所述子维度对应的子维度当前数据,更换成来自所述历史统计数据的同一子维度下对应的子维度历史数据;根据更换得的所述子维度历史数据,计算所述子维度当前数据相对于前后两次统计数据变化量的所述指标权重。3.根据权利要求1或2所述的数据波动归因分析方法,其特征在于,若所述数据波动度量值为包含概率分布相似度和指标权重的多类数据波动度量值,则从所述多维度中确定出根因维度,包括:对于每一维度,判断所述维度下是否存在目标数目个,各类数据波动度量值均大于相应的数据波动阈值的子维度,所述数据波动阈值包括概率相似阈值和权重阈值;若存在,确定所述维度为根因维度。4.根据权利要求1或2所述的数据波动归因分析方法,其特征在于,若确定得的所述根因维度有多个,则所述方法还包括:对各所述根因维度对应的其中一类数据波动度量值进行降值排序,并选取预设数目个排序在先的所述根因维度作为最终的根因维度。5.根据权利要求1或2所述的数据波动归因分析方法,其特征在于,若确定得的所述根因维度有多个,则所述方法还包括:对每一所述根因维度对应的各类数据波动度量值进行融合处理,得到各所述根因维度分别对应的结果融合值;选取所述结果融合值超过评选阈值的预设数目个所述根因维度作为最终的根因维度。
6.根据权利要求1所述的数据波动归因分析方法,其特征在于,获取每一维度的各子维度下参与统计的子维度当前数据之前,所述方法还包括:对于所述多维度中的每一维度,若所述维度下的各子维度之间满足互斥关系,则将所述维度作为只含互斥子维度的维度,且所述数据波动度量值包括子维度当前数据对应的数据差值;所述互斥关系表示同一维度下的各子维度当前数据均仅归属于其中一个子维度;计算所述维度的每一子维度下的子维度当前数据分别对应的数据波动度量值,包括:对于只含互斥子维度的维度,计算所述维度对应的维度当前数据相对于,来自所述历史统计数据的同一维度下的维度当前数据产生的所述数据差值。7.根据权利要求1所述的数据波动归因分析方法,其特征在于,获取每一维度的各子维度下参与统计的子维度当前数据之前,所述方法还包括:若目标统计数据相对于历史统计数据的数据波动超过预设波动范围,则将所述目标统计数据作为触发定时归因分析的统计数据,并在所述目标统计数据开始定时归因分析之前,通过数据调度平台查询所述目标统计数据是否完成收集;若未完成,通过所述数据调度平台从数据源继续收集数据,直至收集完成。8.一种数据波动归因分析系统,其特征在于,包括:获取单元、计算单元和确定单元;对于由多维度数据汇总分析得的目标统计数据,所述获取单元用于,获取每一维度的各子维度下参与统计的子维度当前数据,其中,至少部分维度的子维度当前数据归属于同一维度下的不同子维度;所述获取单元还用于,获取与所述目标统计数据采集时间不同的历史统计数据;对于所述多维度中的各维度,所述计算单元用于,根据所述目标统计数据和所述历史统计数据,计算所述维度的每一子维度下的子维度当前数据分别对应的数据波动度量值,所述数据波动度量值用于表示所述子维度当前数据在同维度的其他子维度当前数据的参与下相对历史统计数据发生的数据变化;所述确定单元用于,根据算得的各所述数据波动度量值,从所述多维度中确定出使得所述目标统计数据相对于所述历史统计数据发生超阈值波动的根因维度。9.一种数据波动归因分析装置,其特征在于,包括:中央处理器,存储器以及输入输出接口;所述存储器为短暂存储存储器或持久存储存储器;所述中央处理器配置为与所述存储器通信,并执行所述存储器中的指令操作以执行权利要求1至7中任意一项所述的方法。10.一种计算机可读存储介质,其特征在于,包括指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1至7中任意一项所述的方法。

技术总结


本申请实施例公开了数据波动归因分析方法、系统及相关装置,该方法包括:获取每一维度的各子维度下参与统计的子维度当前数据,获取与目标统计数据采集时间不同的历史统计数据,计算各维度的每一子维度下的子维度当前数据分别对应的数据波动度量值,根据数据波动度量值从多维度中确定出根因维度。考虑到某一子维度当前数据可能会被同维度下的其他子维度共享,故本申请不仅能量化体现各子维度层面的数据变化,还能反馈某一子维度当前数据受同维度的其他子维度当前数据的影响情况,使得最终可分析子维度之间的数据互斥或数据重叠场景,从而准确的推断出上层哪一维度为引起数据波动的根因维度,推进后续应用的进程。推进后续应用的进程。推进后续应用的进程。


技术研发人员:

蒋明明 徐晓波

受保护的技术使用者:

腾讯音乐娱乐科技(深圳)有限公司

技术研发日:

2022.09.30

技术公布日:

2022/12/23

本文发布于:2022-12-27 06:55:31,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/2/46399.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:维度   数据   所述   统计数据
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图