1.本技术涉及
数据处理技术领域,特别是涉及一种
模型贡献度评估方法、装置、计算机设备、介质和产品。
背景技术:
2.目前,随着数据隐私安全的要求和意识提高,企业和企业之间合作采用纵向联邦学习的技术来完成安全联合建模,不仅保证了数据安全,而且使得模型获得更多特征更加准确。同时,通过各参与方的数据进行机器学习模型的训练,并将训练后的模型共享给参与者。此时,各参与方就需要根据各自在模型训练过程中的模型贡献度,来参与模型的收益分配。因此,对各参与方的模型贡献度进行准确评估,就可以使得收益分配更加合理,进而极大地促进各企业之间的合作。
3.传统技术,往往是基于在实际联合建模过程中各参与方所提供的特征的累计使用次数,来计算各参与方的贡献度,再根据贡献度进行模型收益分配。然而,特征的累计使用次数并不能很准确地体现出特征对于模型训练的贡献度。
4.因此,采用传统技术所计算出的各参与方在模型训练过程中的模型贡献度的准确性较低。
技术实现要素:
5.基于此,有必要针对上述技术问题,提供一种模型贡献度评估方法、装置、计算机设备、介质和产品。
6.第一方面,本技术提供了一种模型贡献度评估方法,所述模型包括联邦学习模型,所述联邦学习模型包括第一参与方及第二参与方,所述方法应用于所述联邦学习模型中的第一参与方,所述方法包括:
7.获取所述联邦学习模型的第一模型准确率;所述第一模型准确率为与所述第一参与方对应的模型准确率;
8.获取所述联邦学习模型的第二模型准确率;所述第二模型准确率为与所述第二参与方对应的模型准确率;
9.根据所述联邦学习模型的标准模型准确率、所述第一模型准确率及所述第二模型准确率结合所述第一参与方所提供的
原始样本数据的数据质量指数、所述第二参与方所提供的原始样本数据的数据质量指数,计算所述第一参与方对所述联邦学习模型的模型贡献度。
10.在其中一个实施例中,所述获取所述联邦学习模型的第一模型准确率,包括:
11.获取所述第一参与方的第一原始样本数据及第一中间样本数据;所述第一中间样本数据包括对所述第一原始样本数据进行扰动处理所得到的样本数据;
12.接收所述第二参与方的第二中间样本数据;所述第二中间样本数据包括对所述第二参与方的第二原始样本数据进行扰动处理所得到的样本数据;
13.将所述第一原始样本数据中的各第一原始特征及所述第二中间样本数据中的各第二中间特征输入至所述联邦学习模型中,计算与各所述第一原始特征对应的所述联邦学习模型的第一模型准确率。
14.在其中一个实施例中,所述获取所述联邦学习模型的第二模型准确率,包括:
15.接收所述第二参与方向所述第一参与方发送的所述联邦学习模型的第二模型准确率;所述第二模型准确率为由所述第二参与方将所述第二原始样本数据中的各第二原始特征及所述第一中间样本数据中的各第一中间特征输入至所述联邦学习模型中进行计算,所得到的与各所述第二原始特征对应的所述联邦学习模型的第二模型准确率。
16.在其中一个实施例中,所述第一参与方所提供的原始样本数据包括第一原始样本数据,所述第二参与方所提供的原始样本数据包括第二原始样本数据,所述方法还包括:
17.获取所述第一原始样本数据中各所述第一原始特征的数据质量指数;
18.获取所述第二原始样本数据中各所述第二原始特征的数据质量指数。
19.在其中一个实施例中,所述第一原始特征的数据质量指数包括特征有效性指数和/或特征多样性指数;所述获取所述第一原始样本数据中各所述第一原始特征的数据质量指数,包括:
20.获取所述第一原始样本数据中各所述第一原始特征的特征有效性指数;和/或
21.获取所述第一原始样本数据中各所述第一原始特征的特征多样性指数;
22.针对所述第一原始样本数据中各所述第一原始特征,根据所述第一原始特征的特征有效性指数和/或所述第一原始特征的特征多样性指数,生成所述第一原始特征的数据质量指数。
23.在其中一个实施例中,所述根据所述联邦学习模型的标准模型准确率、所述第一模型准确率及所述第二模型准确率结合所述第一参与方所提供的原始样本数据的数据质量指数、所述第二参与方所提供的原始样本数据的数据质量指数,计算所述第一参与方对所述联邦学习模型的模型贡献度,包括:
24.针对所述第一原始样本数据中各第一原始特征,根据所述联邦学习模型的标准模型准确率、与所述第一原始特征对应的第一模型准确率及所述第一原始特征的数据质量指数、所述第二原始样本数据中的各第二原始特征对应的第二模型准确率及各所述第二原始特征的数据质量指数,计算各所述第一原始特征的模型贡献度;
25.对所述第一原始样本数据中各第一原始特征的模型贡献度进行求和,得到所述第一原始样本数据对所述联邦学习模型的模型贡献度;
26.将所述第一原始样本数据对所述联邦学习模型的模型贡献度作为所述第一参与方对所述联邦学习模型的模型贡献度。
27.在其中一个实施例中,所述针对所述第一原始样本数据中各第一原始特征,根据所述联邦学习模型的标准模型准确率、与所述第一原始特征对应的第一模型准确率及所述第一原始特征的数据质量指数、所述第二原始样本数据中的各第二原始特征对应的第二模型准确率及各所述第二原始特征的数据质量指数,计算各所述第一原始特征的模型贡献度,包括:
28.针对所述第一原始样本数据中各第一原始特征,计算所述第一原始特征对应的第一模型准确率与所述第一原始特征的数据质量指数的乘积;
29.计算所述第一原始样本数据中所有第一原始特征对应的第一模型准确率、所有第一原始特征对应的数据质量指数的第一加权和;计算所述第二原始样本数据中所有第二原始特征对应的第二模型准确率、所有第二原始特征对应的数据质量指数的第二加权和;
30.对所述第一加权和、所述第二加权和进行求和,生成目标加权和,计算各所述第一原始特征对应的乘积与所述目标加权和之商,生成各所述第一原始特征的模型贡献度。
31.第二方面,本技术还提供了一种模型贡献度评估装置,所述模型包括联邦学习模型,所述联邦学习模型包括第一参与方及第二参与方,所述装置应用于所述联邦学习模型中的第一参与方,所述装置包括:
32.第一模型准确率获取模块,用于获取所述联邦学习模型的第一模型准确率;所述第一模型准确率为与所述第一参与方对应的模型准确率;
33.第二模型准确率获取模块,用于获取所述联邦学习模型的第二模型准确率;所述第二模型准确率为与所述第二参与方对应的模型准确率;
34.模型贡献度计算模块,用于根据所述联邦学习模型的标准模型准确率、所述第一模型准确率及所述第二模型准确率结合所述第一参与方所提供的原始样本数据的数据质量指数、所述第二参与方所提供的原始样本数据的数据质量指数,计算所述第一参与方对所述联邦学习模型的模型贡献度。
35.第三方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上所述的模型贡献度评估方法的步骤。
36.第四方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的模型贡献度评估方法的步骤。
37.第五方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上所述的模型贡献度评估方法的步骤。
38.上述模型贡献度评估方法、装置、计算机设备、存储介质和计算机程序产品,获取联邦学习模型的第一模型准确率,其中,第一模型准确率为与第一参与方对应的模型准确率。获取联邦学习模型的第二模型准确率,第二模型准确率为与第二参与方对应的模型准确率。根据联邦学习模型的标准模型准确率、第一模型准确率及第二模型准确率结合第一参与方所提供的原始样本数据的数据质量指数、第二参与方所提供的原始样本数据的数据质量指数,计算第一参与方对联邦学习模型的模型贡献度。
39.其中,在实际联合建模应用场景中,各参与方的模型贡献度不仅受到与各参与方对应的模型准确率影响,还会受到各参与方所提供的原始样本数据的数据质量的影响。而第一参与方所提供的原始样本数据的数据质量指数和第二参与方所提供的原始样本数据的数据质量指数可能不同,因此,传统方法中,仅根据联邦学习模型的标准模型准确率、第一模型准确率及第二模型准确率来计算各参与方的模型贡献度,显然,所得到的模型贡献度的准确性较低。本技术中,在计算各参与方的模型贡献度时,不仅考虑了联邦学习模型的标准模型准确率、与所述第一参与方对应的第一模型准确率及与所述第二参与方对应的第二模型准确率,还考虑了第一参与方所提供的原始样本数据的数据质量指数和第二参与方所提供的原始样本数据的数据质量指数。因此,结合各参与方的数据质量指数可以使得所
计算出的各参与方的模型贡献度更好的反映真实应用场景中各参与方对模型训练的贡献程度,使得最终所计算出的各参与方的模型贡献度更加准确。
附图说明
40.图1为一个实施例中模型贡献度评估方法的应用环境图;
41.图2为一个实施例中模型贡献度评估方法的流程示意图;
42.图3为图2获取联邦学习模型的第一模型准确率的流程示意图;
43.图4为图2获取联邦学习模型的第二模型准确率的流程示意图;
44.图5为一个实施例中获取数据质量指数方法的流程示意图;
45.图6为图5中生成第一原始样本数据中各第一原始特征的数据质量指数方法的流程示意图;
46.图7为图2中计算第一参与方的模型贡献度方法的流程示意图;
47.图8为图7中计算第一原始特征的模型贡献度方法的流程示意图;
48.图9为一个具体的实施例中模型贡献度评估方法的流程示意图;
49.图10为另一个具体的实施例中模型贡献度评估方法的流程示意图;
50.图11为一个实施例中模型贡献度评估装置的结构框图;
51.图12为一个实施例中计算机设备的内部结构图。
具体实施方式
52.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
53.本技术实施例提供的模型贡献度评估方法,可以应用于如图1所示的应用环境中。其中,该应用环境包括第一服务器120及第二服务器140,第一服务器120通过网络与第二服务器140进行通信。第一参与方运行在第一服务器120,第二参与方运行在第二服务器140。第一服务器120可以获取联邦学习模型的第一模型准确率,其中,第一模型准确率为与第一参与方对应的模型准确率,获取联邦学习模型的第二模型准确率,其中,第二模型准确率为与第二参与方对应的模型准确率,根据联邦学习模型的标准模型准确率、第一模型准确率及第二模型准确率结合第一参与方所提供的原始样本数据的数据质量指数、第二参与方所提供的原始样本数据的数据质量指数,计算第一参与方对所述联邦学习模型的模型贡献度。这里,第一服务器120及第二服务器140分别可以用独立的服务器或者是多个服务器组成的服务器集来实现。
54.在一个实施例中,如图2所示,提供了一种模型贡献度评估方法,本实施例以该方法应用于第一服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
55.步骤220,获取联邦学习模型的第一模型准确率,其中,第一模型准确率为与第一参与方对应的模型准确率。
56.其中,联邦学习模型可以是横向联邦学习模型,可以是纵向联邦学习模型,也可以
是联邦迁移学习模型,本技术对此不做限定。
57.其中,第一参与方可以是样本数据提供方,也可以是样本数据应用方,本技术对此不做限定。
58.具体的,联邦学习模型的第一模型准确率由第一参与方的原始样本数据中的各原始特征及第二参与方的中间样本数据中的各中间特征输入至联邦学习模型中,计算与第一参与方对应的联邦学习模型的第一模型准确率。其中,中间样本数据包括对原始样本数据进行扰动处理所得到的样本数据。
59.步骤240,获取联邦学习模型的第二模型准确率,其中,第二模型准确率为与第二参与方对应的模型准确率。
60.其中,第二参与方可以是样本数据提供方,也可以是样本数据应用方,本技术对此不做限定。
61.具体的,第一服务器接收所述第二参与方向第一参与方发送的联邦学习模型的第二模型准确率,第二模型准确率为由第二参与方将第二参与方的原始样本数据中的各原始特征及第一参与方的中间样本数据中的各中间特征输入至所述联邦学习模型中进行计算,所得到的与第二参与方对应的联邦学习模型的第二模型准确率。
62.步骤260,根据联邦学习模型的标准模型准确率、第一模型准确率及第二模型准确率结合第一参与方所提供的原始样本数据的数据质量指数、第二参与方所提供的原始样本数据的数据质量指数,计算所述第一参与方对所述联邦学习模型的模型贡献度。
63.其中,联邦学习模型的标准模型准确率指的是将第一参与方的样本数据和第二参与方的样本数据分别输入至联邦学习模型中,所计算出的模型准确率。具体的,首先,将第一参与方的样本数据和第二参与方的样本数据进行结合,生成真实样本数据;其次,将该真实样本数据输入到联邦学习模型中,计算模型准确率,即得到了联邦学习模型的标准模型准确率。其中,第一参与方输入到联邦学习模型中的样本数据可以是原始样本数据,可以是中间样本数据,也可以是其他样本数据,本技术对此不做限定。这里,中间样本数据指的是第一原始样本数据进行扰动处理所得到的样本数据。同理,第二参与方输入到联邦学习模型中的样本数据可以是原始样本数据,可以是中间样本数据,也可以是其他样本数据,本技术对此不做限定。
64.其中,数据质量指数指的是原始样本数据中各原始特征的数据质量指数,代表着数据质量的优劣程度。可以从第一参与方所提供的原始样本数据中获取到第一参与方所提供的原始样本数据的数据质量指数。具体的,针对第一原始样本数据中各第一原始特征,根据第一原始特征的特征有效性指数和/或第一原始特征的特征多样性指数,生成第一原始特征的数据质量指数。
65.其中,第二参与方所提供的原始样本数据的数据质量指数从第二原始样本数据中获取。具体的,针对第二原始样本数据中各第二原始特征,根据第二原始特征的特征有效性指数和/或第二原始特征的特征多样性指数,生成第二原始特征的数据质量指数。
66.具体的,针对第一参与方的原始样本数据中各原始特征,第一服务器根据联邦学习模型的标准模型准确率、与原始特征对应的第一模型准确率及原始特征的数据质量指数、第二参与方的原始样本数据中的各原始特征对应的第二模型准确率及各原始特征的数据质量指数,计算第一参与方的原始样本数据中各原始特征的模型贡献度。再对第一参与
方的原始样本数据中各原始特征的模型贡献度进行求和,得到第一参与方的原始样本数据对联邦学习模型的模型贡献度,并将第一参与方的原始样本数据对联邦学习模型的模型贡献度作为第一参与方对所述联邦学习模型的模型贡献度。
67.上述模型贡献度评估方法中,由于根据联邦学习模型的标准模型准确率、第一模型准确率及第二模型准确率结合第一参与方所提供的原始样本数据的数据质量指数、第二参与方所提供的原始样本数据的数据质量指数,计算第一参与方对联邦学习模型的模型贡献度,其中,在实际联合建模应用场景中,各参与方的模型贡献度不仅受到与各参与方对应的模型准确率影响,还会受到各参与方所提供的原始样本数据的数据质量的影响。而第一参与方所提供的原始样本数据的数据质量指数和第二参与方所提供的原始样本数据的数据质量指数可能不同,因此,传统方法中,仅根据联邦学习模型的标准模型准确率、第一模型准确率及第二模型准确率来计算各参与方的模型贡献度,显然,所得到的模型贡献度的准确性较低。本技术中,在计算各参与方的模型贡献度时,不仅考虑了联邦学习模型的标准模型准确率、与所述第一参与方对应的第一模型准确率及与所述第二参与方对应的第二模型准确率,还考虑了第一参与方所提供的原始样本数据的数据质量指数和第二参与方所提供的原始样本数据的数据质量指数。因此,结合各参与方的数据质量指数可以使得所计算出的各参与方的模型贡献度更好的反映真实应用场景中各参与方对模型训练的贡献程度,使得最终所计算出的各参与方的模型贡献度更加准确。
68.图3为上述实施例中步骤220的流程图。本实施例中的获取联邦学习模型的第一模型准确率方法,以运行于第一服务器上为例进行描述。如图3所示,获取联邦学习模型的第一模型准确率方法包括步骤222至步骤226,其中,
69.步骤222,获取第一参与方的第一原始样本数据及第一中间样本数据,第一中间样本数据包括对第一原始样本数据进行扰动处理所得到的样本数据。
70.其中,第一参与方所提供的原始样本数据包括第一原始样本数据。
71.具体的,第一原始样本数据将样本数据进行随机分布,得到与原始样本数据量相同的随机分布样本数据,将得到的随机分布样本数据再进行扰动处理,得到第一中间样本数据。其中,扰动处理仅为本实施例中一种可选的预处理方式,其也可以是归一化处理,还可以是分桶处理,本技术对此并不做限定。其中,扰动处理指的是将原始样本数据进行随机化后,修改其中敏感数据,并保持原始样本数据中某些特征不变,且无法通过处理后样本数据重构得到真实原始样本数据的过程。归一化处理指的是将原始样本数据映射到一定范围中,用于去除极端值的存在。分桶处理指的是将连续型特征离散化为系列0/1的离散特征,使得计算结果跟方便存储。
72.步骤224,接收第二参与方的第二中间样本数据,第二中间样本数据包括对第二参与方的第二原始样本数据进行扰动处理所得到的样本数据。
73.其中,第二参与方在第二服务器本地所提供的原始样本数据包括第二原始样本数据。基于联邦学习模型是一种加密式机器学习技术,参与各方可以在不披露底层数据和底层数据的加密形态的前提下共建模型,因此,第二服务器并不会直接将第二原始样本数据发送至第一服务器。同理,第一服务器也并不会直接将第一原始样本数据发送至第二服务器。
74.具体的,第二参与方在第二服务器本地对第二原始样本数据中的样本数据进行随
机分布,得到与第二原始样本数据的数据量相同的随机分布样本数据,对得到的随机分布样本数据再进行扰动处理,得到第二中间样本数据。然后,第二参与方就可以向第一参与方传输第二中间样本数据,即第二服务器通过网络向第一服务器传输第二中间样本数据。可选地,第二服务器通过网络传输第二中间样本数据的传输方式,可以是以加密的形式进行传输,也可以是非加密的形式进行传输;可以是并行传输,也可以是串行传输,可以是同步传输,也可以是异步传输,可以是单工数据传输,也可以是半双工数据传输,还可以是全双工数据传输,本技术对此不做限定。
75.步骤226,将第一原始样本数据中的各第一原始特征及第二中间样本数据中的各第二中间特征输入至联邦学习模型中,计算与各第一原始特征对应的联邦学习模型的第一模型准确率。
76.在第一参与方接收到第二参与方所传输的第二中间样本数据之后,第一参与方将存储在第一参与方本地的第一原始样本数据及第一参与方所接收到的第二中间样本数据输入至联邦学习模型中,计算联邦学习模型的第一模型准确率。
77.其中,第一原始样本数据中包括与第一原始样本数据对应的一个或多个第一原始特征,因此,可以从第一原始样本数据中获取一个或多个第一原始特征。其中,第二中间样本数据中也包括与第二中间样本数据对应的一个或多个第二中间特征,因此,可以从第二中间样本数据中获取一个或多个第二中间特征。
78.这里,可以通过对第二原始样本数据进行扰动处理,生成第二中间样本数据,具体的,首先从第二原始样本数据中随机选取一部分第二原始样本数据,对所选取的第二原始样本数据进行扰动处理,生成新的样本数据;其次,采用新的样本数据替换这一部分第二原始样本数据,得到第二中间样本数据。
79.在生成了第二中间样本数据之后,就可以从第二中间样本数据中获取与第二中间样本数据对应的一个或多个第二中间特征。
80.具体的,将第一原始样本数据中的各第一原始特征及第二中间样本数据中的各第二中间特征输入至联邦学习模型中,计算与各第一原始特征对应的联邦学习模型的第一模型准确率。可选地,计算第一模型准确率的计算方法,可以是算法模型评估,也可以是回归模型评估,还可以是分类模型评估,具体计算方法本技术对此不做限定。其中,算法模型评估指的是计算模型预测正确数量所占总量的比例,回归模型评估指的是计算模型预测值与真实值之间的差值,分类模型评估则指的是根据混淆矩阵进行计算,将预测结果各真实结果以2
×
2的列联表形式展示,从而比较分类结果和实例的真实信息。
81.假设,第一参与方为保险公司客户端,第二参与方为银行客户端,那么,第一参与方的第一原始样本数据包括消费行为数据以及与该消费行为数据对应的实际保险推荐产品。那么,将第一原始样本数据中的各第一原始特征及第二中间样本数据中的各第二中间特征输入至联邦学习模型中,计算第一模型准确率的过程,具体为,将保险公司客户端的消费行为数据中的各第一原始特征及银行客户端第二中间样本数据中的各第二中间特征输入至联邦学习模型中,预测保险推荐产品,生成保险推荐产品预测结果。比较实际保险推荐产品与保险推荐产品预测结果,进而计算出联邦学习模型的第一模型准确率。
82.本实施例中,通过获取第一参与方的第一原始样本数据及第一中间样本数据、接收第二参与方的第二中间样本数据,将第一原始样本数据中的各第一原始特征及第二中间
样本数据中的各第二中间特征输入至联邦学习模型中,计算与各第一原始特征对应的联邦学习模型的第一模型准确率,其中,实际联合建模应用场景中,各参与方的模型贡献度会受到与各参与方对应的模型准确率影响,传统方法中,第一参与方只取用己方样本数据输入至模型中取得预测结果,所得结果具有单一性,没有与第二参与方样本数据进行联合预测,从而预测结果参考性较低,本技术中,第一参与方的第一原始样本数据和第二参与方的第二中间样本数据共同输入至联邦学习模型中使所得第一模型准确率更具有参考性,同时能够在后续计算各参与方的模型贡献度中,起到模拟训练分析的作用,再将各参与方的数据质量指数导入后,可以有效调整标准模型准确率和各参与方模型准确率的差距,使其更好的反映真实应用场景中的总体情况,让计算所得模型贡献度更趋于真实数据,从而达到联邦学习模型的收益在各个参与方之间合理分配的目的。
83.图4为上述实施例中步骤240的流程图。本实施例中的获取联邦学习模型的第二模型准确率方法,以运行于第二服务器上为例进行描述。如图4所示,获取联邦学习模型的第二模型准确率方法包括步骤242至步骤244,其中,
84.步骤242,第一参与方向第二参与方发送第一中间样本数据,由第二参与方将第二原始样本数据中的各第二原始特征及第一中间样本数据中的各第一中间特征输入至联邦学习模型中进行计算,所得到的与各第二原始特征对应的联邦学习模型的第二模型准确率。
85.具体的,第一参与方向第二参与方发送第一中间样本数据。可选地,发送第一中间样本数据的发送方式,可以是加密的,也可以是非加密的,可以是并行传输,也可以是串行传输,可以是同步传输,也可以是异步传输,可以是单工数据传输,也可以是半双工数据传输,还可以是全双工数据传输,本技术对此不做限定。
86.具体的,将第二原始样本数据中的各第二原始特征及第一中间样本数据中的各第一中间特征输入至联邦学习模型中,计算与各第二原始特征对应的联邦学习模型的第二模型准确率。可选地,计算第二模型准确率的计算方法,可以是算法模型评估,也可以是回归模型评估,还可以是分类模型评估,具体计算方法本技术对此不做限定。
87.步骤244,接收第二参与方向第一参与方发送的联邦学习模型的第二模型准确率。
88.具体的,第二参与方向第一参与方发送联邦学习模型的第二模型准确率。可选地,发送第二模型准确率的发送方式,可以是加密的,也可以是非加密的,可以是并行传输,也可以是串行传输,可以是同步传输,也可以是异步传输,可以是单工数据传输,也可以是半双工数据传输,还可以是全双工数据传输,本技术对此不做限定。
89.本实施例中,第一参与方向第二参与方发送第一中间样本数据,由第二参与方将第二原始样本数据中的各第二原始特征及第一中间样本数据中的各第一中间特征输入至联邦学习模型中进行计算,所得到的与各第二原始特征对应的联邦学习模型的第二模型准确率,接收第二参与方向第一参与方发送的联邦学习模型的第二模型准确率,能够使各参与方之间的模型准确率公开透明化,以初步保证彼此间信息的公平合理性,传统方法中,第二参与方只取用己方样本数据输入至模型中取得预测结果,所得结果具有单一性,没有与第一参与方样本数据进行联合预测,从而预测结果参考性较低,本技术中,第二参与方的第二原始样本数据和第一参与方的第一中间样本数据共同输入至联邦学习模型中使所得第二模型准确率更具有参考性,同时在后续计算各参与方的模型贡献度中,起到模拟训练分
析的作用,再将各参与方的数据质量指数导入后,可以有效调整标准模型准确率和各参与方模型准确率的差距,使其更好的反映真实应用场景中的总体情况,让计算所得模型贡献度更趋于真实数据,从而达到联邦学习模型的收益在各个参与方之间合理分配的目的。
90.在一个实施例中,如图5所示,还提供了一种模型贡献度评估方法,本实施例以该方法应用于第一服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
91.步骤520,获取第一原始样本数据中各第一原始特征的数据质量指数。
92.其中,数据质量指数指的是原始样本数据中各原始特征的数据质量指数,代表着数据质量的优劣程度。
93.具体的,第一服务器针对第一原始样本数据中各第一原始特征,可以根据第一原始特征的特征有效性指数和/或第一原始特征的特征多样性指数,生成第一原始特征的数据质量指数。
94.步骤540,获取第二原始样本数据中各第二原始特征的数据质量指数。
95.具体的,第二服务器针对第二原始样本数据中各第二原始特征,可以根据第二原始特征的特征有效性指数和/或第二原始特征的特征多样性指数,生成第二原始特征的数据质量指数。第二服务器发送第二原始特征的数据质量指数至第一服务器。
96.本实施例中,获取第一原始样本数据中各第一原始特征的数据质量指数,获取第二原始样本数据中各第二原始特征的数据质量指数,其中,在实际联合建模应用场景中,各参与方的模型贡献度不仅受到与各参与方对应的模型准确率影响,还会受到各参与方所提供的原始样本数据的数据质量的影响,同时,第一参与方所提供的原始样本数据的数据质量指数和第二参与方所提供的原始样本数据的数据质量指数可能不同,因此,传统方法中,仅根据联邦学习模型的标准模型准确率、第一模型准确率及第二模型准确率来计算各参与方的模型贡献度,显然,所得到的模型贡献度的准确性较低。本技术中,将各参与方的数据质量指数导入后,可以有效调整标准模型准确率和各参与方模型准确率的差距,使其更好的反映真实应用场景中的总体情况,让计算所得模型贡献度更趋于真实数据,从而达到联邦学习模型的收益在各个参与方之间合理分配的目的。
97.图6为上述实施例中步骤520的流程图。本实施例中生成第一原始样本数据中各第一原始特征的数据质量指数方法,以运行于终端上为例进行描述。如图6所示,生成第一原始特征的数据质量指数方法步骤522至步骤526,其中,
98.步骤522,获取第一原始样本数据中各第一原始特征的特征有效性指数。
99.其中,第一原始特征的特征有效性指数是,根据第一中间样本数据中的一个或多个特征对应的有效数据量来确定的,其中,有效数据量可以是,第一中间样本数据中满足某一特定范围的数据的含量,也可以是,满足某一特定范围的第一中间样本数据和全真实样本之间的差异性,本技术对此不做限定。
100.步骤524,获取第一原始样本数据中各第一原始特征的特征多样性指数。
101.其中,第一原始特征的特征多样性指数是,根据第一中间样本数据中的特征量来确定的,其中,第一中间样本数据中可能包含多组样本数据,样本数据量决定着样本数据的特征量,同时,由于各个特征之间会存在同质性或异质性,需要将样本数据的特征进行融
合、替换或离散化等进行处理,得到所需要的特征多样性指数,具体实施方式本技术对此不做限定。
102.步骤526,针对第一原始样本数据中各第一原始特征,根据第一原始特征的特征有效性指数和/或第一原始特征的特征多样性指数,生成第一原始特征的数据质量指数。
103.具体的,根据第一原始特征的特征有效性指数和/或第一原始特征的特征多样性指数,生成第一原始特征的数据质量指数的方法,可选地,可以是根据第一原始特征的特征有效性指数和/或第一原始特征的特征多样性指数利用函数进行二次拟合所得,还可以是根据第一原始特征的各组特征质量和其对应的第一原始特征的特征有效性指数和/或第一原始特征的特征多样性指数进行乘积再相加,得到第一原始特征的数据质量指数,具体实施方式本技术对此不做限定。
104.本实施例中,数据质量指数不仅受到特征有效性指数的影响,还可能与特征多样性指数有关,因此,若像传统方法中,只根据特征有效性指数或特征多样性指数来计算,所得数据质量指数参考性较低。本技术中,数据质量指数综合考虑到了特征有效性指数和特征多样性指数两方面,所得数据质量指数精度较高,因此,在结合各参与方的数据质量指数时可以使得所计算出的各参与方的模型贡献度更好的反映真实应用场景中各参与方对模型训练的贡献程度,使得最终所计算出的各参与方的模型贡献度更加准确。
105.同理,生成第二原始特征的数据质量指数方法与生成第一原始特征的数据质量指数方法相同,在此不再赘述渲染的详细过程。
106.图7为上述实施例中步骤260的流程图。本实施例中计算第一参与方的模型贡献度方法,以运行于终端上为例进行描述。如图7所示,计算第一参与方的模型贡献度方法步骤262至步骤266,其中,
107.步骤262,针对第一原始样本数据中各第一原始特征,根据联邦学习模型的标准模型准确率、与第一原始特征对应的第一模型准确率及第一原始特征的数据质量指数、第二原始样本数据中的各第二原始特征对应的第二模型准确率及各第二原始特征的数据质量指数,计算各第一原始特征的模型贡献度。
108.具体的,针对第一原始样本数据中各第一原始特征,计算第一原始特征对应的第一模型准确率与所述第一原始特征的数据质量指数的乘积;计算第一原始样本数据中所有第一原始特征对应的第一模型准确率、所有第一原始特征对应的数据质量指数的第一加权和;计算第二原始样本数据中所有第二原始特征对应的第二模型准确率、所有第二原始特征对应的数据质量指数的第二加权和;对第一加权和、所述第二加权和进行求和,生成目标加权和,计算各第一原始特征对应的乘积与所述目标加权和之商,生成各第一原始特征的模型贡献度。
109.步骤264,对第一原始样本数据中各第一原始特征的模型贡献度进行求和,得到所述第一原始样本数据对联邦学习模型的模型贡献度。
110.具体的,将步骤262中所得的p个第一原始特征的模型贡献度进行相加,所得结果为第一原始样本数据对联邦学习模型的模型贡献度,并将该第一原始样本数据对联邦学习模型的模型贡献度作为第一参与方对联邦学习模型的模型贡献度。其中,第一参与方对联邦学习模型的模型贡献度的计算公式如下公式(1-1)所示:
[0111][0111][0112]
其中,acc为联邦学习模型的标准模型准确率,acc1为第一原始特征对应的第一模型准确率,a为第一原始特征的数据质量指数。
[0113]
步骤266,将第一原始样本数据对所述联邦学习模型的模型贡献度作为所述第一参与方对所述联邦学习模型的模型贡献度。
[0114]
在本实施例中,针对第一原始样本数据中各第一原始特征,根据联邦学习模型的标准模型准确率、与第一原始特征对应的第一模型准确率及第一原始特征的数据质量指数、第二原始样本数据中的各第二原始特征对应的第二模型准确率及各第二原始特征的数据质量指数,计算各第一原始特征的模型贡献度,对第一原始样本数据中各第一原始特征的模型贡献度进行求和,得到所述第一原始样本数据对联邦学习模型的模型贡献度,将第一原始样本数据对所述联邦学习模型的模型贡献度作为所述第一参与方对所述联邦学习模型的模型贡献度。其中,将所有原始特征的模型贡献度进行求和,可以得到第一参与方的全局贡献度,相比于传统方法中,只得到单一特征的模型贡献度再进行分配更具备全面性,使得模型的收益更具有合理性和信服性。
[0115]
同理,得到第二参与方对所述联邦学习模型的模型贡献度方法与得到第一参与方对所述联邦学习模型的模型贡献度的方法相同,在此不再赘述渲染的详细过程。其中,第二参与方对联邦学习模型的模型贡献度的计算公式如下公式(1-2)所示:
[0116][0117]
其中,acc为联邦学习模型的标准模型准确率,acc2为第二原始特征对应的第二模型准确率,b为第二原始特征的数据质量指数,q代表q个第二原始特征的模型贡献度。
[0118]
图8为上述实施例中步骤262的流程图。本实施例中计算第一原始特征的模型贡献度方法,以运行于终端上为例进行描述。如图8所示,计算第一原始特征的模型贡献度方法步骤262a至步骤262d,其中,
[0119]
步骤262a,针对第一原始样本数据中各第一原始特征,计算第一原始特征对应的第一模型准确率与第一原始特征的数据质量指数的乘积。
[0120]
具体的,将第一原始特征对应的第一模型准确率与标准模型贡献度进行相减求差,再将差值与第一原始特征的数据质量指数进行相乘,得到第一原始特征对应的乘积。其中,第一原始特征对应的乘积的计算公式如下公式(1-3)所示:
[0121]
第一原始特征对应的乘积=(acc1-acc)
×aꢀꢀ
公式(1-3)
[0122]
其中,acc为联邦学习模型的标准模型准确率,acc1为第一原始特征对应的第一模型准确率,a为第一原始特征的数据质量指数。
[0123]
步骤262b,计算第一原始样本数据中所有第一原始特征对应的第一模型准确率、所有第一原始特征对应的数据质量指数的第一加权和。
[0124]
具体的,根据图3所得第一模型准确率、图5步骤520所得第一原始特征的数据质量指数、联邦模型的标准模型准确率,计算第一原始特征对应的第一模型准确率和联邦学习模型的标准模型准确率之间的差距,再与第一原始特征的数据质量指数相乘,再将n个所得
乘积进行相加,得到第一加权和。其中,第一加权和的计算公式如下公式(1-4)所示:
[0125]
第一加权和=(acc1
1-acc)
×
a1+(acc1
2-acc)
×
a2(acc1
3-acc)
×
a3+
…
+(acc1
n-acc)
×an
公式(1-4)
[0126]
其中,acc为联邦学习模型的标准模型准确率,acc1为第一原始特征对应的第一模型准确率,a为第一原始特征的数据质量指数。
[0127]
步骤262c,计算第二原始样本数据中所有第二原始特征对应的第二模型准确率、所有第二原始特征对应的数据质量指数的第二加权和。
[0128]
具体的,根据图4所得第二模型准确率、图5步骤540所得第二原始特征的数据质量指数、联邦模型的标准模型准确率,计算第二原始特征对应的第二模型准确率和联邦学习模型的标准模型准确率之间的差距,再与第二原始特征的数据质量指数相乘,再将m个所得乘积进行相加,得到第二加权和。其中,第二加权和的计算公式如下公式(1-5)所示:
[0129]
第二加权和=(acc2
1-acc)
×
b1+(acc2
2-acc)
×
b2(acc2
3-acc)
×
b3+
…
+(acc2
m-acc)
×bm
公式(1-5)
[0130]
其中,acc为联邦学习模型的标准模型准确率,acc2为第二原始特征对应的第二模型准确率,b为第二原始特征的数据质量指数。
[0131]
步骤262d,对第一加权和、第二加权和进行求和,生成目标加权和,计算各第一原始特征对应的乘积与目标加权和之商,生成各第一原始特征的模型贡献度。
[0132]
具体的,将上述步骤262b、262c所得第一加权和与第二加权和进行相加,将所得求和结果作为目标加权和,再将上述步骤262a所得第一原始特征对应的乘积除以目标加权和,所得结果即是第一原始特征的模型贡献度。其中,第一原始特征的模型贡献度的计算公式如下公式(1-6)所示:
[0133][0134]
其中,acc为联邦学习模型的标准模型准确率,acc1为第一原始特征对应的第一模型准确率,a为第一原始特征的数据质量指数。
[0135]
本实施例中,针对第一原始样本数据中各第一原始特征,计算第一原始特征对应的第一模型准确率与第一原始特征的数据质量指数的乘积,计算第一原始样本数据中所有第一原始特征对应的第一模型准确率、所有第一原始特征对应的数据质量指数的第一加权和,计算第二原始样本数据中所有第二原始特征对应的第二模型准确率、所有第二原始特征对应的数据质量指数的第二加权和,对第一加权和、第二加权和进行求和,生成目标加权和,计算各第一原始特征对应的乘积与目标加权和之商,生成各第一原始特征的模型贡献度。其中,在实际联合建模应用场景中,计算出各原始特征的模型贡献度可以更有针对性的了解到各参与方的某一特征的贡献度,能够在后续通过原始特征的贡献度计算各参与方的模型贡献度时,更有效的调整原始特征的贡献度对各参与方的贡献度的影响,使其更好的反映真实应用场景中的总体情况,让计算所得模型贡献度更趋于真实数据,从而达到联邦学习模型的收益在各个参与方之间合理分配的目的。
[0136]
同理,得到第二原始特征的模型贡献度方法与得到第一原始特征的模型贡献度方法相同,在此不再赘述渲染的详细过程。其中,第二原始特征的模型贡献度的计算公式如下
公式(1-7)所示:
[0137][0138]
其中,acc为联邦学习模型的标准模型准确率,acc2为第二原始特征对应的第二模型准确率,b为第二原始特征的数据质量指数。
[0139]
在一个具体的实施例中,如图9所示,提供了一种模型贡献度评估方法,应用于第一服务器,包括:
[0140]
步骤902,获取第一参与方的第一原始样本数据及第一中间样本数据,其中,第一中间样本数据包括对第一原始样本数据进行扰动处理所得到的样本数据。
[0141]
结合图10所示,数据提供方作为第一参与方,将数据a作为第一原始样本数据,将随机数据c作为第一中间样本数据,其中,随机数据c包括对数据a进行归一化处理得到的样本数据,可选地,归一化处理仅为本实施例中一种预处理方式,其也可以如图9所示为扰动处理,也可以是分桶处理,本技术对此并不做限定。
[0142]
假设,第一参与方为保险公司客户端,保险公司客户端运行在第一服务器上,第一参与方的第一原始样本数据包括在该保险公司客户端上的消费行为数据以及与该消费行为数据对应的实际保险推荐产品。具体的,第一服务器获取保险公司客户端上的消费行为数据,并将该消费行为数据进行扰动处理得到处理后的消费行为数据作为第一中间样本数据。
[0143]
步骤904,接收第二参与方的第二中间样本数据,第二中间样本数据包括对所述第二参与方的第二原始样本数据进行扰动处理所得到的样本数据;
[0144]
结合图10所示,数据应用方作为第二参与方,将数据b作为第二原始样本数据,将随机数据d作为第二中间样本数据,其中,随机数据d包括对数据b进行归一化处理得到的样本数据,可选地,归一化处理仅为本实施例中一种预处理方式,其也可以如图9所示为扰动处理,也可以是分桶处理,本技术对此并不做限定。
[0145]
假设,第二参与方为银行客户端,银行客户端运行在第二服务器上,第二参与方的第二原始样本数据包括在该银行客户端上的消费行为数据以及与该消费行为数据对应的实际保险推荐产品。具体的,第二服务器获取银行客户端上的消费行为数据,并将该消费行为数据进行扰动处理得到处理后的消费行为数据作为第二中间样本数据。
[0146]
其中,银行客户端的消费行为数据对应的实际保险推荐产品和保险公司客户端的消费行为数据对应的实际保险推荐产品,针对的是同一种实际保险推荐产品。
[0147]
步骤906,将第一原始样本数据中的各第一原始特征及第二中间样本数据中的各第二中间特征输入至联邦学习模型中,计算与各第一原始特征对应的联邦学习模型的第一模型准确率;
[0148]
结合图10所示,数据提供方加载已训练好的联邦学习模型,并将数据a中各特征和随机数据d中各特征输入至联邦学习模型中,计算数据a中各特征对应的联邦学习模型的第一模型准确率,并将该第一模型准确率作为acc1。
[0149]
假设,第一服务器将第一原始样本数据中的各第一原始特征及第二中间样本数据中的各第二中间特征输入至联邦学习模型中,计算第一模型准确率的过程,具体为,将保险
公司客户端的消费行为数据中的各第一原始特征及银行客户端第二中间样本数据中的各第二中间特征输入至联邦学习模型中,预测保险推荐产品,生成保险推荐产品预测结果。比较实际保险推荐产品与保险推荐产品预测结果,进而计算出联邦学习模型的第一模型准确率。
[0150]
步骤908,接收第二参与方向所述第一参与方发送的联邦学习模型的第二模型准确率;
[0151]
如图10所示,接收数据应用方向数据提供方发送的联邦学习模型的第二模型准确率,并将该第二模型准确率作为acc2,具体的,数据需求方接收数据提供方加密通讯发送的随机数据c,并将数据b和随机数据c输入至联邦学习模型中得到第二模型准确率acc2,数据应用方向数据提供方发送第二模型准确率acc2。
[0152]
假设,第一服务器接收第二服务器向第一服务器发送的第二模型准确率。具体的,第二服务器接收保险公司客户端发送的第一中间样本数据,并将银行客户端的消费行为数据中的各第二原始特征及保险公司客户端第一中间样本数据中的各第一中间特征输入至联邦学习模型中,预测保险推荐产品,生成保险推荐产品预测结果。比较实际保险推荐产品与保险推荐产品预测结果,进而计算出联邦学习模型的第二模型准确率。
[0153]
步骤910,获取第一原始样本数据中各第一原始特征的特征有效性指数和/或获取第一原始样本数据中各第一原始特征的特征多样性指数;
[0154]
假设,第一服务器获取保险客户端的消费行为数据中,根据消费行为数据特征对应的特征的有效数据量来确定的特征有效性指数,和/或根据数据特征进行某种处理得到的特征多样性指数。
[0155]
步骤912,针对第一原始样本数据中各第一原始特征,根据第一原始特征的特征有效性指数和/或第一原始特征的特征多样性指数,生成第一原始特征的数据质量指数;
[0156]
结合图10所示,数据提供方生成数据质量指数a,具体的,数据提供方根据数据a的特征有效性指数和/或数据a的特征多样性指数,生成数据a的数据质量指数,即第一原始特征的数据质量指数。
[0157]
假设,第一服务器根据保险公司客户端的消费行为数据特征的特征有效性指数和/或保险公司客户端的消费行为数据特征的特征多样性指数进行某种整合处理,生成的保险公司客户端的消费行为数据特征的数据质量指数。
[0158]
步骤914,获取所述第二原始样本数据中各所述第二原始特征的数据质量指数;
[0159]
结合图10所示,数据提供方接收数据应用方向数据提供方发送的数据质量指数b,即是获取所述第二原始样本数据中各所述第二原始特征的数据质量指数的过程。
[0160]
假设,第一服务器接收第二服务器向第一服务器发送的银行客户端的消费行为数据对应的数据质量指数,具体的,第二服务器获取银行客户端的消费行为数据中,根据消费行为数据特征对应的特征的有效数据量来确定的特征有效性指数,和/或根据数据特征进行某种处理得到的特征多样性指数,第二服务器根据银行客户端的消费行为数据特征的特征有效性指数,和/或银行客户端的消费行为数据特征的特征多样性指数进行某种整合处理,生成的银行客户端的消费行为数据特征的数据质量指数。第二服务器向第一服务器发送该数据质量。
[0161]
步骤916,针对第一原始样本数据中各第一原始特征,计算第一原始特征对应的第
一模型准确率与第一原始特征的数据质量指数的乘积;
[0162]
结合图10所示,贡献度1为第一模型准确率acc1和标准模型准确率acc的差值;贡献度2为第二模型准确率acc2和标准模型准确率acc的差值;将贡献度1结合数据质量指数a得到的即是第一模型准确率与第一原始特征的数据质量指数的乘积。
[0163]
假设,第一服务器将保险公司客户端的第一模型准确率和保险公司客户端的消费行为数据的数据质量指数进行相乘,得到保险公司客户端的消费行为数据特征对应的乘积。
[0164]
步骤918,计算第一原始样本数据中所有第一原始特征对应的第一模型准确率、所有第一原始特征对应的数据质量指数的第一加权和;计算第二原始样本数据中所有第二原始特征对应的第二模型准确率、所有第二原始特征对应的数据质量指数的第二加权和;
[0165]
假设,第一服务器将保险客户端的所有第一原始特征对应的第一模型准确率和所有第一原始特征对应的数据质量指数进行相乘,所得结果作为第一加权和;第一服务器将银行客户端的所有第二原始特征对应的第二模型准确率和所有第二原始特征对应的数据质量指数进行相乘,所得结果作为第二加权和;
[0166]
步骤920,对第一加权和、第二加权和进行求和,生成目标加权和,计算各第一原始特征对应的乘积与目标加权和之商,生成各第一原始特征的模型贡献度;
[0167]
结合图10所示,将贡献度1结合数据质量指数a得到数据提供方的特征对应的特征贡献度,具体的,将图9所示步骤918所得第一加权和、第二加权和进行求和,生成目标加权和,计算各第一原始特征对应的乘积与目标加权和之商,生成数据提供方的特征对应的特征贡献度,作为第一原始特征的模型贡献度。
[0168]
假设,第一服务器将保险公司客户端对应的第一加权和与银行客户端对应的第二加权和进行相加处理,将得到的求和结果作为目标加权和,并将第一原始特征对应的乘积除以目标加权和,将得到的商作为保险客户端的第一原始特征的模型贡献度。
[0169]
步骤922,对第一原始样本数据中各第一原始特征的模型贡献度进行求和,得到第一原始样本数据对联邦学习模型的模型贡献度;
[0170]
假设,第一服务器将所有保险公司客户端的第一原始特征的模型贡献度进行相加,将求和结果作为保险公司客户端的消费行为数据对联邦学习模型的模型贡献度。
[0171]
步骤924,将第一原始样本数据对联邦学习模型的模型贡献度作为第一参与方对联邦学习模型的模型贡献度。
[0172]
结合图10所示,将所有数据提供方的各特征对应的特征贡献度进行求和,得到的特征贡献度和,作为第一原始样本数据对联邦学习模型的模型贡献度,进而将该特征贡献度和作为数据提供方的模型贡献度,即第一参与方对联邦学习模型的模型贡献度。
[0173]
假设,第一服务器将保险公司客户端的消费行为数据对联邦学习模型的模型贡献度作为保险公司客户端对联邦学习模型的模型贡献度。
[0174]
本技术实施例中,获取第一参与方的第一原始样本数据及第一中间样本数据,接收第二参与方的第二中间样本数据,将第一原始样本数据中的各第一原始特征及第二中间样本数据中的各第二中间特征输入至联邦学习模型中,计算与各第一原始特征对应的联邦学习模型的第一模型准确率,接收第二参与方向所述第一参与方发送的联邦学习模型的第二模型准确率,获取第一原始样本数据中各第一原始特征的特征有效性指数和/或获取第
一原始样本数据中各第一原始特征的特征多样性指数,并基于此生成第一原始特征的数据质量指数,获取所述第二原始样本数据中各所述第二原始特征的数据质量指数,针对第一原始样本数据中各第一原始特征,计算第一原始特征对应的第一模型准确率与第一原始特征的数据质量指数的乘积,计算第一原始样本数据中所有第一原始特征对应的第一模型准确率、所有第一原始特征对应的数据质量指数的第一加权和;计算第二原始样本数据中所有第二原始特征对应的第二模型准确率、所有第二原始特征对应的数据质量指数的第二加权和,对第一加权和、第二加权和进行求和,生成目标加权和,计算各第一原始特征对应的乘积与目标加权和之商,生成各第一原始特征的模型贡献度,对第一原始样本数据中各第一原始特征的模型贡献度进行求和,得到第一原始样本数据对联邦学习模型的模型贡献度,将第一原始样本数据对联邦学习模型的模型贡献度作为第一参与方对联邦学习模型的模型贡献度。
[0175]
其中,在实际联合建模应用场景中,各参与方的模型贡献度不仅受到与各参与方对应的模型准确率影响,还会受到各参与方所提供的原始样本数据的数据质量的影响。而第一参与方所提供的原始样本数据的数据质量指数和第二参与方所提供的原始样本数据的数据质量指数可能不同,因此,传统方法中,仅根据联邦学习模型的标准模型准确率、第一模型准确率及第二模型准确率来计算各参与方的模型贡献度,显然,所得到的模型贡献度的准确性较低。本技术中,在计算各参与方的模型贡献度时,不仅考虑了联邦学习模型的标准模型准确率、与所述第一参与方对应的第一模型准确率及与所述第二参与方对应的第二模型准确率,还考虑了第一参与方所提供的原始样本数据的数据质量指数和第二参与方所提供的原始样本数据的数据质量指数。因此,结合各参与方的数据质量指数可以使得所计算出的各参与方的模型贡献度更好的反映真实应用场景中各参与方对模型训练的贡献程度,使得最终所计算出的各参与方的模型贡献度更加准确。
[0176]
基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的模型贡献度评估方法的模型贡献度评估装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个模型贡献度评估装置实施例中的具体限定可以参见上文中对于模型贡献度评估方法的限定,在此不再赘述。
[0177]
在一个实施例中,如图11所示,提供了一种模型贡献度评估装置1100,包括:第一模型准确率获取模块1102、第二模型准确率获取模块1104和模型贡献度计算模块1106,其中:
[0178]
第一模型准确率获取模块1102,用于获取联邦学习模型的第一模型准确率,第一模型准确率为与第一参与方对应的模型准确率;
[0179]
第二模型准确率获取模块1104,用于获取联邦学习模型的第二模型准确率,第二模型准确率为与第二参与方对应的模型准确率;
[0180]
模型贡献度计算模块1106,用于根据联邦学习模型的标准模型准确率、第一模型准确率及第二模型准确率结合第一参与方所提供的原始样本数据的数据质量指数、第二参与方所提供的原始样本数据的数据质量指数,计算第一参与方对联邦学习模型的模型贡献度。
[0181]
在其中一个实施例中,第一模型准确率获取模块1102模块,包括:
[0182]
样本数据获取单元,用于获取第一参与方的第一原始样本数据及第一中间样本数
据;第一中间样本数据包括对所述第一原始样本数据进行扰动处理所得到的样本数据;
[0183]
样本数据接收单元,用于接收第二参与方的第二中间样本数据;第二中间样本数据包括对第二参与方的第二原始样本数据进行扰动处理所得到的样本数据;
[0184]
计算单元,用于将第一原始样本数据中的各第一原始特征及第二中间样本数据中的各第二中间特征输入至联邦学习模型中,计算与各第一原始特征对应的所述联邦学习模型的第一模型准确率。
[0185]
在其中一个实施例中,第二模型准确率获取模块1104模块,包括:
[0186]
第二模型准确率接收单元,用于接收第二参与方向第一参与方发送的联邦学习模型的第二模型准确率;第二模型准确率为由第二参与方将第二原始样本数据中的各第二原始特征及第一中间样本数据中的各第一中间特征输入至联邦学习模型中进行计算,所得到的与各第二原始特征对应的联邦学习模型的第二模型准确率。
[0187]
在其中一个实施例中,提供了一种模型贡献度评估装置1100,还包括:
[0188]
第一数据质量指数获取模块,用于获取第一原始样本数据中各第一原始特征的数据质量指数;
[0189]
第二数据质量指数获取模块,用于获取第二原始样本数据中各第二原始特征的数据质量指数。
[0190]
在其中一个实施例中,第一数据质量指数获取模块,包括:
[0191]
特征有效性指数获取单元,用于获取第一原始样本数据中各第一原始特征的特征有效性指数;
[0192]
特征多样性指数获取单元,用于获取第一原始样本数据中各第一原始特征的特征多样性指数;
[0193]
数据质量指数生成单元,用于针对第一原始样本数据中各第一原始特征,根据第一原始特征的特征有效性指数和/或第一原始特征的特征多样性指数,生成所述第一原始特征的数据质量指数。
[0194]
在其中一个实施例中,模型贡献度计算模块1106,包括:
[0195]
第一原始特征的模型贡献度计算单元,用于针对第一原始样本数据中各第一原始特征,根据联邦学习模型的标准模型准确率、与第一原始特征对应的第一模型准确率及第一原始特征的数据质量指数、第二原始样本数据中的各第二原始特征对应的第二模型准确率及各第二原始特征的数据质量指数,计算各所述第一原始特征的模型贡献度;
[0196]
第一原始样本数据模型贡献度求和单元,用于对第一原始样本数据中各第一原始特征的模型贡献度进行求和,得到第一原始样本数据对联邦学习模型的模型贡献度;
[0197]
第一参与方模型贡献度获取单元,用于将第一原始样本数据对联邦学习模型的模型贡献度作为第一参与方对联邦学习模型的模型贡献度。
[0198]
在其中一个实施例中,第一原始特征的模型贡献度计算单元,包括:
[0199]
乘积计算子单元,用于针对第一原始样本数据中各第一原始特征,计算第一原始特征对应的第一模型准确率与第一原始特征的数据质量指数的乘积;
[0200]
加权和计算子单元,用于计算第一原始样本数据中所有第一原始特征对应的第一模型准确率、所有第一原始特征对应的数据质量指数的第一加权和;计算第二原始样本数据中所有第二原始特征对应的第二模型准确率、所有第二原始特征对应的数据质量指数的
第二加权和;
[0201]
第一原始特征模型贡献度生成子单元,用于对第一加权和、第二加权和进行求和,生成目标加权和,计算各第一原始特征对应的乘积与目标加权和之商,生成各第一原始特征的模型贡献度。
[0202]
上述模型贡献度评估装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0203]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储任务分配数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种模型贡献度评估方法。
[0204]
本领域技术人员可以理解,图12中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0205]
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
[0206]
获取联邦学习模型的第一模型准确率,其中,第一模型准确率为与第一参与方对应的模型准确率;
[0207]
获取联邦学习模型的第二模型准确率,其中,第二模型准确率为与第二参与方对应的模型准确率;
[0208]
根据联邦学习模型的标准模型准确率、第一模型准确率及所述第二模型准确率结合第一参与方所提供的原始样本数据的数据质量指数、第二参与方所提供的原始样本数据的数据质量指数,计算第一参与方对联邦学习模型的模型贡献度。
[0209]
在一个实施例中,获取联邦学习模型的第一模型准确率,处理器执行计算机程序时还实现以下步骤:
[0210]
获取第一参与方的第一原始样本数据及第一中间样本数据;第一中间样本数据包括对第一原始样本数据进行扰动处理所得到的样本数据;
[0211]
接收第二参与方的第二中间样本数据,第二中间样本数据包括对第二参与方的第二原始样本数据进行扰动处理所得到的样本数据;
[0212]
将第一原始样本数据中的各第一原始特征及第二中间样本数据中的各第二中间特征输入至联邦学习模型中,计算与各第一原始特征对应的联邦学习模型的第一模型准确率。
[0213]
在一个实施例中,获取联邦学习模型的第二模型准确率,处理器执行计算机程序时还实现以下步骤:
[0214]
接收第二参与方向第一参与方发送的所述联邦学习模型的第二模型准确率;第二模型准确率为由第二参与方将所述第二原始样本数据中的各第二原始特征及第一中间样
本数据中的各第一中间特征输入至联邦学习模型中进行计算,所得到的与各第二原始特征对应的联邦学习模型的第二模型准确率。
[0215]
在一个实施例中,第一参与方所提供的原始样本数据包括第一原始样本数据,第二参与方所提供的原始样本数据包括第二原始样本数据,处理器执行计算机程序时还实现以下步骤:
[0216]
获取第一原始样本数据中各第一原始特征的数据质量指数;
[0217]
获取第二原始样本数据中各第二原始特征的数据质量指数。
[0218]
在一个实施例中,第一原始特征的数据质量指数包括特征有效性指数和/或特征多样性指数,获取所述第一原始样本数据中各第一原始特征的数据质量指数,处理器执行计算机程序时还实现以下步骤:
[0219]
获取第一原始样本数据中各第一原始特征的特征有效性指数和/或获取第一原始样本数据中各第一原始特征的特征多样性指数;
[0220]
针对第一原始样本数据中各所述第一原始特征,根据第一原始特征的特征有效性指数和/或第一原始特征的特征多样性指数,生成第一原始特征的数据质量指数。
[0221]
在一个实施例中,根据联邦学习模型的标准模型准确率、第一模型准确率及第二模型准确率结合第一参与方所提供的原始样本数据的数据质量指数、第二参与方所提供的原始样本数据的数据质量指数,计算述第一参与方对联邦学习模型的模型贡献度,处理器执行计算机程序时还实现以下步骤:
[0222]
针对第一原始样本数据中各第一原始特征,根据联邦学习模型的标准模型准确率、与第一原始特征对应的第一模型准确率及第一原始特征的数据质量指数、第二原始样本数据中的各第二原始特征对应的第二模型准确率及各第二原始特征的数据质量指数,计算各第一原始特征的模型贡献度;
[0223]
对第一原始样本数据中各第一原始特征的模型贡献度进行求和,得到第一原始样本数据对联邦学习模型的模型贡献度;
[0224]
将第一原始样本数据对联邦学习模型的模型贡献度作为第一参与方对联邦学习模型的模型贡献度。
[0225]
在一个实施例中,针对第一原始样本数据中各第一原始特征,根据联邦学习模型的标准模型准确率、与第一原始特征对应的第一模型准确率及第一原始特征的数据质量指数、第二原始样本数据中的各第二原始特征对应的第二模型准确率及各第二原始特征的数据质量指数,计算各第一原始特征的模型贡献度,处理器执行计算机程序时还实现以下步骤:
[0226]
针对第一原始样本数据中各第一原始特征,计算第一原始特征对应的第一模型准确率与第一原始特征的数据质量指数的乘积;
[0227]
计算第一原始样本数据中所有第一原始特征对应的第一模型准确率、所有第一原始特征对应的数据质量指数的第一加权和;计算第二原始样本数据中所有第二原始特征对应的第二模型准确率、所有第二原始特征对应的数据质量指数的第二加权和;
[0228]
对第一加权和、第二加权和进行求和,生成目标加权和,计算各第一原始特征对应的乘积与目标加权和之商,生成各第一原始特征的模型贡献度。
[0229]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计
算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0230]
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0231]
需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
[0232]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器(ferroelectric random access memory,fram)、相变存储器(phase change memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
[0233]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0234]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。
技术特征:
1.一种模型贡献度评估方法,其特征在于,所述模型包括联邦学习模型,所述联邦学习模型包括第一参与方及第二参与方,所述方法应用于所述联邦学习模型中的第一参与方,所述方法包括:获取所述联邦学习模型的第一模型准确率;所述第一模型准确率为与所述第一参与方对应的模型准确率;获取所述联邦学习模型的第二模型准确率;所述第二模型准确率为与所述第二参与方对应的模型准确率;根据所述联邦学习模型的标准模型准确率、所述第一模型准确率及所述第二模型准确率结合所述第一参与方所提供的原始样本数据的数据质量指数、所述第二参与方所提供的原始样本数据的数据质量指数,计算所述第一参与方对所述联邦学习模型的模型贡献度。2.根据权利要求1所述的方法,其特征在于,所述获取所述联邦学习模型的第一模型准确率,包括:获取所述第一参与方的第一原始样本数据及第一中间样本数据;所述第一中间样本数据包括对所述第一原始样本数据进行扰动处理所得到的样本数据;接收所述第二参与方的第二中间样本数据;所述第二中间样本数据包括对所述第二参与方的第二原始样本数据进行扰动处理所得到的样本数据;将所述第一原始样本数据中的各第一原始特征及所述第二中间样本数据中的各第二中间特征输入至所述联邦学习模型中,计算与各所述第一原始特征对应的所述联邦学习模型的第一模型准确率。3.根据权利要求2所述的方法,其特征在于,所述获取所述联邦学习模型的第二模型准确率,包括:接收所述第二参与方向所述第一参与方发送的所述联邦学习模型的第二模型准确率;所述第二模型准确率为由所述第二参与方将所述第二原始样本数据中的各第二原始特征及所述第一中间样本数据中的各第一中间特征输入至所述联邦学习模型中进行计算,所得到的与各所述第二原始特征对应的所述联邦学习模型的第二模型准确率。4.根据权利要求2-3任一项所述的方法,其特征在于,所述第一参与方所提供的原始样本数据包括第一原始样本数据,所述第二参与方所提供的原始样本数据包括第二原始样本数据,所述方法还包括:获取所述第一原始样本数据中各所述第一原始特征的数据质量指数;获取所述第二原始样本数据中各所述第二原始特征的数据质量指数。5.根据权利要求4所述的方法,其特征在于,所述第一原始特征的数据质量指数包括特征有效性指数和/或特征多样性指数;所述获取所述第一原始样本数据中各所述第一原始特征的数据质量指数,包括:获取所述第一原始样本数据中各所述第一原始特征的特征有效性指数;和/或获取所述第一原始样本数据中各所述第一原始特征的特征多样性指数;针对所述第一原始样本数据中各所述第一原始特征,根据所述第一原始特征的特征有效性指数和/或所述第一原始特征的特征多样性指数,生成所述第一原始特征的数据质量指数。6.根据权利要求5所述的方法,其特征在于,所述根据所述联邦学习模型的标准模型准
确率、所述第一模型准确率及所述第二模型准确率结合所述第一参与方所提供的原始样本数据的数据质量指数、所述第二参与方所提供的原始样本数据的数据质量指数,计算所述第一参与方对所述联邦学习模型的模型贡献度,包括:针对所述第一原始样本数据中各第一原始特征,根据所述联邦学习模型的标准模型准确率、与所述第一原始特征对应的第一模型准确率及所述第一原始特征的数据质量指数、所述第二原始样本数据中的各第二原始特征对应的第二模型准确率及各所述第二原始特征的数据质量指数,计算各所述第一原始特征的模型贡献度;对所述第一原始样本数据中各第一原始特征的模型贡献度进行求和,得到所述第一原始样本数据对所述联邦学习模型的模型贡献度;将所述第一原始样本数据对所述联邦学习模型的模型贡献度作为所述第一参与方对所述联邦学习模型的模型贡献度。7.根据权利要求6所述的方法,其特征在于,所述针对所述第一原始样本数据中各第一原始特征,根据所述联邦学习模型的标准模型准确率、与所述第一原始特征对应的第一模型准确率及所述第一原始特征的数据质量指数、所述第二原始样本数据中的各第二原始特征对应的第二模型准确率及各所述第二原始特征的数据质量指数,计算各所述第一原始特征的模型贡献度,包括:针对所述第一原始样本数据中各第一原始特征,计算所述第一原始特征对应的第一模型准确率与所述第一原始特征的数据质量指数的乘积;计算所述第一原始样本数据中所有第一原始特征对应的第一模型准确率、所有第一原始特征对应的数据质量指数的第一加权和;计算所述第二原始样本数据中所有第二原始特征对应的第二模型准确率、所有第二原始特征对应的数据质量指数的第二加权和;对所述第一加权和、所述第二加权和进行求和,生成目标加权和,计算各所述第一原始特征对应的乘积与所述目标加权和之商,生成各所述第一原始特征的模型贡献度。8.一种模型贡献度评估装置,其特征在于,所述模型包括联邦学习模型,所述联邦学习模型包括第一参与方及第二参与方,所述装置应用于所述联邦学习模型中的第一参与方,所述装置包括:第一模型准确率获取模块,用于获取所述联邦学习模型的第一模型准确率;所述第一模型准确率为与所述第一参与方对应的模型准确率;第二模型准确率获取模块,用于获取所述联邦学习模型的第二模型准确率;所述第二模型准确率为与所述第二参与方对应的模型准确率;模型贡献度计算模块,用于根据所述联邦学习模型的标准模型准确率、所述第一模型准确率及所述第二模型准确率结合所述第一参与方所提供的原始样本数据的数据质量指数、所述第二参与方所提供的原始样本数据的数据质量指数,计算所述第一参与方对所述联邦学习模型的模型贡献度。9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。11.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行
时实现权利要求1至7中任一项所述的方法的步骤。
技术总结
本申请涉及一种模型贡献度评估方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取联邦学习模型的第一模型准确率,获取联邦学习模型的第二模型准确率,根据联邦学习模型的标准模型准确率、第一模型准确率及所述第二模型准确率结合第一参与方所提供的原始样本数据的数据质量指数、第二参与方所提供的原始样本数据的数据质量指数,计算第一参与方对所述联邦学习模型的模型贡献度。原始样本数据的数据质量指数可以有效调整根据联邦学习模型所得各参与方的模型贡献度,使其更好的反映真实应用场景中的总体情况,让计算结果更趋于真实数据,从而达到联邦学习模型的收益在各个参与方之间合理分配的目的。收益在各个参与方之间合理分配的目的。收益在各个参与方之间合理分配的目的。
技术研发人员:
赵少东 邱海枫 张胜
受保护的技术使用者:
深圳供电局有限公司
技术研发日:
2022.08.26
技术公布日:
2022/11/22