G06F40/194 G06F40/284 G06Q40/04
1.一种基于大数据量文件的关键字比对方法,其特征在于,包括:
读取接收到的申请文件中的多个交易申请,并为每个交易申请生成唯一的申请单号;
根据所述交易申请的交易类型将所述多个交易申请以及对应的申请单号存储至对应的申请表中;
将申请表中的已被执行的交易申请以及对应的申请单号导出,得到待确认文件;
根据所述申请文件的名称、交易日期以及交易类型从申请表中筛选并导出需当日执行的交易申请以及对应的单号,得到目标文件;
比较所述待确认文件中包含的申请单号以及所述目标文件中包含的申请单号,得到未被执行的交易申请。
2.根据权利要求1所述的基于大数据量文件的关键字比对方法,其特征在于,所述将申请表中的已被执行的交易申请以及对应的申请单号导出,得到待确认文件,包括:
读取所述申请表中的交易申请的交易结果;
将交易结果为交易已执行的交易申请以及对应的申请单号按照预设格式导出,得到一待确认文件。
3.根据权利要求2所述的基于大数据量文件的关键字比对方法,其特征在于,所述比较所述待确认文件中包含的申请单号以及所述目标文件中包含的申请单号之前,还包括:
对所述待确认文件进行横向裁剪,截取所述待确认文件中需要比对的数据;
对所述待确认文件中需要比对的数据进行纵向裁剪,得到待确认文件中包含的核心字段;
所述核心字段包括申请单号。
4.根据权利要求3所述的基于大数据量文件的关键字比对方法,其特征在于,所述比较所述待确认文件中包含的申请单号以及所述目标文件中包含的申请单号之前,还包括:
对所述目标文件进行横向裁剪,截取所述目标文件中需要比对的数据;
对所述目标文件中需要比对的数据进行纵向裁剪,得到目标文件中包含的核心字段;
所述核心字段包括申请单号。
5.根据权利要求4所述的基于大数据量文件的关键字比对方法,其特征在于,所述比较所述待确认文件中包含的申请单号以及所述目标文件中包含的申请单号,得到未被执行的交易申请,包括:
根据所述待确认文件中包含的申请单号生成第一申请单号列表,根据所述目标文件中包含的申请单号生成第二申请单号列表;
分别对所述第一申请单号列表以及所述第二申请单号列表进行去重和排序处理;
比较处理后的第一申请单号列表和第二申请单号列表,提取仅包含在所述第二申请单号列表而未包含在所述第一申请单号列表中的申请单号;
从所述申请表中获取与提取的申请单号对应的交易申请。
6.一种基于大数据量文件的关键字比对装置,其特征在于,包括:
交易申请读取模块,用于读取接收到的申请文件中的多个交易申请,并为每个交易申请生成唯一的申请单号;
交易申请存储模块,用于根据所述交易申请的交易类型将所述多个交易申请以及对应的申请单号存储至对应的申请表中;
待确认文件生成模块,用于将申请表中的已被执行的交易申请以及对应的申请单号导出,得到待确认文件;
目标文件生成模块,用于根据所述申请文件的名称、交易日期以及交易类型从申请表中筛选并导出需当日执行的交易申请以及对应的单号,得到目标文件;
交易申请筛选模块,用于比较所述待确认文件中包含的申请单号以及所述目标文件中包含的申请单号,得到未被执行的交易申请。
7.根据权利要求6所述的基于大数据量文件的关键字比对装置,其特征在于,所述待确认文件生成模块包括:
交易结果读取单元,用于读取所述申请表中的交易申请的交易结果;
交易申请导出单元,用于将交易结果为交易已执行的交易申请以及对应的申请单号按照预设格式导出,得到一待确认文件。
8.根据权利要求7所述的基于大数据量文件的关键字比对装置,其特征在于,还包括:
待确认文件裁剪模块,用于在比较所述待确认文件中包含的申请单号以及所述目标文件中包含的申请单号之前,对所述待确认文件进行横向裁剪,截取所述待确认文件中需要比对的数据;以及
对所述待确认文件中需要比对的数据进行纵向裁剪,得到待确认文件中包含的核心字段;
所述核心字段包括申请单号。
9.根据权利要求8所述的基于大数据量文件的关键字比对装置,其特征在于,还包括:
目标文件裁剪模块,用于在比较所述待确认文件中包含的申请单号以及所述目标文件中包含的申请单号之前,对所述目标文件进行横向裁剪,截取所述目标文件中需要比对的数据;以及
对所述目标文件中需要比对的数据进行纵向裁剪,得到目标文件中包含的核心字段;
所述核心字段包括申请单号。
10.根据权利要求9所述的基于大数据量文件的关键字比对装置,其特征在于,所述交易申请筛选模块包括:
申请单号筛选单元,用于根据所述待确认文件中包含的申请单号生成第一申请单号列表,根据所述目标文件中包含的申请单号生成第二申请单号列表;
申请单号处理单元,用于分别对所述第一申请单号列表以及所述第二申请单号列表进行去重和排序处理;
申请单号比对单元,用于比较处理后的第一申请单号列表和第二申请单号列表,提取仅包含在所述第二申请单号列表而未包含在所述第一申请单号列表中的申请单号;
交易申请筛选单元,用于从所述申请表中获取与提取的申请单号对应的交易申请。
11.一种电子设备,其特征在于,包括:
中央处理器、存储器、通信模块,所述存储器中存储有计算机程序,所述中央处理器可调用所述计算机程序,所述中央处理器执行所述计算机程序时实现如权利要求1-4中任一项所述的基于大数据量文件的关键字比对方法。
12.一种计算机存储介质,用于存储计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述的基于大数据量文件的关键字比对方法。
本发明涉及计算机领域及金融领域,具体涉及一种基于大数据量文件的关键字比对方法及装置。
注册登记系统负责为各类资管公司受理销售渠道交易申请,执行各类交易和计算,记录产品投资者份额权益及变动情况,并将最终确认结果回传给各销售商。对于多渠道接入的申请数据与最终交易后下发的确认数据之间,需要保证数据的一致性。现有系统在源数据落表后,确认数据导出前,基于数据库层进行申请与确认结果的数据核对,对核对一致的结果才予以导出。然而,基于数据库记录进行申请和确认的核对存在两个缺陷:
1)出于对交易处理效率和数据量的考虑,现有系统采用垂直拆分策略将申请数据和确认数据部署在不同的分库中,当涉及跨库数据的访问和比对时,需要将数据统一同步到读库中才能进行处理,增加了额外的开销;2)从申请文件接入到待确认文件下发的过程中,不仅要进行数据库中的信息处理,还要进行文件生成时的字段拼装和格式化等处理,这使得在数据库中记录核对通过时无法确保申请文件与待确认文件一一对应。
因此,急需一种基于大数据量文件进行关键字快速抓取比对的方法。
为了解决现有技术中存在的问题,本申请提供一种基于大数据量文件的关键字比对方法,涉及计算机领域和金融领域。该基于大数据量文件的关键字比对方法包括:
读取接收到的申请文件中的多个交易申请,并为每个交易申请生成唯一的申请单号;
根据所述交易申请的交易类型将所述多个交易申请以及对应的申请单号存储至对应的申请表中;
将申请表中的已被执行的交易申请以及对应的申请单号导出,得到待确认文件;
根据所述申请文件的名称、交易日期以及交易类型从申请表中筛选并导出需当日执行的交易申请以及对应的单号,得到目标文件;
比较所述待确认文件中包含的申请单号以及所述目标文件中包含的申请单号,得到未被执行的交易申请。
在一实施例中,所述将申请表中的已被执行的交易申请以及对应的申请单号导出,得到待确认文件,包括:
读取所述申请表中的交易申请的交易结果;
将交易结果为交易已执行的交易申请以及对应的申请单号按照预设格式导出,得到一待确认文件。
在一实施例中,所述比较所述待确认文件中包含的申请单号以及所述目标文件中包含的申请单号之前,还包括:
对所述待确认文件进行横向裁剪,截取所述待确认文件中需要比对的数据;
对所述待确认文件中需要比对的数据进行纵向裁剪,得到待确认文件中包含的核心字段;
所述核心字段包括申请单号。
在一实施例中,所述比较所述待确认文件中包含的申请单号以及所述目标文件中包含的申请单号之前,还包括:
对所述目标文件进行横向裁剪,截取所述目标文件中需要比对的数据;
对所述目标文件中需要比对的数据进行纵向裁剪,得到目标文件中包含的核心字段;
所述核心字段包括申请单号。
在一实施例中,所述比较所述待确认文件中包含的申请单号以及所述目标文件中包含的申请单号,得到未被执行的交易申请,包括:
根据所述待确认文件中包含的申请单号生成第一申请单号列表,根据所述目标文件中包含的申请单号生成第二申请单号列表;
分别对所述第一申请单号列表以及所述第二申请单号列表进行去重和排序处理;
比较处理后的第一申请单号列表和第二申请单号列表,提取仅包含在所述第二申请单号列表而未包含在所述第一申请单号列表中的申请单号;
从所述申请表中获取与提取的申请单号对应的交易申请。
本申请还提供一种基于大数据量文件的关键字比对装置,用于实现本申请提供的基于大数据量文件的关键字比对方法,包括:
交易申请读取模块,用于读取接收到的申请文件中的多个交易申请,并为每个交易申请生成唯一的申请单号;
交易申请存储模块,用于根据所述交易申请的交易类型将所述多个交易申请以及对应的申请单号存储至对应的申请表中;
待确认文件生成模块,用于将申请表中的已被执行的交易申请以及对应的申请单号导出,得到待确认文件;
目标文件生成模块,用于根据所述申请文件的名称、交易日期以及交易类型从申请表中筛选并导出需当日执行的交易申请以及对应的单号,得到目标文件;
交易申请筛选模块,用于比较所述待确认文件中包含的申请单号以及所述目标文件中包含的申请单号,得到未被执行的交易申请。
在一实施例中,所述待确认文件生成模块包括:
交易结果读取单元,用于读取所述申请表中的交易申请的交易结果;
交易申请导出单元,用于将交易结果为交易已执行的交易申请以及对应的申请单号按照预设格式导出,得到一待确认文件。
在一实施例中,所述基于大数据量文件的关键字比对装置还包括:
待确认文件裁剪模块,用于在比较所述待确认文件中包含的申请单号以及所述目标文件中包含的申请单号之前,对所述待确认文件进行横向裁剪,截取所述待确认文件中需要比对的数据;以及
对所述待确认文件中需要比对的数据进行纵向裁剪,得到待确认文件中包含的核心字段;
所述核心字段包括申请单号。
在一实施例中,所述基于大数据量文件的关键字比对装置还包括:
目标文件裁剪模块,用于在比较所述待确认文件中包含的申请单号以及所述目标文件中包含的申请单号之前,对所述目标文件进行横向裁剪,截取所述目标文件中需要比对的数据;以及
对所述目标文件中需要比对的数据进行纵向裁剪,得到目标文件中包含的核心字段;
所述核心字段包括申请单号。
在一实施例中,所述交易申请筛选模块包括:
申请单号筛选单元,用于根据所述待确认文件中包含的申请单号生成第一申请单号列表,根据所述目标文件中包含的申请单号生成第二申请单号列表;
申请单号处理单元,用于分别对所述第一申请单号列表以及所述第二申请单号列表进行去重和排序处理;
申请单号比对单元,用于比较处理后的第一申请单号列表和第二申请单号列表,提取仅包含在所述第二申请单号列表而未包含在所述第一申请单号列表中的申请单号;
交易申请筛选单元,用于从所述申请表中获取与提取的申请单号对应的交易申请。
本申请的基于大数据量文件的关键字比对方法及装置,解决了目标文件和待确认文件的差异比对问题,对提前发现和人工介入数据处理,避免错误数据下发,提供了技术基础。本发明提供的差异比对方法,不仅适用于差异结果生成,还支持抓取不同文件中的重复记录,适用于各种文件比对的场景。本发明的方法在实际实施过程中,对于文件大小在2G左右的文件进行处理时,在1分钟内即可生成比对结果,可在基本不影响原处理流程耗时的基础上,提高数据的可靠性。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为基于大数据量文件的关键字比对方法的示意图。
图2为得到待确认文件的方法示意图。
图3为得到目标文件的方法示意图。
图4为对待确认文件进行裁剪的方法示意图。
图5为对目标文件进行裁剪的方法示意图。
图6为得到未被执行的交易申请是方法示意图。
图7为基于大数据量文件的关键字比对装置的示意图。
图8为待确认文件生成模块的结构示意图。
图9为基于大数据量文件的关键字比对装置另一种的示意图。
图10为交易申请筛选模块的结构示意图。
图11为一种电子设备的示意图。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请提供一种基于大数据量文件的关键字比对方法,该方法的执行主体可以是一个文件比对子系统,该文件比对子系统与交易申请执行子系统为并列的系统,文件比对子系统用于接收申请文件、读取和存储申请文件中的交易申请以及向客户下发交易申请的交易结果,交易申请执行子系统则用于执行存储的交易申请,并存储对应的交易结果。
如图1所示,该基于大数据量文件的关键字比对方法包括以下步骤:
步骤S101,读取接收到的申请文件中的多个交易申请,并为每个交易申请生成唯一的申请单号。
其中,申请文件通常由客户(如各类资管公司)提交,一个申请文件中包含多条交易申请。
当接收到一个申请文件时,首先根据申请文件的提交时间、交易类型以及提交申请文件的客户等信息生成与该申请文件唯一对应的文件名;然后读取该申请文件中的各条交易申请记录,并分别为每条交易申请记录生成唯一对应的申请单号。可以理解的是,同一个申请文件中包含的各条交易申请的交易类型均相同。
实际中,交易申请可以为开户申请、认购申请等。
步骤S102,根据所述交易申请的交易类型将所述多个交易申请以及对应的申请单号存储至对应的申请表中。
其中,申请表存储于数据库中,上述申请表指的与申请文件中的各条交易申请的交易类型对应的申请表。实际上,数据库中还包含多个与其他交易类型对应的申请表,每个申请表用于存储不同类型的交易申请记录。
当接收到申请文件并读取到申请文件中的每一个交易申请后,根据交易申请的交易类型唯一确定一个申请表,然后将各交易申请的信息全部记录到对应的申请表中。其中,申请表中对应存储各交易申请的申请单号(步骤S101中生成)以及交易申请的来源文件名,即交易申请所在的申请文件的文件名。
步骤S103,将申请表中的已被执行的交易申请以及对应的申请单号导出,得到待确认文件。
步骤S102完成后,数据库的申请表中存储的交易申请记录除各交易申请的信息外,还包括交易申请对应的申请单号以及来源文件名。用于执行各交易申请的系统(交易执行子系统)读取申请表中的交易记录并执行。执行完毕后返回对应的交易结果,存储至申请表。因此,已被执行的交易申请的记录中还包括交易结果,未被执行的交易申请的记录中不包含交易结果。
如图2所示,得到待确认文件的具体步骤为:
S1031,读取所述申请表中的交易申请的交易结果;
S1032,将交易结果为交易已执行的交易申请以及对应的申请单号按照预设格式导出,得到一待确认文件。
待确认文件作为反馈给客户的交易结果文件,包括已执行的交易申请的信息、对应的申请单号和交易结果。因此,步骤S103从申请表中筛选出存在交易结果的交易申请,并将相关信息按照客户要求的格式导出,得到待确认文件。不同的客户可能有不同的导出格式要求。
为了确保待确认文件中反馈的交易申请包含用户提交的申请文件中的全部交易申请,在下发该待确认文件之前,需要进行核实,以免遗漏交易申请。
步骤S104,根据所述申请文件的名称、交易日期以及交易类型从申请表中筛选并导出需当日执行的交易申请以及对应的单号,得到目标文件。
该步骤S104即为生成与步骤S103生成的待确认文件进行比对的目标文件。步骤S103的待确认文件仅包含申请文件中已被执行的交易申请的信息以及对应的申请单号和交易结果。而实际中需要向客户反馈的是申请文件中包含的需当日执行的全部交易申请。因此目标文件中应包含申请文件中需当日执行的全部交易申请的信息。
如图3所示,得到目标文件的具体步骤为:
步骤S1041,通过申请文件的交易类型从数据库中确定存储有该申请文件中的各交易申请的信息的申请表;
步骤S1042,使用申请文件的名称对步骤S1041确定出的申请表中各交易申请的来源文件名进行筛选,得到该申请文件中包含的全部交易申请;
步骤S1043,使用当日日期对步骤S1042得到的交易申请的交易日期进行筛选,得到申请文件中需当日执行的全部交易申请。
步骤S105,比较所述待确认文件中包含的申请单号以及所述目标文件中包含的申请单号,得到未被执行的交易申请。
具体地,获取步骤S103中生成的待确认文件中各交易申请的申请单号,同时获取步骤S104中生成的目标文件中各交易申请的申请单号,然后比较两组申请单号,确定包含在目标文件中同时未包含在待确认文件中的申请单号,即为需当日执行而未被执行的交易申请对应的申请单号。
本申请的基于大数据量文件的关键字比对方法解决了目标文件和待确认文件的差异比对问题,对提前发现和人工介入数据处理,避免错误数据下发,提供了技术基础。本发明的方法在实际实施过程中,对文件大小在2G左右的文件进行处理时,在1分钟内即可生成比对结果,可在基本不影响原处理流程耗时的基础上,提高数据的可靠性。
本发明提供的差异比对方法,不仅适用于差异结果生成,还支持抓取不同文件中的重复记录,适用于各种文件比对的场景。具体实施时,仅需根据实际需求改变待确认文件和目标文件中的交易申请的筛选条件即可。
在一实施例中,如图4所示,在步骤S105,比较所述待确认文件中包含的申请单号以及所述目标文件中包含的申请单号之前,还包括:
步骤S401,对所述待确认文件进行横向裁剪,截取所述待确认文件中需要比对的数据;
步骤S402,对所述待确认文件中需要比对的数据进行纵向裁剪,得到待确认文件中包含的核心字段;所述核心字段包括申请单号;
具体地,每个交易申请的信息通常包含多个字段,而每个字段中又包含有多项信息。以交易申请的申请单号为例,首先对待确认文件进行横向裁剪截取出包含申请单号在内的部分数据,此时待确认文件中的文件头等文件附属信息被裁掉(文件头等文件附属信息不作为比对信息)。然后对横向裁剪截取出包含申请单号在内的部分数据进行纵向裁剪,即可得到各交易申请对应的申请单号。
同理,在步骤S105,比较所述待确认文件中包含的申请单号以及所述目标文件中包含的申请单号之前,还包括对目标文件进行裁剪以获取目标文件中包含的申请单号,具体步骤参见图5:
步骤S501,对所述目标文件进行横向裁剪,截取所述目标文件中需要核对的数据;
步骤S502,对所述目标文件中需要核对的数据进行纵向裁剪,得到目标文件中包含的申请单号。
图4和图5对应的实施例分别对待确认文件和目标文件进行裁剪,得到交易申请对应的申请单号。另外,当基于LINUX系统的指令实现上述裁剪过程时,可调用sed命令实现横向裁剪文件,调用cut命令实现纵向裁剪文件。图4与图5中的步骤的执行顺序不分先后,也即,在一实施例中,图1的步骤S104执行完毕后,先执行图4中的步骤S401和步骤S402,再执行图5中的步骤S501和步骤S502,最后执行图1的步骤S105;在另一实施例中,还可以是图1的步骤S104执行完毕后,先执行图5中的步骤S501和步骤S502,再执行图4中的步骤S401和步骤S402,最后执行图1的步骤S105。
可以理解的是,实际中,待确认文件和目标文件中包含的交易申请的信息有多项,若全部比对则会因数据量过大而增加数据处理时间,影响系统效率,同时,并非每一项信息都能唯一代表一个交易申请。因此,仅选择部分信息进行比对即可。上述实施例给出了获取待确认文件以及目标文件中的申请单号的方法。由于每个交易申请包含的申请单号都是唯一的,通过申请单号可以唯一确定一个交易申请,因此,本实施例选择将申请单号作为比对信息。实际应用时,也可选择其他的可唯一代表一个交易申请的信息作为比对信息。本实施例不是对本申请的限制。
在一实施例中,如图6所示,步骤S105,比较所述待确认文件中包含的申请单号以及所述目标文件中包含的申请单号,得到未被执行的交易申请,具体包括以下步骤:
步骤S1051,根据所述待确认文件中包含的申请单号生成第一申请单号列表,根据所述目标文件中包含的申请单号生成第二申请单号列表。
步骤S1052,分别对所述第一申请单号列表以及所述第二申请单号列表进行去重和排序处理。
当基于LINUX系统的指令时,可调用sort命令实现去重,调用uniq命令实现排序。
步骤S1053,比较处理后的第一申请单号列表和第二申请单号列表,提取仅包含在所述第二申请单号列表而未包含在所述第一申请单号列表中的申请单号。
当基于LINUX系统的指令时,可调用comm命令实现差集提取,当参数指令不同时,提取的申请单号也不同。例如,本实施例可通过参数指令-23提取仅包含在所述第二申请单号列表而未包含在所述第一申请单号列表中的申请单号。
改变参数时,还可通过调用comm命令实现仅包含在所述第一申请单号列表而未包含在所述第二申请单号列表中的申请单号;或者第一申请单号列表与第二申请单号列表中均存在的申请单号,等等。
步骤S1054,从所述申请表中获取与提取的申请单号对应的交易申请。
其中,与提取的申请单号对应的交易申请即为需当日执行但未执行的交易申请。
本申请在向客户反馈交易申请的待确认文件之前,通过重新在数据库中筛选客户提交的申请文件中需当日执行的交易申请,与待确认文件中包含的交易申请进行比对,可避免待确认文件中遗漏交易申请。得到需当日执行而未被执行的交易申请后,可联动交易申请执行子系统执行该交易申请,直至目标文件中包含的申请单号全部包含在待确认文件中。本申请的基于大数据量文件的关键字比对方法解决了目标文件和待确认文件的差异比对问题,对提前发现和人工介入数据处理,避免错误数据下发,提供了技术基础。
基于同一发明构思,本申请实施例还提供了一种基于大数据量文件的关键字比对装置,可以用于实现上述实施例所描述的方法,如下面的实施例所述。由于基于大数据量文件的关键字比对装置解决问题的原理与基于大数据量文件的关键字比对装置相似,因此基于大数据量文件的关键字比对装置的实施可以参见基于大数据量文件的关键字比对方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
如图7所示,本申请提供的基于大数据量文件的关键字比对装置,用于实现本申请提供的基于大数据量文件的关键字比对方法,该装置包括:
交易申请读取模块701,用于读取接收到的申请文件中的多个交易申请,并为每个交易申请生成唯一的申请单号;
交易申请存储模块702,用于根据所述交易申请的交易类型将所述多个交易申请以及对应的申请单号存储至对应的申请表中;
待确认文件生成模块703,用于将申请表中的已被执行的交易申请以及对应的申请单号导出,得到待确认文件;
目标文件生成模块704,用于根据所述申请文件的名称、交易日期以及交易类型从申请表中筛选并导出需当日执行的交易申请以及对应的单号,得到目标文件;
交易申请筛选模块705,用于比较所述待确认文件中包含的申请单号以及所述目标文件中包含的申请单号,得到未被执行的交易申请。
在一实施例中,如图8所示,所述待确认文件生成模块703包括:
交易结果读取单元7031,用于读取所述申请表中的交易申请的交易结果;
交易申请导出单元7032,用于将交易结果为交易已执行的交易申请以及对应的申请单号按照预设格式导出,得到一待确认文件。
在一实施例中,如图9所示,所述基于大数据量文件的关键字比对装置还包括待确认文件裁剪模块706和目标文件裁剪模块707。
其中,待确认文件裁剪模块706用于在比较所述待确认文件中包含的申请单号以及所述目标文件中包含的申请单号之前,对所述待确认文件进行横向裁剪,截取所述待确认文件中需要比对的数据;以及对所述待确认文件中需要比对的数据进行纵向裁剪,得到待确认文件中包含的核心字段;所述核心字段包括申请单号。
目标文件裁剪模块707用于在比较所述待确认文件中包含的申请单号以及所述目标文件中包含的申请单号之前,对所述目标文件进行横向裁剪,截取所述目标文件中需要比对的数据;以及对所述目标文件中需要比对的数据进行纵向裁剪,得到目标文件中包含的核心字段;所述核心字段包括申请单号。
在一实施例中,如图10所示,所述交易申请筛选模块705包括:
申请单号筛选单元7051,用于根据所述待确认文件中包含的申请单号生成第一申请单号列表,根据所述目标文件中包含的申请单号生成第二申请单号列表;
申请单号处理单元7052,用于分别对所述第一申请单号列表以及所述第二申请单号列表进行去重和排序处理;
申请单号比对单元7053,用于比较处理后的第一申请单号列表和第二申请单号列表,提取仅包含在所述第二申请单号列表而未包含在所述第一申请单号列表中的申请单号;
交易申请筛选单元7054,用于从所述申请表中获取与提取的申请单号对应的交易申请。
本申请的基于大数据量文件的关键字比对方法及装置,解决了目标文件和待确认文件的差异比对问题,对提前发现和人工介入数据处理,避免错误数据下发,提供了技术基础。本发明提供的差异比对方法,不仅适用于差异结果生成,还支持抓取不同文件中的重复记录,适用于各种文件比对的场景。本发明的方法在实际实施过程中,对文件大小2G左右的文件进行处理时,在1分钟内即可生成比对结果,可在基本不影响原处理流程耗时的基础上,提高数据的可靠性。
本发明还提供一种包括上述实施例中的基于大数据量文件的关键字比对装置的电子设备,参见图11,所述电子设备100具体包括:
中央处理器(processor)110、存储器(memory)120、通信模块(Communications)130、输入单元140、输出单元150以及电源160。
其中,所述存储器(memory)120、通信模块(Communications)130、输入单元140、输出单元150以及电源160分别与所述中央处理器(processor)110相连接。所述存储器120中存储有计算机程序,所述中央处理器110可调用所述计算机程序,所述中央处理器110执行所述计算机程序时实现上述实施例中的基于大数据量文件的关键字比对方法中的全部步骤。
本申请的实施例还提供一种计算机存储介质,用于存储计算机程序,所述计算机程序可被处理器执行。所述计算机程序被处理器执行时实现本发明所提供的任一基于大数据量文件的关键字比对方法。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于硬件+程序类实施例以及系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。虽然本说明书实施例提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。以上所述仅为本说明书实施例的实施例而已,并不用于限制本说明书实施例。对于本领域技术人员来说,本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书实施例的权利要求范围之内。
本文发布于:2023-04-13 02:47:49,感谢您对本站的认可!
本文链接:https://patent.en369.cn/patent/3/85740.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |