G06F16/215 G06F16/25
1.一种定时处理零售行业非公开大数据的方法,其特征是,包括如下步骤:
步骤一、数据申请方向数据提供方提出数据获取申请,申请获准后取得对应的密钥信息和数据字典,并使用密钥信息注册需要获取数据的机器,数据提供方对机器进行认证;
步骤二、数据提供方向数据申请方发送数据下载接口,数据申请利用认证通过后的机器调用数据下载接口每天定时侦听是否有数据下达;
步骤三、当天侦听到有数据下达后开始自动下载并传输至数据申请方;
步骤四、通过自动解压程序对下载的数据文件进行解压,通过转换程序读取解压后的数据文件,并转换成能够兼容DB2数据的sql脚本,将sql脚本导入预先构建的DB2数据库执行,得到DB2的最新数据;
步骤五、利用ETL工具读取导入DB2的最新数据,对照数据字典中的数据进行脏数据、空数据清洗;对清洗后的数据进行字段信息转换,然后将转换后的数据信息汇总到预先构建的数据申请方数据平台中。
2.根据权利要求1所述的一种定时处理零售行业非公开大数据的方法,其特征是,所述步骤一中,数据申请方用非对称加密算法对密钥进行加密存储在磁盘中。
3.根据权利要求1所述的一种定时处理零售行业非公开大数据的方法,其特征是,所述步骤二中,数据下载接口通过定时器轮循的方式调用。
4.根据权利要求1所述的一种定时处理零售行业非公开大数据的方法,其特征是,所述步骤三中:通过配置好口令的SFTP服务将数据传输至数据申请方。
5.根据权利要求1所述的一种定时处理零售行业非公开大数据的方法,其特征是,所述步骤二中,数据申请方的机器认证需在规定时间内完成,过期前数据提供方向相应的数据申请方发送告警消息。
6.根据权利要求1所述的一种定时处理零售行业非公开大数据的方法,其特征是,所述步骤二中,当全天没有侦听到数据下达时,向数据申请方人员发送告警消息。
7.根据权利要求1所述的一种定时处理零售行业非公开大数据的方法,其特征是,所述步骤三中,当侦听到数据下达后但数据下载报错时向数据申请方发送告警消息,同时重新尝试发起数据下载处理流程;所述步骤四中解压过程报错时,向数据申请方发送告警消息,同时重新尝试发起解压数据处理流程;所述步骤五中导入过程报错时,向数据申请方发送告警消息,同时重新尝试发起导入数据处理流程。
8.根据权利要求1所述的一种定时处理零售行业非公开大数据的方法,其特征是,所述步骤五中,当侦听并下载解压后的数据文件在校验时出现某些字段数据异常或为空时,向数据申请方发送告警消息。
9.一种存储一个或多个程序的计算机可读存储介质,其特征在于:所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据权利要求1至8所述的方法中的任一方法。
10.一种计算设备,其特征在于,包括:
一个或多个处理器、一个或多个存储器以及一个或多个程序,其中一个或多个程序存储在所述一个或多个存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1至8所述的方法中的任一方法的指令。
一种定时处理零售行业非公开大数据的方法
技术领域
本发明涉及大数据处理相关技术领域,尤其是指一种定时处理零售行业非公开大数据的方法。
背景技术
随着数据成为企业资产,某些行业各单位开始或初步完成了内部数据平台的建设。企业外部的数据也越来越多地需要整合到企业内部,尤其是行业内的各种相关数据。但外部数据中存在某些非公开的数据,只能提供给行业内特定范围内的单位。如在集团按区域代理的行业中,全国零售户每天的销售数据,只能每天收集全国零售户的零售数据,然后进行汇总加工后向行业内的各家单位开放,各单位拿到行业数据后,与企业其他数据整合到一起进行加工使用。
由于行业内相关数据比较敏感以及出于其他安全因素考虑,数据提供方不允许对方直接通过传统的ETL工具直接对接获取数据,需要通过申请,获得许可后方可获得数据接口访问的权限。而且由于全国零售户众多,每天的零售数据量大,只能以压缩包的形式对外提供接口服务。传统的ETL工具只能从数据库或者指定的文件中获取数据,不能有效处理压缩包数据,使得ETL工具的在此场景下效果很差。当前尚没有对相关行业内非公开大数据进行定时处理的方法。
发明内容
本发明提供了一种定时处理零售行业非公开大数据的方法,解决了背景技术中披露的问题。
为了解决上述技术问题,本发明所采用的技术方案是:一种定时处理零售行业非公开大数据的方法,包括如下步骤:
步骤一、数据申请方向数据提供方提出数据获取申请,申请获准后取得对应的密钥信息和数据字典,并使用密钥信息注册需要获取数据的机器,数据提供方对机器进行认证;
步骤二、数据提供方向数据申请方发送数据下载接口,数据申请利用认证通过后的机器调用数据下载接口每天定时侦听是否有数据下达;
步骤三、当天侦听到有数据下达后开始自动下载并传输至数据申请方;
步骤四、通过自动解压程序对下载的数据文件进行解压,通过转换程序读取解压后的数据文件,并转换成能够兼容DB2数据的sql脚本,将sql脚本导入预先构建的DB2数据库执行,得到DB2的最新数据;
步骤五、利用ETL工具读取导入DB2的最新数据,对照数据字典中的数据进行脏数据、空数据清洗;对清洗后的数据进行字段信息转换,然后将转换后的数据信息汇总到预先构建的数据申请方数据平台中。
进一步地,所述步骤一中,数据申请方用非对称加密算法对密钥进行加密存储在磁盘中。
进一步地,所述步骤二中,数据下载接口通过定时器轮循的方式调用。
进一步地,所述步骤三中:通过配置好口令的SFTP服务将数据传输至数据申请方。
进一步地,所述步骤二中,数据申请方的机器认证需在规定时间内完成,过期前数据提供方向相应的数据申请方发送告警消息。
进一步地,所述步骤二中,当全天没有侦听到数据下达时,向数据申请方人员发送告警消息。
进一步地,所述步骤三中,当侦听到数据下达后但数据下载报错时向数据申请方发送告警消息,同时重新尝试发起数据下载处理流程;所述步骤四中解压过程报错时,向数据申请方发送告警消息,同时重新尝试发起解压数据处理流程;所述步骤五中导入过程报错时,向数据申请方发送告警消息,同时重新尝试发起导入数据处理流程。
进一步地,所述步骤五中,当侦听并下载解压后的数据文件在校验时出现某些字段数据异常或为空时,向数据申请方发送告警消息。
相应地,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据上述的方法中的任一方法。
相应地,一种计算设备,包括:
一个或多个处理器、一个或多个存储器以及一个或多个程序,其中一个或多个程序存储在所述一个或多个存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1至8所述的方法中的任一方法的指令。
本发明所达到的有益效果:按照设定的周期定时自动侦听、下载、解压以及导入相应的压缩数据包,有效处理压缩包数据,使得ETL工具的在此场景下效果得到显著提升。
具体实施方式
下面结合对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本发明的一种定时处理非公开零售大数据的方法,具体包括如下步骤:
(1)数据申请方(各工商企业)向数据提供方(专卖局)提出零售户数据获取申请,申请获准后取得对应的密钥信息和零售户数据的数据字典,并使用密钥注册需要获取数据的机器;需要按照一定的时间周期(一般是一个月),数据申请方定时申请密钥,同时用非对称加密算法对密钥进行加密存储在磁盘中,并在多个机器进行备份。
(2)认证通过后的机器调用数据提供方返回的数据下载接口,每天定时侦听是否有数据下达;具体为:通过定时器轮循的方式调用接口,判断接口是否含有内容,以及内容是否已经下载。
(3)当天侦听到有数据下达后开始自动下载,下载完后传输到指定企业内部文件夹;具体为:首先下载到获取数据的机器的文件目录,通过配置好口令的SFTP服务,上传企业内部文件夹中。
(4)通过自动解压程序对下载的数据文件进行解压,根据解压后的数据文件类型DB2导入到对应的DB2数据库;具体为:利用程序中的解压程序对文件进行解压,然后通过转换程序读取文件的内容转换成能够兼容DB2数据的sql脚本,导入DB2执行即可。
(5)对照零售户数据的数据字典,通过ETL工具校验后,将标注日期的数据文件集成到企业内部数据平台。具体为:ETL读取导入DB2的最新数据,对照零售户数据字典中的数据进行脏数据、空数据清洗;字段信息转换然后汇总数据信息到平台中。
其中:
当数据申请方自动处理数据的机器认证过期前两天,向相应的数据申请方人员发送告警消息,由数据申请方人员重新申请密钥。
当全天没有侦听到数据下达时,向相应的数据申请方人员发送告警消息,由数据申请方人员去核实当天零售数据没有下达的原因。
当侦听到数据下达后但数据下载、解压或者导入过程报错时,向相应的数据申请方人员发送告警消息,同时重新尝试发起数据下载、解压和导入数据处理流程。
当侦听并下载解压后的数据文件在校验时出现某些字段数据异常或为空时,向相应的数据申请方人员发送告警消息,由数据申请方人员去核实部分数据内容出现问题的原因。
如果出现由于数据提供方的原因,当天没有下发数据给数据申请方,而后续有超过一天的数据补充下达时,数据申请方自动下载并解压包含多天的压缩数据文件后,解析出每天对应的零售数据,检查其中是否已经包含了之前没有数据下达的日期;如果还是存在某天没有数据下达,向相应的数据申请方人员发送告警消息,同时通过ETL工具校验后,将标注日期的数据文件集成到企业内部数据平台。
通过上述方法的设计,通过数据申请方的申请获得许可后方可获得数据接口访问的权限,而通过密钥的设计实现接受数据的机器授权,而该授权的机器能够按照设定的周期定时自动侦听、下载、解压以及导入相应的压缩数据包,而传统的ETL工具直接从授权机器的数据库或者指定的文件中获取数据,即可有效处理压缩包数据。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行一种定时处理非公开零售大数据的方法。
一种计算设备,包括一个或多个处理器、一个或多个存储器以及一个或多个程序,其中一个或多个程序存储在所述一个或多个存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行一种定时处理非公开零售大数据的方法的指令。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅为本发明的实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均包含在申请待批的本发明的权利要求范围之内。
本文发布于:2023-04-13 20:08:48,感谢您对本站的认可!
本文链接:https://patent.en369.cn/patent/4/86075.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |