G06F16/25 G06F16/36 G06F21/44 G06F21/60 G06F11/14
1.一种定时处理烟草行业非公开零售大数据的方法,其特征在于,包括以下步骤:
(1)数据申请方向数据提供方提出卷烟零售户数据获取申请,申请获准后获取数据提供方反馈的密钥信息和卷烟零售户数据的数据字典,并使用密钥信息注册需要获取卷烟零售户数据的机器;
(2)注册认证通过的机器调用数据提供方返回的数据下载接口,每天定时侦听是否有卷烟零售户数据下达,当侦听到有卷烟零售户数据下达后开始自动下载,下载完后传输到指定企业内部文件夹;
(3)通过自动解压程序对企业内部文件夹的数据文件进行解压,根据解压后的数据文件类型导入到对应的数据库;
(4)对照卷烟零售户数据的数据字典,通过ETL工具校验后,将标注日期的数据库中数据文件集成到企业内部数据平台。
2.根据权利要求1所述的定时处理烟草行业非公开零售大数据的方法,其特征在于,步骤(1)中,数据申请方按照一定的时间周期定时申请密钥信息,同时采用非对称加密算法对密钥信息进行加密存储在磁盘中,并在多个机器进行备份。
3.根据权利要求1所述的定时处理烟草行业非公开零售大数据的方法,其特征在于,步骤(2)中,通过定时器轮循的方式调用数据提供方返回的数据下载接口,并判断数据下载接口是否含有内容,以及内容是否已经下载。
4.根据权利要求1所述的定时处理烟草行业非公开零售大数据的方法,其特征在于,步骤(2)中,当数据申请方自动处理卷烟零售户数据的机器认证过期前两天,向相应的数据申请方发送告警消息,以提醒数据申请方重新申请密钥信息。
5.根据权利要求1所述的定时处理烟草行业非公开零售大数据的方法,其特征在于,步骤(2)中,当机器全天没有侦听到卷烟零售户数据下达时,向相应的数据申请方发送告警消息,以提醒数据申请方去核实当天卷烟零售户数据没有下达的原因。
6.根据权利要求1所述的定时处理烟草行业非公开零售大数据的方法,其特征在于,步骤(2)中,当侦听到有卷烟零售数据下达后开始自动下载,卷烟零售数据被下载到机器的文件目录,通过配置好口令的SFTP服务,上传到指定企业内部文件夹。
7.根据权利要求1所述的定时处理烟草行业非公开零售大数据的方法,其特征在于,步骤(4)中,ETL工具读取导入数据文件类型DB2的最新数据,对照卷烟零售户数据的数据字典中,对最新数据进行脏数据、空数据清洗和字段信息转换后,汇总数据到企业内部数据平台中。
8.根据权利要求1所述的定时处理烟草行业非公开零售大数据的方法,其特征在于,当侦听到卷烟零售户数据下达后但数据下载、解压或者导入过程报错时,向相应的数据申请方发送告警消息,同时重新尝试发起数据下载、解压和导入数据处理流程。
9.根据权利要求1所述的定时处理烟草行业非公开零售大数据的方法,其特征在于,当侦听并下载解压后的数据文件在校验时出现某些字段数据异常或为空时,向相应的数据申请方发送告警消息,以提醒数据申请方去核实部分数据内容出现问题的原因。
10.根据权利要求1所述的定时处理烟草行业非公开零售大数据的方法,其特征在于,如果出现由于数据提供方的原因,当天没有下发卷烟零售户数据给数据申请方,而后续有超过一天的数据补充下达时,数据申请方自动下载并解压包含多天的压缩数据文件后,解析出每天对应的卷烟零售户数据,检查其中是否已经包含了之前没有数据下达的日期;如果还是存在某天没有数据下达,向相应的数据申请发送告警消息,同时通过ETL工具校验后,将标注日期的数据文件集成到企业内部数据平台。
本发明属于大数据处理相关技术领域,具体涉及一种定时处理烟草行业非公开零售大数据的方法。
随着数据成为企业资产,烟草行业各单位开始或初步完成了内部数据平台的建设。企业外部的数据也越来越多地需要整合到企业内部,尤其是行业内的各种相关数据。但外部数据中存在某些非公开的数据,只能提供给行业内特定范围内的单位。如烟草行业全国卷烟零售户的每天的销售数据,只能由国家局每天收集全国卷烟零售户的零售数据。然后国家局汇总加工后向行业内的各家单位开放,各工商单位拿到行业数据后,与企业其他数据整合到一起进行加工使用。
由于烟草行业内相关数据比较敏感以及出于其他安全因素考虑,数据提供方烟草总公司不允许对方直接通过传统的ETL工具直接对接获取数据,需要通过申请,获得许可后方可获得数据接口访问的权限。而且由于全国卷烟零售户众多,每天的零售数据量大,只能以压缩包的形式对外提供接口服务。传统的ETL工具只能从数据库或者指定的文件中获取数据,不能有效处理压缩包数据,使得ETL工具的在此场景下效果很差。当前尚没有对相关行业内非公开大数据进行定时处理的方法。
公开号为CN109359146A的专利申请公开了一种自动化ETL数据处理工具及其使用方法,包括数据抽取模块、数据转换模块、任务创建模块、数据加载模块、数据存储模块和数据输出模块;所述的数据抽取模块与数据转换模块连接,所述的数据转换模块与任务创建模块连接,所述任务创建模块与数据加载模块连接,所述数据加载模块与数据输出模块连接,所述数据抽取模块、数据转换模块、任务创建模块、数据加载模块均与数据存储模块连接,可减少频繁地导入导出ETL工具降低处理速度的情况,但是不能实现对非公开零售大数据的处理以及有效解压。
公开号为CN113312416A的专利申请公开了一种跨数据中心的ETL工具,包括任务调度模块、数据清洗模块、上传模块和存储模块,其中:所述任务调度模块,用于创建需要清洗的任务,并将任务存储在第一数据中心的数据库中;所述数据清洗模块,获取第一数据中心的数据库中需要清洗的任务的计划,拆分任务中的结构化数据和非结构化数据;所述上传模块,用于获取任务中结构化数据推送到第一数据中心的redis队列中进行清洗和入库,用于获取任务中的非结构化数据推送到第二数据中心的redis队列中进行清洗;所述存储模块,用于获取第二数据中心清洗的数据存储到第三数据中心的数据库,该工具不能实现对非公开零售大数据的处理以及有效解压。
为了克服现有技术中存在上述的不足,本发明提供了一种定时处理烟草行业非公开零售大数据的方法,该方法能够有效处理压缩数据包,使得ETL工具在此场景下效果得到了大大的提升。
本发明提供的技术方案为:
一种定时处理烟草行业非公开零售大数据的方法,包括以下步骤:
(1)数据申请方向数据提供方提出卷烟零售户数据获取申请,申请获准后获取数据提供方反馈的密钥信息和卷烟零售户数据的数据字典,并使用密钥信息注册需要获取卷烟零售户数据的机器;
(2)注册认证通过后的机器调用数据提供方返回的数据下载接口,每天定时侦听是否有卷烟零售数据下达,当侦听到有卷烟零售数据下达后开始自动下载,下载完后传输到指定企业内部文件夹;
(3)通过自动解压程序对企业内部文件夹的数据文件进行解压,根据解压后的数据文件类型导入到对应的数据库;
(4)对照卷烟零售户数据的数据字典,通过ETL工具校验后,将标注日期的数据库中数据文件集成到企业内部数据平台。
实施例提供的定时处理烟草行业非公开零售大数据的方法中,通过数据申请房的申请获得许可后方可获得数据接口访问的权限,而通过密钥的设计实现接受数据的机器授权,而该授权的机器能够按照设定的周期定时自动侦听、下载、解压以及导入相应的压缩数据包,而传统的ETL工具直接从授权机器的数据库或者指定的文件中获取数据,即可有效处理压缩包数据,使得ETL工具的在此场景下效果得到了大大的提升。
优选地,步骤(1)中,数据申请方按照一定的时间周期定时申请密钥信息,同时采用非对称加密算法对密钥信息进行加密存储在磁盘中,并在多个机器进行备份。
优选地,步骤(2)中,通过定时器轮循的方式调用数据提供方返回的数据下载接口,并判断数据下载接口是否含有内容,以及内容是否已经下载。
优选地,步骤(2)中,当数据申请方自动处理卷烟零售户数据的机器认证过期前两天,向相应的数据申请方发送告警消息,以提醒数据申请方重新申请密钥信息。
优选地,步骤(2)中,当机器全天没有侦听到卷烟零售户数据下达时,向相应的数据申请方发送告警消息,以提醒数据申请方去核实当天卷烟零售户数据没有下达的原因。
优选地,步骤(2)中,当侦听到有卷烟零售数据下达后开始自动下载,卷烟零售数据被下载到机器的文件目录,通过配置好口令的SFTP服务,上传到指定企业内部文件夹。
优选地,步骤(4)中,ETL工具读取导入数据文件类型DB2的最新数据,对照卷烟零售户数据的数据字典中,对最新数据进行脏数据、空数据清洗和字段信息转换后,汇总数据到企业内部数据平台中。
优选地,当侦听到卷烟零售户数据下达后但数据下载、解压或者导入过程报错时,向相应的数据申请方发送告警消息,同时重新尝试发起数据下载、解压和导入数据处理流程。
优选地,当侦听并下载解压后的数据文件在校验时出现某些字段数据异常或为空时,向相应的数据申请方发送告警消息,以提醒数据申请方去核实部分数据内容出现问题的原因。
优选地,如果出现由于数据提供方的原因,当天没有下发卷烟零售户数据给数据申请方,而后续有超过一天的数据补充下达时,数据申请方自动下载并解压包含多天的压缩数据文件后,解析出每天对应的卷烟零售户数据,检查其中是否已经包含了之前没有数据下达的日期;如果还是存在某天没有数据下达,向相应的数据申请发送告警消息,同时通过ETL工具校验后,将标注日期的数据文件集成到企业内部数据平台。
本发明具有的有益效果至少包括:
上述实施例提供的定时处理烟草行业非公开零售大数据的方法,能够按照设定的周期定时自动侦听、下载、解压以及导入相应的压缩数据包,即可有效处理压缩包数据,使得ETL工具的在此场景下效果得到了大大的提升。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是一实施例提供的定时处理烟草行业非公开零售大数据的方法的流程图。
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
图1是一实施例提供的定时处理烟草行业非公开零售大数据的方法的流程图。如图1所示,实施例提供的定时处理烟草行业非公开零售大数据的方法,包括以下步骤:
步骤1,数据申请方向数据提供方提出卷烟零售户数据获取申请,申请获准后获取数据提供方反馈的密钥信息和卷烟零售户数据的数据字典,并使用密钥信息注册需要获取卷烟零售户数据的机器。
实施例中,数据申请方为烟草各工商企业,数据提供方为国家烟草专卖局。即烟草各工商企业向国家烟草专卖局提出卷烟零售户数据获取申请,经过国家烟草专卖局获取批准之后,国家烟草专卖局反馈密钥信息和卷烟零售户数据的数据字典给烟草各工商企业,烟草各工商企业采用密钥信息注册需要获取数据的机器。
实施例中,烟草各工商企业需要按照一定的时间周期(一般是一个月),定时申请密钥,同时采用非对称加密算法对密钥进行加密存储在磁盘中,并在多个机器进行备份。
实施例中,当数据申请方自动处理卷烟零售户数据的机器认证过期前两天,向相应的数据申请方发送告警消息,以提醒数据申请方重新申请密钥信息。
步骤2,注册认证通过的机器调用数据提供方返回的数据下载接口,每天定时侦听是否有卷烟零售户数据下达,当侦听到有卷烟零售户数据下达后开始自动下载,下载完后传输到指定企业内部文件夹。
实施例中,注册认证通过的机器通过定时器轮循的方式调用数据提供方返回的数据下载接口,判断数据下载接口是否含有内容,以及内容是否已经下载。当判断有内容时即可以是进行自动下载,首先下载到获取数据的机器的文件目录,通过配置好口令的SFTP服务,上传企业内部文件夹中。
实施例中,当机器全天没有侦听到卷烟零售户数据下达时,向相应的数据申请方发送告警消息,以提醒数据申请方去核实当天卷烟零售户数据没有下达的原因。
步骤3,通过自动解压程序对企业内部文件夹的数据文件进行解压,根据解压后的数据文件类型导入到对应的数据库。
实施例中,通过自动解压程序对下载的数据文件进行解压,根据解压后的数据文件类型DB2导入到对应的DB2数据库;具体为:利用程序中的解压程序对文件进行解压,然后通过转换程序读取文件的内容转换成能够兼容DB2数据的sql脚本,导入DB2执行即可。
步骤4,对照卷烟零售户数据的数据字典,通过ETL工具校验后,将标注日期的数据库中数据文件集成到企业内部数据平台。
实施例中,ETL工具读取导入DB2的最新数据,对照零售户数据字典中的数据进行脏数据、空数据清洗;字段信息转换然后汇总数据信息到企业内部数据平台中。
ETL是Extract-Transform-Load的缩写,用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
上述定时处理烟草行业非公开零售大数据的方法中,当侦听到数据下达后但数据下载、解压或者导入过程报错时,向相应的数据申请方人员发送告警消息,同时重新尝试发起数据下载、解压和导入数据处理流程。
上述定时处理烟草行业非公开零售大数据的方法中,当侦听并下载解压后的数据文件在校验时出现某些字段数据异常或为空时,向相应的数据申请方人员发送告警消息,由数据申请方人员去核实部分数据内容出现问题的原因。
上述定时处理烟草行业非公开零售大数据的方法中,如果出现由于数据提供方的原因,当天没有下发数据给数据申请方,而后续有超过一天的数据补充下达时,数据申请方自动下载并解压包含多天的压缩数据文件后,解析出每天对应的零售数据,检查其中是否已经包含了之前没有数据下达的日期;如果还是存在某天没有数据下达,向相应的数据申请方人员发送告警消息,同时通过ETL工具校验后,将标注日期的数据文件集成到企业内部数据平台。
上述定时处理烟草行业非公开零售大数据的方法中,通过数据申请方的申请获得许可后方可获得数据接口访问的权限,而通过密钥的设计实现接受数据的机器授权,而该授权的机器能够按照设定的周期定时自动侦听、下载、解压以及导入相应的压缩数据包,而传统的ETL工具直接从授权机器的数据库或者指定的文件中获取数据,即可有效处理压缩包数据。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。
本文发布于:2023-04-14 03:13:12,感谢您对本站的认可!
本文链接:https://patent.en369.cn/patent/3/86386.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |