一种数据分析方法、装置、设备和介质与流程

阅读: 评论:0



1.本发明实施例涉及数据分析技术领域,尤其涉及一种数据分析方法、装置、设备和介质。


背景技术:



2.数据挖掘包括对数据的提取、对比、归并、入库等步骤,在数据挖掘过程中,现有技术需要人工对经过提取后的数据进行对比、归并、入库等步骤,需要大量的人力成本和时间成本,数据挖掘的质量与效率也有待提高。


技术实现要素:



3.本发明实施例提供了一种数据分析方法、装置、设备和介质,可以通过运行程序自动进行数据挖掘,减少数据挖掘所需的人力成本,提高数据挖掘的质量与效率。
4.第一方面,本发明实施例提供了一种数据分析方法,该方法包括:
5.读取目标数据包中待处理数据,并对所述待处理数据进行预处理;
6.按照与预设数据提取任务匹配的数据提取规则,对经过预处理的待处理数据进行数据提取,得到待分析提取结果;
7.将所述待分析提取结果与目标数据提取结果进行对比分析,并根据对比分析结果进行数据归并。
8.第二方面,本发明实施例提供了一种数据分析装置,该装置包括:
9.数据读取模块,用于读取目标数据包中待处理数据,并对所述待处理数据进行预处理;
10.数据提取模块,用于按照与预设数据提取任务匹配的数据提取规则,对经过预处理的待处理数据进行数据提取,得到待分析提取结果;
11.数据分析模块,用于将所述待分析提取结果与目标数据提取结果进行对比分析,并根据对比分析结果进行数据归并。
12.第三方面,本发明实施例提供了一种计算机设备,该计算机设备包括:
13.一个或多个处理器;
14.存储器,用于存储一个或多个程序;
15.当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现任一实施例所述的数据分析方法。
16.第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一实施例所述的数据分析方法。
17.本发明实施例公开了一种数据分析方法、装置、设备和介质,其中,方法包括:读取目标数据包中待处理数据,并对所述待处理数据进行预处理;按照与预设数据提取任务匹配的数据提取规则,对经过预处理的待处理数据进行数据提取,得到待分析提取结果;将所述待分析提取结果与目标数据提取结果进行对比分析,并根据对比分析结果进行数据归
并。本发明实施例的技术方案解决了现有技术进行数据挖掘时存在的投入人力成本过高,数据挖掘质量与效率低的问题,可以通过运行程序自动进行数据挖掘,减少数据挖掘所需的人力成本,提高数据挖掘的质量与效率。
附图说明
18.图1是本发明实施例提供的一种数据分析方法流程图;
19.图2是本发明实施例提供的又一种数据分析方法流程图;
20.图3是本发明实施例提供的一种数据分析装置的结构示意图;
21.图4是本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
22.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
23.图1是本发明实施例提供的一种数据分析方法流程图,本发明实施例可适用于运行数据挖掘脚本进行数据挖掘的场景中,该方法可以由数据分析装置执行,该装置可以由软件和/或硬件的方式来实现。
24.如图1所示,数据分析方法包括以下步骤:
25.s110、读取目标数据包中待处理数据,并对所述待处理数据进行预处理。
26.其中,目标数据包表示包含待处理数据的数据集合;待处理数据即需要进行数据分析的数据,具体的,可以通过读取程序确定目标数据包中的待处理数据,并读取待处理数据。预处理包括对待处理数据进行审核、筛选、排序等处理,通过对待处理数据进行预处理,可以使待处理数据格式标准化,修正待处理数据中的异常数据。
27.s120、按照与预设数据提取任务匹配的数据提取规则,对经过预处理的待处理数据进行数据提取,得到待分析提取结果。
28.其中,预设数据提取任务表示预设的数据提取任务,预设数据提取任务有多种类型,每种类型的预设数据提取任务有与之对应的数据提取规则;数据提取表示按照数据提取规则,对经过预处理的待处理数据中所需数据进行提取的过程。具体的,可以通过执行数据提取脚本,确定与预设数据提取任务匹配的数据提取规则,按照数据提取规则对经过预处理的待处理数据进行数据提取,得到待分析提取结果。
29.s130、将所述待分析提取结果与目标数据提取结果进行对比分析,并根据对比分析结果进行数据归并。
30.其中,目标数据提取结果表示按照数据提取规则,对经过预处理的待处理数据进行数据提取后得到的标准数据提取结果,通过将待分析提取结果与目标数据提取结果进行对比分析,可以确定数据提取是否异常。具体的,可以通过运行对比分析脚本,在hdfs(hadoop distributed file system,分布式文件系统)软件上自动对待分析提取结果与目标数据提取结果进行对比分析。对比分析结果即确定数据提取是否异常的结果,如果数据提取异常,可以数据提取的异常情况进行记录,不会进行数据归并;如果数据提取正常,也
可以数据提取的正常情况进行记录,随后进行数据归并。
31.数据归并表示将有关联数据进行合并和归类的过程,例如将同一测试对象在不同主题下的数据进行合并,归类至该测试对象名下。通过数据归并,可以将提取结果进行汇总。
32.本发明实施例所提供的技术方案,通过运行数据分析程序,读取目标数据包中待处理数据,并对待处理数据进行预处理;按照与预设数据提取任务匹配的数据提取规则,对经过预处理的待处理数据进行数据提取,得到待分析提取结果;将待分析提取结果与目标数据提取结果进行对比分析,并根据对比分析结果进行数据归并。本发明实施例的技术方案解决了现有技术进行数据挖掘时存在的投入人力成本过高,数据挖掘质量与效率低的问题,可以通过运行程序自动进行数据挖掘,减少数据挖掘所需的人力成本,提高数据挖掘的质量与效率。
33.图2是本发明实施例提供的又一种数据分析方法流程图,本发明实施例可适用于运行数据挖掘脚本进行数据挖掘的场景中,本实施例在上述实施例的基础上,进一步的说明如何读取目标数据包中待处理数据和进行数据对比分析,该装置可以由软件和/或硬件的方式来实现,集成于具有应用开发功能的计算机设备中。
34.如图2所示,数据分析方法包括以下步骤:
35.s210、读取预设测试用例中的目标数据包,并将所述目标数据包写入数据处理单元的目录,以使所述数据处理单元解析所述目标数据包得到待处理数据,并对所述待处理数据进行预处理。
36.其中,读取预设测试用例表示预设的对数据挖掘脚本进行测试的用例。具体的,表1是本发明实施例提供的一种预设测试用例。
37.表1
[0038][0039][0040]
如表1所示,预设测试用例包括测试用例编号、测试用例名称、数据包名称、搬运指令、预期结果、hdfs路径和实际结果等内容,该测试用例可以填写至jason文件中。
[0041]
进一步的,目标数据包表示包含待处理数据的数据集合;数据处理单元用于解析目标数据包得到待处理数据,并对待处理数据进行预处理;解析表示将目标数据包转化为处理单元的目录下的预设格式,并从目标数据包中提取得到待处理数据的过程;待处理数据即需要进行数据分析的数据;预处理包括对待处理数据进行审核、筛选、排序等处理,通过对待处理数据进行预处理,可以使待处理数据格式标准化,修正待处理数据中的异常数据。
[0042]
具体的,将目标数据包写入数据处理单元的目录下后,可以检测写入数据处理单元的目录下的数据与目标数据包中的数据是否一致,确认目标数据是否成功写入数据处理单元的目录下。如果目标数据成功写入数据处理单元的目录下,数据处理单元会解析目标数据包得到待处理数据,并对所述待处理数据进行预处理;如果目标数据没有成功写入数据处理单元的目录下,可以将异常情况写入日志中进行记录。
[0043]
s220、监控预处理后数据队列中的队列数据量,并根据所述队列数据量的监控结果,确定是都进行数据提取。
[0044]
其中,数据队列表示一种可以用于进行数据提取的线性表;队列数据量即数据队列中数据的数量;监控结果表示监控预处理后数据队列中的队列数据量是否异常的结果,即预处理是否正常执行的结果。具体的,可以将预处理后数据队列中的队列数据量与预设的数据队列中的队列数据量进行对比,如果两者相同,则监测结果正常,表示预处理正常执行,随后对经过预处理的待处理数据进行数据提取;反之,如果两者不同,则监测结果异常,表示预处理没有正常执行,可以将异常情况填写在工作日志进行记录。
[0045]
s230、按照与预设数据提取任务匹配的数据提取规则,对经过预处理的待处理数据进行数据提取,得到待分析提取结果。
[0046]
其中,预设数据提取任务表示预设的数据提取任务,预设数据提取任务有多种类型,每种类型的预设数据提取任务有与之对应的数据提取规则;数据提取表示按照数据提取规则,对经过预处理的待处理数据中所需数据进行提取的过程。具体的,可以通过执行数据提取脚本,确定与预设数据提取任务匹配的数据提取规则,按照数据提取规则对经过预处理的待处理数据进行数据提取,得到待分析提取结果。
[0047]
s240、将所述待分析提取结果存入到分布式文件系统的预设数据存储路径下。
[0048]
其中,分布式文件系统的文件系统管理的物理存储资源不直接连接在本地节点上,而是通过计算机网络与节点相连,可以使多个用户进行访问;预设数据存储路径表示预设的可以用于存储待分析提取结果的存储路径,具体的,可以选用kafka作为预设数据存储路径。通过将待分析提取结果存入到分布式文件系统的预设数据存储路径下,可以增加数据对比分析的速度和效率。
[0049]
s250、判断所述预设数据存储路径下是否有新增数据,并根据判断结果启动数据对比分析过程。
[0050]
其中,新增数据表示预设数据存储路径下存储的最新增加的待分析提取结果;判断结果即判断预设数据存储路径下是否有新增数据的结果,如果预设数据存储路径下有新增数据,则启动数据对比分析过程;如果预设数据存储路径下没有新增数据,则不启动数据对比分析过程。
[0051]
s260、将所述待分析提取结果与目标数据提取结果进行对比分析,并根据对比分
析结果进行数据归并。
[0052]
其中,目标数据提取结果表示按照数据提取规则,对经过预处理的待处理数据进行数据提取后得到的标准数据提取结果,通过将待分析提取结果与目标数据提取结果进行对比分析,可以确定数据提取是否异常。具体的,可以在hdfs软件上对待分析提取结果与目标数据提取结果进行对比分析。对比分析结果即确定数据提取是否异常的结果,如果数据提取异常,可以数据提取的异常情况进行记录,不会进行数据归并;如果数据提取正常,也可以数据提取的正常情况进行记录,随后进行数据归并。
[0053]
数据归并表示将有关联数据进行合并和归类的过程,例如将同一测试对象在不同主题下的数据进行合并,归类至该测试对象名下。通过数据归并,可以将提取结果进行汇总。
[0054]
在一种可选的实施方式中,可以对待分析提取结果进行数据加密处理,并将加密后的待分析提取结果存入到分布式文件系统的预设数据存储路径下,通过加密处理可以提高待分析提取结果的信息安全性。相应的,需要对待分析提取结果进行数据解密处理,具体的,可以调用明文化脚本,对待分析提取结果进行数据解密处理,随后将解密后的待分析提取结果与目标数据提取结果按照对应的字段分别进行对比分析。
[0055]
进一步的,在数据归并之后,可以将被归并的数据进行视图展示。例如,可以通过图形可视化,将被归并的数据中同一对象的相关数据进行展示,也可以将与该对象有关的其他对象的相关数据进行展示。
[0056]
在一种可选的实施方式中,可以将被归并数据与目标归并结果数据进行对比分析。其中,目标归并结果数据表示按照预设的数据归并规则,对经过数据提取的待处理数据进行数据归并后得到的标准数据归并结果。通过将被归并数据与目标归并结果数据进行对比分析,可以确定数据归并是否正常执行,如果被归并数据与目标归并结果数据不一致,则数据归执行异常,可以将异常情况填写在jason文件中进行记录。
[0057]
此外,可以在数据分析的每一个步骤中,进行数据分析日志记录。可以在数据分析日志上记录数据分析中每一个步骤的执行情况,例如记录数据分析中每一个步骤是否成功执行,将数据分析中每一个步骤的正常执行或者异常执行情况反馈在数据分析日志中。
[0058]
本发明实施例所提供的技术方案,通过运行数据分析程序,读取预设测试用例中的目标数据包,并将目标数据包写入数据处理单元的目录,以使数据处理单元解析目标数据包得到待处理数据,并对待处理数据进行预处理;监控预处理后数据队列中的队列数据量,并根据队列数据量的监控结果,确定是都进行数据提取;按照与预设数据提取任务匹配的数据提取规则,对经过预处理的待处理数据进行数据提取,得到待分析提取结果;将待分析提取结果存入到分布式文件系统的预设数据存储路径下;判断预设数据存储路径下是否有新增数据,并根据判断结果启动数据对比分析过程;将待分析提取结果与目标数据提取结果进行对比分析,并根据对比分析结果进行数据归并。本发明实施例的技术方案解决了现有技术进行数据挖掘时存在的投入人力成本过高,数据挖掘质量与效率低的问题,可以通过运行程序自动进行数据挖掘,减少数据挖掘所需的人力成本,提高数据挖掘的质量与效率。
[0059]
图3是本发明实施例提供的一种数据分析装置的结构示意图,本发明实施例可适用于运行数据挖掘脚本进行数据挖掘的场景中,该装置可以由软件和/或硬件的方式来实
现,集成于具有应用开发功能的计算机设备中。
[0060]
如图3所示,数据分析装置包括:数据读取模块310、数据提取模块320和数据分析模块330。
[0061]
其中,数据读取模块310,用于读取目标数据包中待处理数据,并对待处理数据进行预处理;数据提取模块320,用于按照与预设数据提取任务匹配的数据提取规则,对经过预处理的待处理数据进行数据提取,得到待分析提取结果;数据分析模块330,用于将待分析提取结果与目标数据提取结果进行对比分析,并根据对比分析结果进行数据归并。
[0062]
本发明实施例所提供的技术方案,通过运行数据分析程序,读取目标数据包中待处理数据,并对待处理数据进行预处理;按照与预设数据提取任务匹配的数据提取规则,对经过预处理的待处理数据进行数据提取,得到待分析提取结果;将待分析提取结果与目标数据提取结果进行对比分析,并根据对比分析结果进行数据归并。本发明实施例的技术方案解决了现有技术进行数据挖掘时存在的投入人力成本过高,数据挖掘质量与效率低的问题,可以通过运行程序自动进行数据挖掘,减少数据挖掘所需的人力成本,提高数据挖掘的质量与效率。
[0063]
在一种可选的实施方式中,数据读取模块310具体用于:读取预设测试用例中的目标数据包,并将目标数据包写入数据处理单元的目录,以使数据处理单元解析目标数据包得到待处理数据,并对待处理数据进行预处理。
[0064]
在一种可选的实施方式中,数据读取模块310还用于:在对经过预处理的待处理数据进行数据提取之前,监控预处理后数据队列中的队列数据量,并根据队列数据量的监控结果,确定是都进行数据提取。
[0065]
在一种可选的实施方式中,数据分析装置还包括:待分析提取结果存储模块,用于:将待分析提取结果存入到分布式文件系统的预设数据存储路径下;
[0066]
判断预设数据存储路径下是否有新增数据,并根据判断结果启动数据对比分析过程。
[0067]
在一种可选的实施方式中,待分析提取结果存储模块还用于:对待分析提取结果进行数据加密处理,并将加密后的待分析提取结果存入到分布式文件系统的预设数据存储路径下;
[0068]
相应的,将待分析提取结果与目标数据提取结果进行对比分析,包括:
[0069]
对待分析提取结果进行数据解密处理;
[0070]
将解密后的待分析提取结果与目标数据提取结果按照对应的字段分别进行对比分析。
[0071]
在一种可选的实施方式中,数据分析装置还包括:视图展示模块,用于:在数据归并之后,将被归并的数据进行视图展示。
[0072]
在一种可选的实施方式中,数据分析装置还包括:日志记录模块,用于:在数据分析的每一个步骤中,进行数据分析日志记录。
[0073]
本发明实施例所提供的数据分析装置可执行本发明任意实施例所提供的数据分析方法,具备执行方法相应的功能模块和有益效果。
[0074]
图4为本发明实施例提供的一种计算机设备的结构示意图。图4示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图4显示的计算机设备12仅仅是一个示
例,不应对本发明实施例的功能和使用范围带来任何限制。计算机设备12可以任意具有计算能力的终端设备,可以与配置于数据分析设备中。
[0075]
如图4所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
[0076]
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(isa)总线,微通道体系结构(mac)总线,增强型isa总线、视频电子标准协会(vesa)局域总线以及外围组件互连(pci)总线。
[0077]
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
[0078]
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(ram)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如cd-rom,dvd-rom或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
[0079]
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如系统存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
[0080]
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图4中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
[0081]
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发实施例所提供的数据分析方法,该方法包括:
[0082]
读取目标数据包中待处理数据,并对待处理数据进行预处理;
[0083]
按照与预设数据提取任务匹配的数据提取规则,对经过预处理的待处理数据进行数据提取,得到待分析提取结果;
[0084]
将待分析提取结果与目标数据提取结果进行对比分析,并根据对比分析结果进行
数据归并。
[0085]
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所提供的数据分析方法,包括:
[0086]
读取目标数据包中待处理数据,并对待处理数据进行预处理;
[0087]
按照与预设数据提取任务匹配的数据提取规则,对经过预处理的待处理数据进行数据提取,得到待分析提取结果;
[0088]
将待分析提取结果与目标数据提取结果进行对比分析,并根据对比分析结果进行数据归并。
[0089]
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0090]
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0091]
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。
[0092]
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言,诸如java、smalltalk、c++,还包括常规的过程式程序设计语言,诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0093]
本领域普通技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
[0094]
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,
本发明不限于这里的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

技术特征:


1.一种数据分析方法,其特征在于,所述方法包括:读取目标数据包中待处理数据,并对所述待处理数据进行预处理;按照与预设数据提取任务匹配的数据提取规则,对经过预处理的待处理数据进行数据提取,得到待分析提取结果;将所述待分析提取结果与目标数据提取结果进行对比分析,并根据对比分析结果进行数据归并。2.根据权利要求1所述的方法,其特征在于,读取目标数据包中待处理数据,并对所述待处理数据进行预处理,包括:读取预设测试用例中的目标数据包,并将所述目标数据包写入数据处理单元的目录,以使所述数据处理单元解析所述目标数据包得到所述待处理数据,并对所述待处理数据进行预处理。3.根据权利要求1所述的方法,其特征在于,在对经过预处理的待处理数据进行数据提取之前,所述方法还包括:监控预处理后数据队列中的队列数据量,并根据所述队列数据量的监控结果,确定是都进行数据提取。4.根据权利要求1所述的方法,其特征在于,在得到待分析提取结果之后,所述方法还包括:将所述待分析提取结果存入到分布式文件系统的预设数据存储路径下;判断所述预设数据存储路径下是否有新增数据,并根据判断结果启动数据对比分析过程。5.根据权利要求4所述的方法,其特征在于,所述将所述待分析提取结果存入到分布式文件系统的预设数据存储路径下,包括:对所述待分析提取结果进行数据加密处理,并将加密后的待分析提取结果存入到分布式文件系统的预设数据存储路径下;相应的,所述将所述待分析提取结果与目标数据提取结果进行对比分析,包括:对所述待分析提取结果进行数据解密处理;将解密后的待分析提取结果与目标数据提取结果按照对应的字段分别进行对比分析。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:在数据归并之后,将被归并的数据进行视图展示。7.根据权利要求6所述的方法,其特征在于,所述方法还包括:将被归并数据与目标归并结果数据进行对比分析。8.一种数据分析装置,其特征在于,包括:数据读取模块,用于读取目标数据包中待处理数据,并对所述待处理数据进行预处理;数据提取模块,用于按照与预设数据提取任务匹配的数据提取规则,对经过预处理的待处理数据进行数据提取,得到待分析提取结果;数据分析模块,用于将所述待分析提取结果与目标数据提取结果进行对比分析,并根据对比分析结果进行数据归并。9.一种计算机设备,其特征在于,所述计算机设备包括:一个或多个处理器;
存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的数据分析方法。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的数据分析方法。

技术总结


本发明实施例公开了一种数据分析方法、装置、设备和介质,其中,方法包括:读取目标数据包中待处理数据,并对所述待处理数据进行预处理;按照与预设数据提取任务匹配的数据提取规则,对经过预处理的待处理数据进行数据提取,得到待分析提取结果;将所述待分析提取结果与目标数据提取结果进行对比分析,并根据对比分析结果进行数据归并。本发明实施例的技术方案解决了现有技术进行数据挖掘时存在的投入人力成本过高,数据挖掘质量与效率低的问题,可以通过运行程序自动进行数据挖掘,减少数据挖掘所需的人力成本,提高数据挖掘的质量与效率。率。率。


技术研发人员:

何大鹏 王杰 万月亮

受保护的技术使用者:

北京锐安科技有限公司

技术研发日:

2022.08.12

技术公布日:

2022/12/30

本文发布于:2023-01-01 13:51:34,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/3/50136.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   所述   目标   计算机
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图