G06F16/28 G06F16/215 G06F16/54 G06F16/26 G06V30/10
1.一种政务相关数据梳理方法,其特征在于,所述政务相关数据梳理方法包括以下步骤:
获取政务事项数据;
基于预设提取关键词,从所述政务事项数据中提取出政务事项的相关内容和申请材料的相关内容,得到提取结果;
若所述提取结果存在于预设事项目录中,则对存在对应关系的所述政务事项和所述申请材料进行关联性聚类,并得到聚类结果;
对所述聚类结果中的重复结果进行去冗余处理,得到目标梳理结果。
2.如权利要求1所述的政务相关数据梳理方法,其特征在于,所述对所述聚类结果中的重复结果进行去冗余处理,得到目标梳理结果,包括:
对所述聚类结果中的重复结果进行去冗余处理,得到初步梳理结果;
将所述初步梳理结果转化为可视化逻辑图,并将所述可视化逻辑图输出至显示单元,以供相关工作人员对所述初步梳理结果进行校对,以便于所述相关工作人员对预设提取关键词进行调整;
在所述相关工作人员将所述预设提取关键词调整后,对所述政务事物数据进行重新梳理,得到目标梳理结果。
3.如权利要求2所述的政务相关数据梳理方法,其特征在于,所述在所述相关工作人员将所述预设提取关键词进行调整后,对所述政务事物数据进行重新梳理,得到目标梳理结果之后,还包括:
将所述目标梳理结果输出至相应平台,以供所述相应平台将所述目标梳理结果对外展示;其中,所述政务事项按照预设事项目录的顺序进行展示,所述申请材料以设置级联问询的方式进行展示;其中,所述级联问询为基于所述梳理结果而设定的多级逻辑性问询,通过所述级联问询,确定办理事项人员需准备的所述申请材料。
4.如权利要求1所述的政务相关数据梳理方法,其特征在于,所述提取结果包括事项提取结果和材料提取结果,所述基于预设提取关键词,从所述政务事项数据中提取出政务事项的相关内容和申请材料的相关内容,得到提取结果,包括:
基于预设提取关键词,从所述政务事项数据中提取政务事项和办理所述政务事项所需的申请材料;
提取所述政务事项的关键内容,并提取所述政务事项之间的关联性,得到事项提取结果;
提取所述申请材料的关键内容,并提取所述申请材料与所述政务事项之间的对应关系,得到材料提取结果。
5.如权利要求1所述的政务相关数据梳理方法,其特征在于,所述聚类结果包括第一聚类结果和第二聚类结果,所述若所述提取结果存在于预设事项目录中,则对存在对应关系的所述政务事项和所述申请材料进行关联性聚类,并得到聚类结果,包括:
若所述提取结果存在于预设事项目录中,则对所述提取结果进行关联性聚类;
基于所述材料提取结果,将所述申请材料与对应的所述政务事项进行聚类,得到第一聚类结果;
基于所述事项提取结果,将存在关联的所述政务事项进行聚类,得到第二聚类结果。
6.如权利要求1所述的政务相关数据梳理方法,其特征在于,所述获取政务事项数据之前,还包括:
对政务相关的原始资料进行字符识别,得到识别结果;
将所述识别结果存储在预设数据存储单元中。
7.如权利要求1所述的政务相关数据梳理方法,其特征在于,所述对所述聚类结果中的重复结果进行去冗余处理,得到目标梳理结果之前,还包括:
从所述聚类结果中提取出用于判断相似度的关键词;其中,所述关键词为所述政务事项和所述申请材料之间存在交集内容的词汇;
若所述关键词存在于多项所述聚类结果中,则确定所述聚类结果中存在的重复结果。
8.一种政务相关数据梳理装置,其特征在于,所述政务相关数据梳理装置包括:
获取模块:用于获取政务事项数据;
提取模块:用于基于预设提取关键词,从所述政务事项数据中提取出政务事项的相关内容和申请材料的相关内容,得到提取结果;
聚类模块:用于若所述提取结果存在于预设事项目录中,则对存在对应关系的所述政务事项和所述申请材料进行关联性聚类,并得到聚类结果;
去除模块:用于对所述聚类结果中的重复结果进行去冗余处理,得到目标梳理结果。
9.一种政务相关数据梳理设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的政务相关数据梳理程序,所述政务相关数据梳理程序配置为实现如权利要求1至7中任一项所述的政务相关数据梳理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有政务相关数据梳理程序,所述政务相关数据梳理程序被处理器执行时实现如权利要求1至7中任一项所述的政务相关数据梳理方法的步骤。
本申请涉及政务信息领域,尤其涉及一种政务相关数据梳理方法、装置、设备及可读存储介质。
政务办理大厅能够办理的政务事项的数量庞大,且每一种业务需要递交的申请材料的内容和数量都不尽相同,为保证政务事项标准化且便于众在办理业务前准备相关申请材料,通常由精通办理政务事项的工作人员以政务事项类型的方式,对政务事项和相关政务事项对应的所需递交的申请材料进行梳理。
但是需要整理的政务事项和申请材料的数量大,光靠相关工作人员以人力进行梳理无法轻易完成,且在梳理过程中会出现相关工作人员梳理错误的现象,从而导致相关工作人员在梳理过程中不断进行自检,进而导致梳理政务事项和申请材料的工作效率低。
本申请的主要目的在于提供一种政务相关数据梳理方法、装置、设备及可读存储介质,旨在如何提高梳理政务事项和申请材料效率的技术问题。
为实现上述目的,本申请提供一种政务相关数据梳理方法,所述政务相关数据梳理方法包括以下步骤;
获取政务事项数据;
基于预设提取关键词,从所述政务事项数据中提取出政务事项的相关内容和申请材料的相关内容,得到提取结果;
若所述提取结果存在于预设事项目录中,则对存在对应关系的所述政务事项和所述申请材料进行关联性聚类,并得到聚类结果;
对所述聚类结果中的重复结果进行去冗余处理,得到目标梳理结果。
示例性的,所述对所述聚类结果中的重复结果进行去冗余处理,得到目标梳理结果,包括:
对所述聚类结果中的重复结果进行去冗余处理,得到初步梳理结果;
将所述初步梳理结果转化为可视化逻辑图,并将所述可视化逻辑图输出至显示单元,以供相关工作人员对所述初步梳理结果进行校对,以便于所述相关工作人员对预设提取关键词进行调整;
在所述相关工作人员将所述预设提取关键词调整后,对所述政务事物数据进行重新梳理,得到目标梳理结果。
示例性的,所述在所述相关工作人员将所述预设提取关键词进行调整后,对所述政务事物数据进行重新梳理,得到目标梳理结果之后,还包括:
将所述目标梳理结果输出至相应平台,以供所述相应平台将所述目标梳理结果对外展示;其中,所述政务事项按照预设事项目录的顺序进行展示,所述申请材料以设置级联问询的方式进行展示;其中,所述级联问询为基于所述梳理结果而设定的多级逻辑性问询,通过所述级联问询,确定办理事项人员需准备的所述申请材料。
示例性的,所述提取结果包括事项提取结果和材料提取结果,所述基于预设提取关键词,从所述政务事项数据中提取出政务事项的相关内容和申请材料的相关内容,得到提取结果,包括:
基于预设提取关键词,从所述政务事项数据中提取政务事项和办理所述政务事项所需的申请材料;
提取所述政务事项的关键内容,并提取所述政务事项之间的关联性,得到事项提取结果;
提取所述申请材料的关键内容,并提取所述申请材料与所述政务事项之间的对应关系,得到材料提取结果。
示例性的,所述聚类结果包括第一聚类结果和第二聚类结果,所述若所述提取结果存在于预设事项目录中,则对存在对应关系的所述政务事项和所述申请材料进行关联性聚类,并得到聚类结果,包括:
若所述提取结果存在于预设事项目录中,则对所述提取结果进行关联性聚类;
基于所述材料提取结果,将所述申请材料与对应的所述政务事项进行聚类,得到第一聚类结果;
基于所述事项提取结果,将存在关联的所述政务事项进行聚类,得到第二聚类结果。
示例性的,所述获取政务事项数据之前,还包括:
对政务相关的原始资料进行字符识别,得到识别结果;
将所述识别结果存储在预设数据存储单元中。
示例性的,所述对所述聚类结果中的重复结果进行去冗余处理,得到目标梳理结果之前,还包括:
从所述聚类结果中提取出用于判断相似度的关键词;其中,所述关键词为所述政务事项和所述申请材料之间存在交集内容的词汇;
若所述关键词存在于多项所述聚类结果中,则确定所述聚类结果中存在的重复结果。
示例性的,为实现上述目的,本申请还提供一种政务相关数据梳理装置,所述政务相关数据梳理装置包括:
获取模块:用于获取政务事项数据;
提取模块:用于基于预设提取关键词,从所述政务事项数据中提取出政务事项的相关内容和申请材料的相关内容,得到提取结果;
聚类模块:用于若所述提取结果存在于预设事项目录中,则对存在对应关系的所述政务事项和所述申请材料进行关联性聚类,并得到聚类结果;
去除模块:用于对所述聚类结果中的重复结果进行去冗余处理,得到目标梳理结果。
示例性的,为实现上述目的,本申请还提供一种政务相关数据梳理设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的政务相关数据梳理程序,所述政务相关数据梳理程序配置为实现如上所述的政务相关数据梳理方法的步骤。
示例性的,为实现上述目的,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有政务相关数据梳理程序,所述政务相关数据梳理程序被处理器执行时实现如上所述的政务相关数据梳理方法的步骤。
与现有技术中,需要精通办理政务事项的工作人员,对政务事项和办理政务事项时所需的申请材料进行梳理,将政务事项与申请材料对应分类、梳理,仅靠人工进行梳理庞大数量的政务事项和申请材料的工作效率低相比,本发明对原本数量庞大的政务事项数据进行提取,依靠预设提取关键词,将政务事项和申请材料的主要内容提取出来,并对提取结果进行判断,若提取结果中的政务事项存在于预设事项目录中,则对政务事项进行整合、聚类,得到政务事项和申请材料存在关联性的聚类结果,将聚类结果中的重复结果进行去冗余处理,得到目标梳理结果。即提取政务事项和申请材料中的相关内容,按照政务事项和申请材料之间的关联性进行聚类,并在聚类后,去除掉聚类结果中的重复结果,得到完成数据整合、分类的目标梳理结果,不需要人工在对数据进行梳理时反复检查是否梳理正确。因此,提高了梳理政务事项和申请材料的效率。
图1是本申请政务相关数据梳理方法第一实施例的流程示意图;
图2为本申请政务相关数据梳理方法第二实施例的流程示意图;
图3为本申请政务相关数据梳理方法第三实施例的流程示意图;
图4为本申请实施例方案涉及的硬件运行环境的结构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供一种政务相关数据梳理方法,参照图1,图1为本申请政务相关数据梳理方法第一实施例的流程示意图。
本申请实施例提供了政务相关数据梳理方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。为了便于描述,以下省略执行主体描述政务相关数据梳理方法的各个步骤,政务相关数据梳理方法包括:
步骤S110:获取政务事项数据;
政务事项数据包括政务事项的相关内容,例如政务事项的名称、办理该政务事项的流程,或办理政务事项时所需的申请材料等。
示例性的,获取政务事项数据之前,还包括:
步骤a:对政务相关的原始资料进行字符识别,得到识别结果;
政务相关的原始资料一般为非结构化数据,通常为政务事项政策或办事指南文件等,内容主要包括政务相关的事项政策、办理政务相关事项时所需的申请材料等,其中文件类型包括多种,纸质文档、电子文档或图片等。
采用字符识别,能够将政务相关的原始资料的非结构化数据转化成结构化数据,便于后续使用。
示例性的,识别结果为经过字符识别后所得到的结果,其中包括从政务相关的原始资料中识别到的文档或文件正文内容等。
示例性的,采用OCR(Optical Character Recognition,光学字符识别)技术对原始资料进行识别,从纸质文档、电子文档或图片中识别出相应字符,并将得到的原始资料的内容进行相应处理,得到识别结果。
其中,在使用OCR技术识别字符时,对政务相关的原始资料进行采集并识别,获取到原始资料中的全部内容,在完成识别动作后,对识别到的字符进行判断、拆分和排版等过程,将识别到的原始资料进行整理,整理出有一定次序和规整的识别结果。
步骤b:将所述识别结果存储在预设数据存储单元中。
识别结果为从政务相关的原始资料中识别到的非结构化数据,其中,非结构化数据主要包含两大块:第一是文本文字;第二是图像、图片等。和结构化数据相比,非结构化数据最本质的区别包括三个层面:非结构化数据的容量比结构化数据要大;产生的速度比结构化数据要快;数据来源具有多样性。
预设数据存储单元包括数据库、数据池等用于存储相关数据的单元,以下以数据库为例进行阐述。
根据政务事项和办理该政务事项所需的申请材料之间的对应关系建立预设关系数据库,预设关系数据库采用利于存储结构化数据、且调用内部数据灵活的数据库,预设关系数据库内的数据按照预设逻辑结构或者预设关系模型进行排列,构成行与列排列的具有相关信息的逻辑组,同时关系数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了速度并提高了灵活性。
示例性的,政务事项数据为保存在预设关系数据库中的非结构化数据,政务事项数据中包括政务事项的相关政策,以及办理政务事项时所需的申请材料、办理政务事项的地点、流程等相关内容。
示例性的,预设关系数据库采用RDBMS(Relational Database ManagementSystem,关系数据库管理系统)进行管理的MySQL(My Structured Query Language,开源数据库),其内使用SQL(Structured Query Language,结构化查询语言),SQL是具有数据操纵和数据定义等多种功能的数据库语言,这种语言具有交互性特点,数据库管理系统应充分利用SQL语言提高计算机应用系统的工作质量与效率。
预设关系数据库中的非结构化数据存储在不同的表中,而非将所有数据放在同一个大的数据库中,从而增加调用内部数据的灵活性和调用速度。
将原本由相关工作人员参与的政务事项和申请材料的梳理工作,转化成通过人工智能梳理的方式进行梳理,在将政务相关数据录入到智能梳理模型中,通过该智能梳理模型,对政务相关数据进行提取、分类以及梳理的工作。
智能梳理模型会针对政务事项所属的政务办事类别进行分类,同时将政务事项和申请材料进行对应梳理,以此达到替代相关工作人员的梳理工作的效果。
步骤S120:基于预设提取关键词,从所述政务事项数据中提取出政务事项的相关内容和申请材料的相关内容,得到提取结果;
政务事项数据为预设关系数据库中的非结构化数据,非结构化数据包含的信息杂乱且数量大,对政务事项数据进行提取相关重要内容,即将政务事项数据的非结构化数据转变为结构化数据。
示例性的,根据预设提取关键词,对政务事项数据中的要点进行提取,在提取前会根据相关重要内容的关键词,调整预设提取关键词所包含的关键词词库,关键词包括政务事项相关的词和申请材料相关的词。
其中,关键词为政务事项相关的词时,关键词包括政务事项的具体名称或办理地点、时间等,其中政务事项的具体名称如:公积金、人社医保和税务等,其中办理地点、时间如:街道行政大厅、工作日受理等。
其中,关键词为申请材料相关的词时,关键词包括申请材料的具体准备内容,例如:身份证、户口本、学位证等。
提取结果为对政务事项数据进行提取内容后的结构化数据,其中包含政务事项的项目以及办理项目所需的申请材料。
示例性的,预设提取关键词的关键词词库包含政务事项的关键词,以及办理政务事项所需的申请材料的关键词,若政务事项数据中存在与关键词相关的数据,则将数据提取出来并分类成政务事项和申请材料。
其中,在对政务事项相关的关键词进行提取时,对政务事项数据中包含关键词的数据进行提取,并将该数据分类至政务事项。
其中,在对申请材料相关的关键词进行提取时,对政务事项数据中包含关键词的数据进行提取,并将该数据分类至申请材料。
示例性的,使用Deep Dive(信息抽取系统)的知识抽取工具对政务事项数据中的要点,并根据关键词的不同类型,将提取出的数据进行简单分类,形成政务事项的要点数据或申请材料的要点数据。
步骤S130:若所述提取结果存在于预设事项目录中,则对存在对应关系的所述政务事项和所述申请材料进行关联性聚类,并得到聚类结果;
预设事项目录以基于国办函[2016]108号文实施清单中的36要素为基准,设定出需要进行梳理的项目目录。预设事项目录中包括事项名称、事项编码或事项类型等。提取结果包含诸多政务事项和政务事项相关的数据,通过以预设事项目录为基准,将提取结果中包含的数据进行分类,将不存在于预设事项目录中的提取结果去除掉,即只针对预设事项目录中存在的事项数据进行梳理。
以预设事项目录为基准,比对提取结果中的政务事项,判断提取结果中的政务事项是否属于预设事项目录,若属于便对提取结果进行关联性聚类,将存在关联关系的政务事项和申请材料进行聚类整合,得到聚类结果。示例性的,在进行关联性聚类时,综合考虑政务事项与政务事项之间的关联,以及政务事项与申请材料之间的关联或申请材料与政务事项之间的关联。
其中,在对政务事项与政务事项之间存在的关联进行聚类时,政务事项与政务事项之间存在的关联存在两种情况,一方面是办理多项政务事项时存在先后关系,例如:在办理结婚登记和离婚登记事项时,只要先办理结婚登记,才能办理离婚登记。另一方面是办理多项政务事项时存在政务事项重叠的部分,例如:在办理人社医保时,需要分别进行办理养老保险、医疗保险等多项事项。
其中,在对政务事项与申请材料之间存在的关联或申请材料与政务事项之间存在的关联进行聚类时,依据政务事项与办理政务事项时所需的申请材料进行聚类,办理一项政务事项时所需申请材料的数量不均等,每个政务事项少则三到五个材料,多则三十多个材料,例如:在办理退税事项时,需要提供相关人员的基本信息、相关人员的银行卡信息等。
步骤S140:对所述聚类结果中的重复结果进行去冗余处理,得到目标梳理结果。
在对数据进行分析和聚类的时候,会针对每一个政务事项和每一个申请材料进行关联性聚类,在对政务事项进行聚类时,将存在关联的政务事项和申请材料进行聚类,而在政务事项进行聚类时,也将存在关联的政务事项和申请材料进行聚类,造成聚类结果中存在重复的部分,造成聚类结果冗余。
示例性的,冗余的重复结果中存在两种情况,一方面为政务事项之间存在关联,在对政务事项进行聚类时,在对政务事项进行聚类后产生重复结果,另一方面为政务事项和申请材料之间进行聚类,在对政务事项与对应申请材料进行聚类时,产生重复结果。
其中,在政务事项与政务事项进行聚类后产生重复时,第一政务事项和第二政务事项之间存在一定关联性,导致检测第一政务事项时,将第一政务事项与第二政务事项进行聚类,检测第二政务事项时,将第二政务事项和第一政务事项进行聚类,导致聚类结果重复。
其中,在政务事项和申请材料进行聚类后产生重复时,政务事项与申请材料进行聚类,而申请材料又与政务事项进行聚类,导致聚类结果重复。
示例性的,在政务事项数据进行提取和聚类后,将聚类结果中的重复结果进行去冗余处理后,去冗余处理存在两种方式,一方面将重复结果进行合并,将重复的聚类结果融合为一,保留下重复结果中的重要内容;另一方面,直接将重复结果中的多余项去除掉,便得到梳理完成的梳理结果。
示例性的,所述对所述聚类结果中的重复结果进行去冗余处理,得到目标梳理结果之前,还包括:
步骤c:从所述聚类结果中提取出用于判断相似度的关键词;其中,所述第三关键词为所述政务事项和所述申请材料之间存在交集内容的词汇;
对聚类结果进行去冗余处理,统计聚类结果中出现的关键词的频率,以判断聚类结果是否存在冗余的情况。关键词的重要性随着它在文件中出现的次数成正比增加。
聚类结果中存在政务事项和与政务事项对应的申请材料,提取出的键词要既包括政务事项的内容和申请材料的内容,避免只检测政务事项或申请材料中的一部分,而忽略掉另一部分。
示例性的,采用TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频次)算法,TF-IDF算法是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。对聚类结果的相似度进行计算,以对办事事项以及其申请材料进行冗余判断,完成事项知识库融合。
示例性的,提取关键词,用于判断聚类结果之间的相似度,关键词既要存在于政务事项中,也要存在于办理该政务事项所需的申请材料中。其中,政务事项的名称既存在于政务事项中,也存在于申请材料中。
步骤d:若所述关键词存在于多项所述聚类结果中,则确定所述聚类结果中存在的重复结果。
对每一个聚类结果均进行关键词检测,记录出现关键词的聚类结果,并统计关键词在每一个聚类结果中出现的次数,若在聚类结果中,关键词出现次数超出预设数量阈值,则证明该聚类结果以该关键词为中心,将此类聚类结果判定为重复结果。
预设数量阈值按照实际情况进行限定,例如:设置预设数量阈值为10或15等。统计关键词的次数,在关键词的次数大于预设数量阈值时,确定出现关键词的聚类结果为重复结果。
示例性的,采用TF-IDF算法,对存在有关键词的政务事项和申请材料进行判断,即对聚类结果中的政务事项和申请材料分别进行判断,统计政务事项和申请材料中关键词出现的次数,根据关键词出现的次数,判断该聚类结果中是否存在重复结果。
与现有技术中,需要精通办理政务事项的工作人员,对政务事项和办理政务事项时所需的申请材料进行梳理,将政务事项与申请材料对应分类、梳理,仅靠人工进行梳理庞大数量的政务事项和申请材料的工作效率低相比,本发明对原本数量庞大的政务事项数据进行提取,依靠预设提取关键词,将政务事项和申请材料的主要内容提取出来,并对提取结果进行判断,若提取结果中的政务事项存在于预设事项目录中,则对政务事项进行整合、聚类,得到政务事项和申请材料存在关联性的聚类结果,将聚类结果中的重复结果进行去冗余处理,得到目标梳理结果。即提取政务事项和申请材料中的相关内容,按照政务事项和申请材料之间的关联性进行聚类,并在聚类后,去除掉聚类结果中的重复结果,得到完成数据整合、分类的目标梳理结果,不需要人工在对数据进行梳理时反复检查是否梳理正确。因此,提高了梳理政务事项和申请材料的效率。
示例性的,参照图2,图2是本申请政务相关数据梳理方法第二实施例的流程示意图,基于上述本申请政务相关数据梳理方法第一实施例,提出第二实施例,所述方法还包括:
步骤S210:基于预设提取关键词,从所述政务事项数据中提取政务事项和办理所述政务事项所需的申请材料;
政务事项数据包括政务事项的相关内容,以及办理政务事项所需的申请材料,同时政务事项之间存在相应的联系,办理一件政务事项时所需要的材料数量不一,同样的一份申请材料可用于不同的政务事项,在政务事项数据中存在相关联系的数据多。提取过程将原本复杂的非结构化数据转化为结构化数据,从而便于梳理政务事项和申请材料之间的关系。
示例性的,从政务事项数据中提取相关内容,包括政务事项和申请材料。
其中,从政务事项数据中提取相关政务事项,例如:房屋转让、户口迁移等。
其中,从政务事项数据中提取办理相关政务事项时所需的申请材料,例如:不动产证明、办理人员的、身份证等。
步骤S220:提取所述政务事项的关键内容,并提取所述政务事项之间的关联性,得到事项提取结果;
政务事项之间存在一定的关联性,例如:政务事项之间存在顺序关系或相关联的重叠关系。
示例性的,从政务事项中提取出第一政务事项的特定关键语句和词汇,从政务事项中提取出第二政务事项的特定关键语句和词汇,将提取出的第一政务事项的关键语句和词汇和第二政务事项的关键语句和词汇进行比对,若存在关联性,则对政务事项的关联性的进行提取,得到事项提取结果。
其中,若经过比对后,认定关键语句和词汇相似度高,则确定第一政务事项和第二政务事项存在关联性,将政务事项之间存在的关联性进行提取,得到事项提取结果。
其中,若经过比对后,认定关键语句和词汇相似度低,则确定第一政务事项和第二政务事项不存在关联性,不进行提取政务事项之间存在的关联性的步骤。
步骤S230:提取所述申请材料的关键内容,并提取所述申请材料与所述政务事项之间的对应关系,得到材料提取结果;
提取申请材料和政务事项之间的对应关系,办理一个政务事项需要多个申请材料,且同一份申请材料可用于不同政务事项中,政务事项与申请材料之间的关系复杂,提取出政务事项和申请材料之间的关系和申请材料的第二关键词,得到材料提取结果。
示例性的,办理政务事项的申请人的个人信息通用于绝大部分的政务事项,例如:身份证、户口本等基本居民信息适用于绝大部分的政务事项。
步骤S240:若所述提取结果存在于预设事项目录中,则对所述提取结果进行关联性聚类;
若提取结果存在于预设事项目录中,则证明该提取结果为需要进行梳理的政务事项和申请材料。
示例性的,提取结果中包含不同种的政务事项,其中存在已经被替换或淘汰掉的政务事项,或正在提供政务办理的事项。
其中,提取结果为现有且需要进行梳理的政务事项,则提取结果存在于预设事项目录中,因此对提取结果进行关联性聚类,将存在关联的政务事项或存在对应关系的政务事项和申请材料进行聚类。
其中,提取结果为已经被替换或被淘汰的政务事项,则确定所述提取结果不存在于预设事项目录中,因此不对提取结果进行关联性聚类。
步骤S250:基于所述材料提取结果,将所述申请材料与对应的所述政务事项进行聚类,得到第一聚类结果;
第一聚类结果为申请材料和对应的政务事项聚类结果,办理一项政务事项时所需的申请材料的数量不等,例如:一项政务事项所需的申请材料共有5份或一项政务事项所需的申请材料共有15份等。而同一份申请材料也会对应多个不同的政务事项,例如:办理政务事项的人员的身份证会用于大部分政务事项中。
示例性的,在进行聚类时,会分别以政务事项和申请材料为主,将政务事项和办理政务事项时所需的申请材料进行聚类,以及将申请材料与其所用于的政务事项之间进行聚类,得到第一聚类结果。
其中,在将政务事项和办理政务事项时所需的申请材料进行聚类时,例如:办理结婚登记事项时,需要提供身份证、户口本等材料,即身份证、户口本等材料是与办理结婚登记事项一一对应的,将结婚登记事项和身份证、户口本等材料进行聚类。
其中,在将申请材料与其所用于的政务事项之间进行聚类时,例如:纳税证明材料用于税务申报或退税等不同政务事项,将纳税证明材料与不同政务事项进行聚类,得到第一聚类结果。
步骤S260:基于所述事项提取结果,将存在关联的所述政务事项进行聚类,得到第二聚类结果;
在一些政务事项之间存在相关性,例如:政务事项办理时存在顺序关系,或政务事项办理存在重叠部分等,将诸如此类的政务事项进行聚类,得到第二聚类结果。
示例性的,结婚登记和离婚登记均属于婚姻登记的事项范围内,且都需要前往民政局进行办理,即结婚登记和离婚登记这两项事项之间存在关联,将结婚登记和离婚登记进行聚类,且结婚登记和离婚登记存在顺序关系,相关人员要办理离婚登记之前,相关人员必然已经办理过结婚登记得到第二聚类结果。
在本实施例中,将政务事项和申请材料进行提取相关内容,将原本非结构化的数据,提取关键点而转化成结构化数据,从而便于梳理政务事项和申请材料之间的关系,在提取完成后,对提取出的结构化数据进行聚类,即对政务事项和申请材料进行聚类梳理,将同类型且存在关系的政务事项和申请材料进行整合,将非结构化数据转变为结构化数据有助于提高梳理过程的效率。
示例性的,参照图3,图3是本申请政务相关数据梳理方法第三实施例的流程示意图,基于上述本申请政务相关数据梳理方法第一实施例和第二实施例,提出第三实施例,所述方法还包括:
步骤S310:对所述聚类结果中的重复结果进行去冗余处理,得到初步梳理结果;
初步梳理结果即为经过梳理后初步得到的结果,此时已经依靠预设提取关键词将政务事项数据进行第一轮梳理,考虑预设提取关键词可能存在不准确之处,对初步梳理结果进行检查,确认梳理结果是否存在错误等。
示例性的,预设提取关键词中的关键词不精准,或者预设提取关键词中的关键词的种类少,都可能导致后续梳理结果出现错误,从而在第一进行梳理时得到初步梳理结果,并在后续对初步梳理结果进行判断。
其中,预设提取关键词中用于提取的关键词的类型过于相似,导致将只是关键词相似的政务事项聚类到一起,而政务事项之间并不存在关联性,梳理结果错误。
其中,预设提取关键词中用于提取的关键词的种类少,导致提取结果不够精准,在后续梳理过程中,将原本不存在紧密联系的政务事项聚类到一起,导致梳理结果错误。
步骤S320:将所述初步梳理结果转化为可视化逻辑图,并将所述可视化逻辑图输出至显示单元,以供相关工作人员对所述初步梳理结果进行校对,以便于所述相关工作人员对预设提取关键词进行调整;
将初步梳理结果转化为可视化逻辑图,即将初步梳理结果中的数据进行对外输出,将原本表格化或平面化的数据进行转变成思维导图的形式,以更加清晰的形式展示出来,以便于相关工作人员对初步梳理结果进行检查。
示例性的,采用相应的思维导图生成工具,将初步梳理结果转变成清晰的思维导图,以用于相关工作人员对初步梳理结果进行检查。
其中,采用的思维导图工具为百度脑图工具或者MindMaster(思维导图工具)等根据结构化数据的逻辑性进行自动生成思维导图工具。
步骤S330:在所述相关工作人员将所述预设提取关键词调整后,对所述政务事项数据进行重新梳理,得到目标梳理结果。
在自动生成思维导图后,经由相关工作人员对思维导图进行检查,检查初步梳理结果中是否存在错误,若存在错误,则相关工作人员对预设提取关键词进行改进,使用改进后的预设提取关键词重新进行梳理,得到准确的梳理结果。
示例性的,所述在所述相关工作人员将所述预设提取关键词进行调整后,对所述政务事物数据进行重新梳理,得到梳理结果之后,还包括:
步骤e:将所述目标梳理结果输出至相应平台,以供所述相应平台将所述目标梳理结果对外展示;其中,所述政务事项按照预设事项目录的顺序进行展示,所述申请材料以设置级联问询的方式进行展示;其中,所述级联问询为基于所述梳理结果而设定的多级逻辑性问询,通过所述级联问询,确定办理事项人员需准备的所述申请材料;
在将梳理结果输出至相应平台前,将梳理结果封装成功能组件,以便后续在相应平台上使用梳理结果。
相应平台包括政务相关展示网页、网上政务事项申办、办事指南展示或者窗口等。
预设事项目录中按照政务事项大类的顺序进行排布,每个政务事项大类中包括诸多所属政务事项大类的具体政务事项,例如以基于国办函[2016]108号文实施清单中的36要素为基准,划分出政务事项大类。
级联问询为多级或多层次逻辑性判断问询,级联问询的基本逻辑为梳理结果中政务事项和申请材料的对应关系,通过级联问询的方式,从政务事项大类逐级问询到具体的政务事项,以便于精准锁定办理事项的相关人员具体所要办理的政务事项,以及办理该政务事项所需的申请材料。
在本实施例中,将人工智能梳理的梳理结果转化成思维导图,便于相关工作人员对梳理结果进行人工核实,避免因人工智能梳理存在缺陷而导致梳理结果不够精确的情况,增加了梳理政务事项数据的精准度。同时,得到梳理结果后,将梳理结果用于各个相应平台中,便于办理政务事项的相关人员准备相应申请材料,增加了办理政务事项的相关人员的办事幸福感。
此外,本申请还提供一种政务相关数据梳理装置,所述一种政务相关数据梳理装置包括:
获取模块:用于获取政务事项数据;
提取模块:用于基于预设提取关键词,从所述政务事项数据中提取出政务事项的相关内容和申请材料的相关内容,得到提取结果;
聚类模块:用于若所述提取结果存在于预设事项目录中,则对存在对应关系的所述政务事项和所述申请材料进行关联性聚类,并得到聚类结果;
去除模块:用于对所述聚类结果中的重复结果进行去冗余处理,得到目标梳理结果。
识别模块:用于对政务相关的原始资料进行字符识别,得到识别结果;
存储模块:用于将所述识别结果存储在预设数据单元中。
示例性的,所述提取模块包括:
第一提取子单元:用于基于预设提取关键词,从所述政务事项数据中提取政务事项和办理所述政务事项所需的申请材料;
第二提取子单元:用于提取所述政务事项的关键内容,并提取所述政务事项之间的关联性,得到事项提取结果;
第三提取子单元:用于提取所述申请材料的关键内容,并提取所述申请材料与所述政务事项之间的对应关系,得到材料提取结果。
示例性的,所述聚类模块还包括:
判断子单元:用于若所述提取结果存在于预设事项目录中,则对所述提取结果进行关联性聚类;
第一聚类子单元:用于基于所述材料提取结果,将所述申请材料与对应的所述政务事项进行聚类,得到第一聚类结果;
第二聚类子单元:用于基于所述事项提取结果,将存在关联的所述政务事项进行聚类,得到第二聚类结果。
示例性的,所述聚类模块还包括:
第四提取子单元:用于从所述聚类结果中提取出用于判断相似度的第三关键词;其中,所述第三关键词包括所述第一关键词和所述第二关键词;
确定子单元:用于若所述第三关键词存在于多项所述聚类结果中,则确定所述聚类结果中存在的重复结果;
示例性的,所述去除模块还包括:
去除子单元:用于对所述聚类结果中的重复结果进行去冗余处理,得到初步梳理结果;
转化子单元:用于将所述初步梳理结果转化为可视化逻辑图,并将所述可视化逻辑图输出至显示单元,以供相关工作人员对所述初步梳理结果进行校对,以便于所述相关工作人员对预设提取关键词进行调整;
梳理子单元:用于在所述相关工作人员将所述预设提取关键词调整后,对所述政务事物数据进行重新梳理,得到目标梳理结果;
示例性的,所述梳理子单元还包括:
输出单元:用于将所述目标梳理结果输出至相应平台,以供所述相应平台将所述目标梳理结果对外展示;其中,所述政务事项按照预设事项目录的顺序进行展示,所述申请材料以设置级联问询的方式进行展示;其中,所述级联问询为基于所述梳理结果而设定的多级逻辑性问询,通过所述级联问询,确定办理事项人员需准备的所述申请材料。
本申请政务相关数据梳理装置具体实施方式与上述政务相关数据梳理方法各实施例基本相同,在此不再赘述。
此外,本申请还提供一种政务相关数据梳理设备。如图4所示,图4是本申请实施例方案涉及的硬件运行环境的结构示意图。
示例性的,图4即可为政务相关数据梳理设备的硬件运行环境的结构示意图。
如图4所示,该政务相关数据梳理设备可以包括处理器401、通信接口402、存储器404和通信总线404,其中,处理器401、通信接口402和存储器404通过通信总线404完成相互间的通信,存储器404,用于存放计算机程序;处理器401,用于执行存储器404上所存放的程序时,实现政务相关数据梳理方法的步骤。
上述政务相关数据梳理设备提到的通信总线404可以是外设部件互连标准(Peripheral Component Interconnect,PCI)总线或扩展工业标准结构(ExtendedIndustry Standard Architecture,EISA)总线等。该通信总线404可以分为地址总线、数据总线和控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口402用于上述政务相关数据梳理设备与其他设备之间的通信。
存储器404可以包括随机存取存储器(Random Access Memory,RMD),也可以包括非易失性存储器(Non-Volatile Memory,NM),例如至少一个磁盘存储器。可选的,存储器404还可以是至少一个位于远离前述处理器401的存储装置。
上述的处理器401可以是通用处理器,包括中央处理器(Central ProcessingUnit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本申请政务相关数据梳理设备具体实施方式与上述政务相关数据梳理方法各实施例基本相同,在此不再赘述。
此外,本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有政务相关数据梳理程序,所述政务相关数据梳理程序被处理器执行时实现如上所述的政务相关数据梳理方法的步骤。
本申请计算机可读存储介质具体实施方式与上述政务相关数据梳理方法各实施例基本相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
本文发布于:2023-04-14 05:22:17,感谢您对本站的认可!
本文链接:https://patent.en369.cn/patent/3/86442.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |