G06F17/30
1.一种专利领域的垂直搜索引擎,其特征在于:包括以下步骤:
A、专利信息采集
信息采集模块的主要功能是通过网络蜘蛛技术抓取专利领域的网页并存储 到本地;垂直网络蜘蛛主要包括主题确定、网页采集、链接分析、内容分析和 相关性分析五个模块;
A1、主题确定
主题确定模块主要解决初始种子URL的选取及主题特征的提取;初始种子 URL,并通过程序收集一定数目的专利网页作为训练集合,经中文分词处理后, 确定相应的主题特征词,用于后续的主题相关度分析;
A2、网页采集
网络蜘蛛采用多线程技术,从URL队列中获取输入数据,向该URL对应 的Web服务器发出下载请求,采集到的页面由后续模块做进一步的处理;
A3、链接分析
对于采集到的网页,分析并尽可能多地提取出其中的链接;页面链接的URL 一般是多种格式的,可能是完整路径,也可能是相对路径,必须对它们进行处 理转换得到统一标准格式的完整URL,然后调用相关性分析模块决定URL的取 舍,对于满足条件的URL插入到URL队列中;
A4、内容分析
对于采集到的网页,分析网页文本信息,包括过滤HTML标签、网页内容 文本提取、切词,提取其中的特征项;
A5、相关性分析
主题相关性分析模块通过向量空间模型计算网页向量与主题特征向量之间 的相似度;以此决定网页的取舍以及URL在候选队列中的优先级顺序;
B、专利信息抽取
首先,对目标网页进行分析,确定待抽取的元数据并分析其对应的HTML 代码特点;然后,根据待抽取元数据在网页中对应的代码特点制定相应的抽取 规则,抽取规则的制定要保证对待抽取数据匹配的唯一性;最后,对抽取后的 结构化数据进行整合处理,确保数据库中专利信息的一致性和完整性;
C、专利信息检索
C1、建立索引文件
通过接口调用Lucene的索引模块,实现对数据库中的信息建立索引;首先 从数据库中提取出要索引的文本,将文本组织成一个Document类型的对象;由 分析器对文本进行分析,针对中文文本主要需要实现的是中文分词;文本分析 后,索引生成模块把预处理后的文档加入到索引文件中,包括统计每个词在文 档中出现的次数、出现的位置等相关信息,将这些信息存储在索引文件中;
C2、专利搜索
首先对用户输入的搜索关键词进行切词,然后从索引文件中查包含切分 出的每个词的文档并对这些文档集进行汇总,得到最终的结果集;如果结果集 中的文档数大于零,则对检索结果按照相关度排序,并对首页显示的结果进行 关键词高亮显示后返回给用户,并对当前的检索结果进行缓存处理;
D、聚类可视化
首先对检索模块返回的搜索结果进行数据预处理,主要是去除中文停用词 和非词的标记,然后对处理后的文本字符串生成一颗后缀树,通过后缀树识别 短语类进行聚类,对短语类处理合并后生成最终的聚类结果,最后对聚类结果 进行可视化表示。
一种专利领域的垂直搜索引擎
技术领域
本发明涉及搜索引擎技术,特别是一种针对专利领域的垂直搜索引擎。
背景技术
随着Internet的迅猛发展和Web信息的增加,从海量级的网络信息资源中快 速准确地获取信息就显得越来越困难,也变得越来越重要。搜索引擎就是在这 样的背景下出现的技术,它整合了互联网上的网页资源,并提供信息导航和信 息查询服务,在很大程度上解决了人们在互联网上查和定位信息的瓶颈问题。 但是,目前的通用搜索引擎在使用中也面临着许多问题。
Web上的信息量十分庞大,通用搜索引擎试图对Web进行整体信息的抓取, 在硬件资源和网络资源方面的代价将是十分巨大的。而事实上,许多页面的使 用几率很小,这就存在着一个极大的信息资源的存储浪费问题。另外,Web页 面的动态变化使得网页数据在抓取到的那一刻起就面临着过时的风险,为了降 低这种风险,需要不停地对己提取的Web信息重新提取以保持对数据的更新。 随着Web信息规模上的急剧增长,面向整体Web信息提取中的刷新问题变得异 常的尖锐。尽管可以通过不断地提高单机性能,使用分布式计算技术增加系统 的并行能力,设计新型算法以优化刷新策略,但是Web信息的刷新问题的解决 还远不能令人满意,许多大型通用搜索引擎刷新一次Web数据需要几周甚至几 个月的时间。
垂直搜索引擎正是针对通用搜索引擎的信息量大、查询不准确、深度不够 等问题提出来的新的搜索引擎服务模式。垂直搜索在Web信息采集过程中根据 主题性决定页面的取舍,使绝大部分与主题无关的页面被舍弃掉,这样做的目 的使得采集到的页面有着较高的利用率,也极大地节省了资源的消耗。另外, 对于垂直搜索的Web信息提取而言,Web信息的刷新问题相对容易处理。随着 提取页面数量的大幅度降低,就可以缩短页面的刷新周期,从而使得数据过时 的风险也随之降低。
专利垂直搜索系统是在专利领域应用垂直搜索的理念和技术,面向互联网 中为数不多的专利权威网站,对它们的专利信息资源进行抓取、分析、整合, 最后给专利相关工作者提供专业的专利搜索以及聚类可视化分析服务。专利工 作者的主要需求有:一是可以按不同的专利字段搜索专利信息;二是可以根据 不同字段的组合关系检索满足条件的专利,如and、or关系;三是可以对专利检 索结果动态聚类,以方便从整体上对专利进行挖掘分析。
发明内容
为更好的满足用户的要求,本发明要设计并实现一种针对专利领域的垂直 搜索引擎。
为了实现上述目的,本发明的技术方案如下:一种专利领域的垂直搜索引 擎,包括以下步骤:
A、专利信息采集
信息采集模块的主要功能是通过网络蜘蛛技术抓取专利领域的网页并存储 到本地。垂直网络蜘蛛主要包括主题确定、网页采集、链接分析、内容分析和 相关性分析五个模块。
A1、主题确定
主题确定模块主要解决初始种子URL的选取及主题特征的提取。初始种子 URL,并通过程序收集一定数目的专利网页作为训练集合,经中文分词处理后, 确定相应的主题特征词,用于后续的主题相关度分析。
A2、网页采集
网络蜘蛛采用多线程技术,从URL队列中获取输入数据,向该URL对应 的Web服务器发出下载请求,采集到的页面由后续模块做进一步的处理。
A3、链接分析
对于采集到的网页,分析并尽可能多地提取出其中的链接。页面链接的URL 一般是多种格式的,可能是完整路径,也可能是相对路径,必须对它们进行处 理转换得到统一标准格式的完整URL,然后调用相关性分析模块决定URL的取 舍,对于满足条件的URL插入到URL队列中。
A4、内容分析
对于采集到的网页,分析网页文本信息,包括过滤HTML标签、网页内容 文本提取、切词,提取其中的特征项。
A5、相关性分析
主题相关性分析模块通过向量空间模型计算网页向量与主题特征向量之间 的相似度。以此决定网页的取舍以及URL在候选队列中的优先级顺序。
B、专利信息抽取
首先,对目标网页进行分析,确定待抽取的元数据并分析其对应的HTML 代码特点。然后,根据待抽取元数据在网页中对应的代码特点制定相应的抽取 规则,抽取规则的制定要保证对待抽取数据匹配的唯一性。最后,对抽取后的 结构化数据进行整合处理,确保数据库中专利信息的一致性和完整性。
C、专利信息检索
C1、建立索引文件
通过接口调用Lucene的索引模块,实现对数据库中的信息建立索引。首先 从数据库中提取出要索引的文本,将文本组织成一个Document类型的对象。由 分析器对文本进行分析,针对中文文本主要需要实现的是中文分词。文本分析 后,索引生成模块把预处理后的文档加入到索引文件中,包括统计每个词在文 档中出现的次数、出现的位置等相关信息,将这些信息存储在索引文件中。
C2、专利搜索
首先对用户输入的搜索关键词进行切词,然后从索引文件中查包含切分 出的每个词的文档并对这些文档集进行汇总,得到最终的结果集。如果结果集 中的文档数大于零,则对检索结果按照相关度排序,并对首页显示的结果进行 关键词高亮显示后返回给用户,并对当前的检索结果进行缓存处理。
D、聚类可视化
首先对检索模块返回的搜索结果进行数据预处理,主要是去除中文停用词 和非词的标记,然后对处理后的文本字符串生成一颗后缀树,通过后缀树识别 短语类进行聚类,对短语类处理合并后生成最终的聚类结果,最后对聚类结果 进行可视化表示。
与现有技术相比,本发明具有以下有益效果:
1、专利信息绝大部分集中在少数几个专利站点,所以只需要对这些特定的 专利站点进行采集,就能满足绝大多数用户的需求。采集对象的有限性和针对 性,可以很好的提高采集的效率和准确率,而且信息的及时更新也可以得到保 证。
2、对聚类结果进行可视化能使用户更加直观形象地理解聚类得到的信息, 了解数据之间的相互关系及发展趋势,从更高的层次对数据进行更深入的观察 和分析。
具体实施方式
A、专利信息采集
信息采集模块的主要功能是通过网络蜘蛛技术抓取专利领域的网页并存储 到本地。垂直网络蜘蛛主要包括主题确定、网页采集、链接分析、内容分析和 相关性分析五个模块。
以中华人民共和国国家知识产权局站点作为初始种子URL,其中包含着大 量的专利信息资源,但是通过分析发现该站点的专利数据是动态生成的,而且 采用的是Javascript分页方式,导致不同专利数据页面的URL相同,因此一般 的网络蜘蛛抓取不到分页后的专利页面。针对这种分页方式的Web站点,本专 利通过分析该站点的HTML代码,采用网络蜘蛛模拟填写表单并自动提交的方 式抓取分页后的专利数据信息。
B、专利信息抽取
首先,通过分析抓取的中华人民共和国国家知识产权局的专利网页,确定 抽取的元数据包括专利申请号、申请日、名称、公开号、公开日、分类号、申 请人、发明人、专利代理机构、代理人、摘要等信息。
然后,针对中华人民共和国国家知识产权局站点中的专利网页,为待抽取 元数据编写的正则表达式规则。
最后,本专利在数据库中以专利申请号作为专利信息的标识属性,作为区 分不同专利信息的依据。
C、专利信息检索
C1、建立索引
本专利实现的索引模块负责对数据库中的结构化数据建立索引,生成的索 引文件为检索模块提供服务。Lucene提供了非常简单的建立索引的方法,可以 对大量数据进行批量索引,还提供了增量索引技术。本专利通过系统接口调用 Lucene的索引模块,实现对数据库中的信息建立索引。
首先从数据库中提取出要索引的文本,将文本组织成一个Document类型的 对象,因为只有符合Lucene.Document要求的文档才能使用Lucene对其建索引。 Lucene的文档是由多个字段组成的,因此可以控制哪些字段需要进行索引,哪 些字段不需要索引,索引的字段是否需要分词等等。接下来由分析器对文本进 行分析,针对中文文本主要需要实现的是中文分词。文本分析后,索引生成模 块把预处理后的文档加入到索引文件中,包括统计每个词在文档中出现的次数、 出现的位置等相关信息,这些信息都会被存储在索引文件中,最后生成的索引 文件就可以被检索模块进行调用。
建立好的索引文件是不可读的,要想查看索引信息,以及对索引进行一些 特殊操作,可以使用第三方工具包Luke进行操作。Luke的功能十分强大,不仅 可以显示Lucene所建立的索引文件的内部结构,而且还可以监视和修改索引文 件。
D、聚类可视化
首先对检索模块返回的搜索结果进行数据预处理,主要是去除中文停用词 和非词的标记,然后对处理后的文本字符串生成一颗后缀树,通过后缀树识别 短语类进行聚类,对短语类处理合并后生成最终的聚类结果,最后对聚类结果 进行可视化表示。
利用GIS技术,用可视化地图的形式表示聚类结果。GIS中的数据分为两 类:一类主要是和空间位置、空间关系有关的数据,称为空间数据;一类是地 理元素中非空间的属性信息,称为属性数据。因此,可以通过空间数据定位聚 类后每个类别的位置,而属性数据则可以表现每个类的不同特征。针对一次查 询结果生成的聚类可视化地图。
本文发布于:2023-03-12 22:30:45,感谢您对本站的认可!
本文链接:https://patent.en369.cn/patent/3/68357.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |