基于化学结构式的检索系统

阅读: 评论:0

著录项
  • CN201811238155.3
  • 20181023
  • CN111091880A
  • 20200501
  • 大连神奇视角网络科技有限公司
  • 孙文新
  • G16C20/40
  • G16C20/40

  • 辽宁省大连市高新园区火炬路1号海外学子创业园A座一层(100室房间)-22
  • 辽宁(21)
  • 大连东方专利代理有限责任公司
  • 姜玉蓉
摘要
本发明公开了一种基于化学结构式的检索系统,包括:输入单元;标准官能团存储单元;比对单元,用于将绘制的化学结构式与标准官能团集中的标准官能团作比较,从标准官能团集中提取与绘制的化学结构式包含的官能团相一致的标准官能团,并存储至提取官能团集中;提取单元,用于从专利文献集中提取含有化学结构式的专利文献,并存储至化学结构式专利文献集;检索式存储单元,用于存储以提取官能团集中的标准官能团为检索要素构建的检索式的检索式集;检索单元;准确率计算单元;准确率比较单元;输出单元;去除噪声单元。本发明可针对化学结构式进行检索,检索结果噪声较低、准确率较高。
权利要求

1.一种基于化学结构式的检索系统,其特征在于包括:

输入单元,用于接收绘制的化学结构式;

标准官能团存储单元,用于存储标准官能团集;

比对单元,用于将绘制的化学结构式与标准官能团集中的标准官能团作比较,从标准官能团集中提取与绘制的化学结构式包含的官能团相一致的标准官能团,并存储至提取官能团集中;

提取单元,用于从专利文献集中提取含有化学结构式的专利文献,并存储至化学结构式专利文献集;

检索式存储单元,用于存储以提取官能团集中的标准官能团为检索要素构建的检索式的检索式集;

检索单元,用于接收检索式存储单元存储的检索式集,并根据检索式集中的检索式在化学结构式专利文献集中进行检索,并存储检索结果,构建检索结果集;

准确率计算单元,用于从检索结果集中抽查文献,构成抽查文献集,将抽查文献集中与绘制的化学结构式相关的文献数量与抽查文献集中的文献数量作比较,得到比值;

准确率比较单元,用于将准确率计算单元得到的比值与阀值作比较;

输出单元,用于当准确率计算单元得到的比值大于阀值时,输出检索结果集;

去除噪声单元,用于当准确率计算单元得到的比值小于阀值时,从抽查文献集中与绘制的化学结构式不相关的文献中提取噪声官能团,并从检索式集中的检索式中去除噪声官能团,得到去燥检索式集,并根据去燥检索式集中的检索式进行检索,检索结果替换在第一检索单元内存储的检索结果集。

2.根据权利要求1所述的基于化学结构式的检索系统,其特征在于,所述输入单元为画板模块。

3.根据权利要求1所述的基于化学结构式的检索系统,其特征在于,所述输入单元包括扫描模块和化学结构式识别模块,所述扫描模块用于扫描纸张上的绘制图形,所述化学结构式识别模块用于识别绘制图形中的化学结构式。

4.根据权利要求1所述的基于化学结构式的检索系统,其特征在于,所述阀值为0.90。

5.根据权利要求1所述的基于化学结构式的检索系统,其特征在于,所述输出单元包括用于显示检索结果集的显示模块。

6.根据权利要求1所述的基于化学结构式的检索系统,其特征在于,从检索结果集中抽查文献可按申请日、进入国家进行抽取。

说明书
技术领域

本发明涉及检索系统,尤其涉及一种基于化学结构式的检索系统。

化学结构式是表示用元素符号和短线表示化合物(或单质)分子中原子的排列和结合方式的化学组成式,是一种简单描述分子结构的方法。由于有机化合物中存在着同分异构现象,因此一个分子式可能代表两种或两种以上具有不同结构的物质,只能通过化学结构式加以区分,在知道某一物质的分子式后,可利用该物质的特殊性质,通过定性或定量实验来确定其化学结构式。

现有的检索系统,可通过输入检索式来检索相关专利文献,输入的检索要素为申请人、分类号、关键词等,化学领域的关键词包含分子式,而一个分子式可能包含多种物质,且性质往往也不一样。比如各种有机物的同分异构体,分子式相同,但是结构式不一样,就显示出性质的差异。更不必说相同化学式的不同类物质,比如二甲醚和乙醇的分子式均为C2H6O,但其结构不同。综上所述,现有的检索系统缺乏针对化学结构式的检索,造成检索结果噪声过大,准确率较低。

根据现有技术存在的问题,本发明公开了一种基于化学结构式的检索系统,包括:

输入单元,用于接收绘制的化学结构式;

标准官能团存储单元,用于存储标准官能团集;

比对单元,用于将绘制的化学结构式与标准官能团集中的标准官能团作比较,从标准官能团集中提取与绘制的化学结构式包含的官能团相一致的标准官能团,并存储至提取官能团集中;

提取单元,用于从专利文献集中提取含有化学结构式的专利文献,并存储至化学结构式专利文献集;

检索式存储单元,用于存储以提取官能团集中的标准官能团为检索要素构建的检索式的检索式集;

检索单元,用于接收检索式存储单元存储的检索式集,并根据检索式集中的检索式在化学结构式专利文献集中进行检索,并存储检索结果,构建检索结果集;

准确率计算单元,用于从检索结果集中抽查文献,构成抽查文献集,将抽查文献集中与绘制的化学结构式相关的文献数量与抽查文献集中的文献数量作比较,得到比值;

准确率比较单元,用于将准确率计算单元得到的比值与阀值作比较;

输出单元,用于当准确率计算单元得到的比值大于阀值时,输出检索结果集;

去除噪声单元,用于当准确率计算单元得到的比值小于阀值时,从抽查文献集中与绘制的化学结构式不相关的文献中提取噪声官能团,并从检索式集中的检索式中去除噪声官能团,得到去燥检索式集,并根据去燥检索式集中的检索式进行检索,检索结果替换在第一检索单元内存储的检索结果集。

所述输入单元为画板模块。

所述输入单元包括扫描模块和化学结构式识别模块,所述扫描模块用于扫描纸张上的绘制图形,所述化学结构式识别模块用于识别绘制图形中的化学结构式。

所述阀值为0.90。

所述输出单元包括用于显示检索结果集的显示模块。

从检索结果集中抽查文献可按申请日、进入国家进行抽取。

与现有技术相比,本发明可针对化学结构式进行检索,检索结果噪声较低、准确率较高。

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明的具体实施方式中基于化学结构式的检索系统的结构示意图。

为使本发明的技术方案和优点更加清楚,下面结合本发明实施例对本发明中的技术方案进行清楚完整的描述:

一种基于化学结构式的检索系统,包括:

输入单元,用于接收绘制的化学结构式;

所述输入单元包括扫描模块和化学结构式识别模块,所述扫描模块用于扫描纸张上的绘制图形,所述化学结构式识别模块用于识别绘制图形中的化学结构式。

所述扫描模块得到绘制图形,将其灰度化处理并进行边缘提取,获取绘制图形的边缘信息,根据绘制图形的边缘信息去除绘制图形的边缘,得到去边缘的绘制图形;

所述化学结构式识别模块提取去边缘的绘制图形中的化学结构式。

标准官能团存储单元,用于存储标准官能团集,常见的标准官能团为碳羟基、羧基、醚键、醛基、羰基等;

比对单元,用于将绘制的化学结构式与标准官能团集中的标准官能团作比较,从标准官能团集中提取与绘制的化学结构式包含的官能团相一致的标准官能团,并存储至提取官能团集中;

提取单元,用于从专利文献集中提取含有化学结构式的专利文献,并存储至化学结构式专利文献集;

检索式存储单元,用于存储以提取官能团集中的标准官能团为检索要素构建的检索式的检索式集;

检索单元,用于接收检索式存储单元存储的检索式集,并根据检索式集中的检索式在化学结构式专利文献集中进行检索,并存储检索结果,构建检索结果集;

准确率计算单元,用于从检索结果集中抽查文献,构成抽查文献集,将抽查文献集中与绘制的化学结构式相关的文献数量与抽查文献集中的文献数量作比较,得到比值;

类如,抽查文献集中的文献数量为10,其中有8个文献与检索策略相关,则比值为0.8;

准确率比较单元,用于将准确率计算单元得到的比值与0.90作比较;

输出单元,用于当准确率计算单元得到的比值大于0.90时,输出检索结果集;

所述输出单元包括用于显示检索结果集的显示模块。

去除噪声单元,用于当准确率计算单元得到的比值小于0.90时,从抽查文献集中与绘制的化学结构式不相关的文献中提取噪声官能团,并从检索式集中的检索式中去除噪声官能团,得到去燥检索式集,并根据去燥检索式集中的检索式进行检索,检索结果替换在第一检索单元内存储的检索结果集。

从检索结果集中抽查文献可按申请日、进入国家进行抽取。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

本文发布于:2023-03-13 09:12:26,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/3/69695.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图