一种中文专利文本相似度计算方法
CN201810310198.1,一种中文专利文本相似度计算方法,本发明涉及一种中文专利文本相似度计算方法,包括:对文本进行分词;对分词结果计算TF?IDF值,抽取TF?IDF值较高的作为关键词,定位关键词所在的句子作为关键句,并将关键句中关键词最大的权值作为关键句的权值,得到每个文本的关键句集合;计算每个关键句的对文本的权重,依次选取待对比文本和对比文本的关键句,基于关键句的句子相似度计算文本的相似度。本发明利用已有的专利领域本体,分析专利文本中的语义关系,利用向量空间模型和领域本体来进行专利文本相似度
时间:2023-03-13 热度:38℃