一种专利文本相似度计算方法
CN201810310246.7,一种专利文本相似度计算方法,本发明涉及一种专利文本相似度计算方法,包括以下步骤:从两个专利文本中提取专利数据,对专利数据进行预处理;将词性权重和词位置权重与TF?IDF算法相结合计算出词权重;将两个专利文本以向量空间模型表示出来,得到两个分布式词向量;计算文本相似度,当得到的专利文本相似度大于设定的阈值时,则认为两篇专利相似,否则不相似。本发明综合考虑了专利结构特点和词汇间语义关系,将IPC分类号、摘要、权利要求书等专利文本特有的结构融合到文本相似度计算方法当中,比一般文
时间:2023-03-13 热度:27℃