一种版式文件对比方法及系统
摘要文本
来自马-克-数-据 。本发明涉及数据处理技术领域,具体涉及一种版式文件对比方法及系统,具体包括:通过提取待对比论文版式文件中的文本内容,根据待对比论文文本内容中各词组在论文正文以及重要信息部分出现的次数,构建词组的可表征性指数;结合各词组的词性构建各词组的选词贡献度,结合词频‑逆文档频率值获取待对比论文的表征关键词,利用Levenshtein距离与Jaro‑Winkler算法计算待对比论文与论文库中论文的表征关键词之间的一级相似度,通过一级相似度聚类得到高相似论文,与待对比论文比较判断抄袭情况。从而实现版式文件对比,提高了论文对比的效率,解决了LCS算法在论文对比时,需要逐一对比而效率较低的问题。
申请人信息
- 申请人:北京点聚信息技术有限公司
- 申请人地址:100000 北京市海淀区永丰路9号院3号楼2层101
- 发明人: 北京点聚信息技术有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种版式文件对比方法及系统 |
| 专利类型 | 发明授权 |
| 申请号 | CN202410122043.0 |
| 申请日 | 2024/1/30 |
| 公告号 | CN117648917B |
| 公开日 | 2024/3/29 |
| IPC主分类号 | G06F40/194 |
| 权利人 | 北京点聚信息技术有限公司 |
| 发明人 | 范红达; 李超; 赵云; 庄玉龙; 朱静宇; 陆猛 |
| 地址 | 北京市海淀区永丰路9号院3号楼2层101 |
专利主权项内容
1.一种版式文件对比方法,其特征在于,该方法包括以下步骤:将待对比论文版式文件作为初始文件;通过OCR模型及正则表达式获取初始文件中纯文本数据;通过jieba分词系统获取纯文本数据中各词组;根据各词组结合依存句法分析算法得到提纯文本数据;将提纯文本数据中的所有词组作为初始文件的词组分词数据;根据词组分词数据中各词组、所在语句的出现次数得到各词组的可表征性指数;通过隐马尔科夫模型获取各词组的词性;将各词组与对应右相邻词组合并得到各词组的连携词组,其中,最后一个词组的右相邻词组为所述最后一个词组的左相邻词组;根据各词组的可表征性指数及各连携词组的出现次数得到各词组的连携可表征指数;根据各词组的连携可表征指数得到各词组的选词贡献度:通过词频-逆文档频率算法获取词组分词数据中各词组的词频-逆文档频率;将各词组的选词贡献度与词频-逆文档频率的组合作为各词组的特征二维组;根据各词组的特征二维组及K-means聚类算法得到初始文件的各表征关键词;根据表征关键词及Levenshtein距离、Jaro-Winkler算法得到初始文件与论文库中各论文之间的一级相似度;根据一级相似度结合DBSCAN聚类算法得到高相似对比簇;根据高相似对比簇结合LCS算法对初始论文进行对比判断;所述根据词组分词数据中各词组、所在语句的出现次数得到各词组的可表征性指数,具体包括:计算各词组在纯文本数据中出现次数与纯文本数据中词组总数的比值;在待对比论文版式文件中,获取各词组所在语句的出现频率;计算所述比值与所述语句的出现频率的乘积;将所述乘积作为各词组的第一表征指数;通过PyMuPDF解析库对初始文件进行解析得到初始文件中具有标题格式或加粗格式的字符,记为重要字符;将所有具有重要字符的词组作为重要信息文本数据;获取各词组在重要信息文本数据中出现次数;计算所述出现次数与重要信息文本数据中词组总数的比值;将所述比值与第一表征指数的乘积作为各词组的可表征性指数;所述根据各词组的可表征性指数及各连携词组的出现次数得到各词组的连携可表征指数,具体包括:通过词组分词数据中各词组的可表征性指数的计算方法获取各词组的连携词组的可表征性指数;若各词组的词性为名词,则将各词组的词性权重预设为A,反之,则各词组的词性权重预设为B,其中A>B;计算各词组与所属右相邻词组的词性权重的和值;计算各词组的连携词组的可表征性指数与在连携分词数据集合中出现次数的乘积,记为第一乘积;计算各词组的可表征性指数与在词组分词数据中出现次数的乘积,记为第二乘积;将第一乘积与第二乘积的比值作为各词组的连携词组的可表征性;计算各词组的连携词组的可表征性与所述和值的乘积,记为第三乘积;将第三乘积作为各词组的连携可表征指数。