← 返回列表

一种文献查重的方法、装置、存储介质及电子设备

申请号: CN202311696616.2
申请人: 中国科学院文献情报中心
申请日期: 2023/12/11

摘要文本

本申请提供了一种文献查重的方法、装置、存储介质及电子设备,该方法包括:对待查重文本与对比库进行对比,获取第一筛选结果;在所述第一筛选结果中存在所述文本内容的情况下,则对所述文本内容和所述待查重文本进行句向量相似度计算,获取第二筛选结果,所述待查重文本和所述目标文本中均含有至少一种语句类型;对所述目标文本和所述待查重文本进行重复度计算,获取所述至少一种语句类型中每种语句类型对应的语句重复度值;根据所述每种语句类型对应的语句重复度值和所述每种语句类型的权重值,获取所述待查重文本的文本查重结果。本申请实施例可以提升文本的查重效率和精准度。 来源:百度马 克 数据网

专利详细信息

项目 内容
专利名称 一种文献查重的方法、装置、存储介质及电子设备
专利类型 发明申请
申请号 CN202311696616.2
申请日 2023/12/11
公告号 CN117763106A
公开日 2024/3/26
IPC主分类号 G06F16/332
权利人 中国科学院文献情报中心
发明人 王猛; 张智雄; 于改红; 叶志飞; 李涵昱; 刘熠
地址 北京市海淀区中关村北四环西路33号

专利主权项内容

1.一种文献查重的方法,其特征在于,包括:对待查重文本与对比库进行对比,获取第一筛选结果,其中,所述第一筛选结果表征所述对比库中是否存在与所述待查重文本相似的文本内容;在所述第一筛选结果中存在所述文本内容的情况下,则对所述文本内容和所述待查重文本进行句向量相似度计算,获取第二筛选结果,其中,所述第二筛选结果表征所述文本内容中与所述待查重文本相似的目标文本,所述待查重文本和所述目标文本中均含有至少一种语句类型;对所述目标文本和所述待查重文本进行重复度计算,获取所述至少一种语句类型中每种语句类型对应的语句重复度值;根据所述每种语句类型对应的语句重复度值和所述每种语句类型的权重值,获取所述待查重文本的文本查重结果。