← 返回列表

一种基于改进的结构化处理的项目文本查重方法及系统

申请号: CN202311496882.0
申请人: 杭州市余杭区数据资源管理局
申请日期: 2023/11/10

摘要文本

本发明公开了一种基于改进的结构化处理的项目文本查重方法及系统,属于数据处理技术领域,方法包括:获取当前项目方案;通过自然语言处理技术,提取当前项目方案中的项目文本,项目文本包括:图表文本、结构化文本与非结构化文本;计算各个历史项目方案与当前项目方案之间的图表文本相似度;计算各个历史项目方案与当前项目方案之间的结构化文本相似度;计算各个历史项目方案与当前项目方案之间的非结构化文本相似度;根据图表文本相似度、结构化文本相似度与非结构化文本相似度,计算综合相似度;当存在历史项目方案与当前项目方案之间的结构化文本相似度大于第一预设相似度或者综合相似度大于第二预设相似度时,输出第一提示信息。 关注微信公众号马克数据网

专利详细信息

项目 内容
专利名称 一种基于改进的结构化处理的项目文本查重方法及系统
专利类型 发明申请
申请号 CN202311496882.0
申请日 2023/11/10
公告号 CN117591643A
公开日 2024/2/23
IPC主分类号 G06F16/332
权利人 杭州市余杭区数据资源管理局
发明人 王维忠; 吴鹏程; 董世聪; 周汝琴; 陈雄; 谢鲲
地址 浙江省杭州市余杭区仓前街道文一西路1500号6号楼5单元9-11楼、6号楼单元9、11楼

专利主权项内容

1.一种基于改进的结构化处理的项目文本查重方法,其特征在于,包括:S1:获取当前项目方案;S2:通过自然语言处理技术,提取所述当前项目方案中的项目文本,所述项目文本包括:图表文本、结构化文本与非结构化文本;S3:计算各个历史项目方案与所述当前项目方案之间的图表文本相似度;S4:计算各个历史项目方案与所述当前项目方案之间的结构化文本相似度;S5:计算各个历史项目方案与所述当前项目方案之间的非结构化文本相似度;S6:根据所述图表文本相似度、所述结构化文本相似度与所述非结构化文本相似度,计算综合相似度;S7:当存在历史项目方案与所述当前项目方案之间的结构化文本相似度大于第一预设相似度或者综合相似度大于第二预设相似度时,输出第一提示信息。 (来源 马克数据网)