← 返回列表

一种文本内容查重的版权保护方法、装置及存储介质

申请号: CN202311840354.2
申请人: 广东南方智媒科技有限公司
更新日期: 2026-03-09

专利详细信息

项目 内容
专利名称 一种文本内容查重的版权保护方法、装置及存储介质
专利类型 发明申请
申请号 CN202311840354.2
申请日 2023/12/29
公告号 CN117574330A
公开日 2024/2/20
IPC主分类号 G06F21/10
权利人 广东南方智媒科技有限公司
发明人 麦淼; 王梦环; 李梓华; 罗小龙
地址 广东省广州市越秀区广州大道中289号新闻中心A座26楼

摘要文本

广东南方智媒科技有限公司获取“一种透气窗帘布”专利技术,本发明涉及一种文本内容查重的版权保护方法、装置及存储介质,该方法包括构建文本指纹库,文本指纹库包括用于文本内容查重的若干篇原创稿件的指纹信息以及对应的版权信息;提取待查重稿件的文本指纹列表,将其与文本指纹库中的文本指纹列表进行匹配,匹配完毕后输出查重结果。本发明与现有技术相比,其显著优点是:采用文本指纹预处理存储的方法加速了稿件查重效率,同时文本指纹能够在一定程度上匹配出改编稿件与原创稿件的内容重叠度,避免原创稿件出现被任意篡改、删减导致查重失败的情况,有效解决了版权监测查重效率慢、准确度低、监测范围小的问题。。 (更多数据,详见专利查询网)

专利主权项内容

1.一种文本内容查重的版权保护方法,其特征在于:所述方法包括:构建文本指纹库,文本指纹库包括用于文本内容查重的若干篇原创稿件的指纹信息以及对应的版权信息;提取待查重稿件的文本指纹列表,将待查重稿件的文本指纹列表与文本指纹库中的文本指纹列表进行匹配,匹配完毕后输出查重结果;其中,所述原创/待查重稿件的指纹信息的提取流程为:将原创/待查重稿件中的每个中文字符进行拼音转换,得到拼音列表;将拼音列表中每个拼音元素进行首字母提取,得到首字母列表,依次提取首字母列表的字母元素,并进行字符串拼接得到首字母长文本;采用滑动窗口对所述首字母长文本进行分段,得到首字母短文本列表;依次对首字母短文本列表中的每个首字母短文本进行指纹转化,生成每个首字母短文本的文本指纹,进而得到稿件的文本指纹列表;对任一首字母短文本进行指纹转化的流程如下:统计首字母短文本中每个字母元素的出现次数,提取出现次数最多的N个字母元素以及其对应的出现次数,生成对应首字母出现次数映射表;其中,N为预置的指纹长度;依次将首字母出现次数映射表中每个字母元素的出现次数与预置的指纹转化阈值进行如下比较,得到每个字母元素对应的指纹转化结果,生成对应首字母短文的文本指纹列表;若任一字母的出现次数大于预置的指纹转化阈值,则该字母元素对应的指纹转化结果为9;若任一字母的出现次数小于等于预置的指纹转化阈值,则该字母元素对应的指纹转化结果为Int(9/K)*x;其中,K为预置的指纹转化阈值,x为该字母元素的出现次数。