基于聚类和集成学习的不平衡语言隐写分析方法及装置
摘要文本
本发明公开了基于聚类和集成学习的不平衡语言隐写分析方法及装置,涉及文本隐写分析技术领域。构建了包括预处理模块、聚类欠采样模块、模型集成模块和语言隐写分析模块的装置,首先通过预处理模块对自然文本语料库进行预处理,得到隐写文本数据集;然后聚类欠采样模块根据数据集中检测难度的分布设计了一种动态聚类方法,将覆盖文本分成不同的子簇,从不同的子簇中选择文本形成子集,将该子集与隐秘样本组合成一个新的数据集,并使用新数据集来训练基分类器。模型集成模块将每次迭代训练好的基分类器集成到集成分类器中,进行下一次迭代;语言隐写分析模块在迭代完成后,输出最终的隐写分析结果。本发明提升了不平衡场景下文本隐写分析的有效性。。关注公众号专利查询网
申请人信息
- 申请人:北京邮电大学
- 申请人地址:100876 北京市海淀区西土城路10号
- 发明人: 北京邮电大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 基于聚类和集成学习的不平衡语言隐写分析方法及装置 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311204860.2 |
| 申请日 | 2023/9/19 |
| 公告号 | CN117332082A |
| 公开日 | 2024/1/2 |
| IPC主分类号 | G06F16/35 |
| 权利人 | 北京邮电大学 |
| 发明人 | 王壮; 陈学楷; 郭胜男; 杨忠良; 周琳娜 |
| 地址 | 北京市海淀区西土城路10号 |
专利主权项内容
1.基于聚类和集成学习的不平衡语言隐写分析方法,其特征在于,具体步骤如下:步骤一,搜集若干个自然文本语料库,进行预处理,构建隐写文本数据集;所述预处理的过程具体为:首先,通过生成式隐写模型RNN-Stega生成隐写文本;然后,将隐写文本通过条件概率编码方法嵌入进自然文本中,形成隐写文本数据集;步骤二,利用动态聚类方法对隐写文本数据集进行分簇,直到子簇的数量达到要拆分的簇中样本的数量;动态聚类的具体过程为:步骤S21,对隐写文本数据集中各目标隐写文本进行建模,根据集成分类器的数据,得到每个文本的预测概率,由此获得各文本的检测难度;步骤S22,将各文本按照检测难度从小到大的顺序进行排序,形成一个大簇;步骤S23,按照检测难度从小到大的顺序遍历大簇中的每个文本,针对正在遍历的某个文本,将检测难度小于该文本的子集称为左侧簇,将检测难度大于该文本的子集称为右侧簇,由此将一个大簇临时划分为一个左侧簇和一个右侧簇,分别计算这两个子簇的变异系数;步骤S24,使用变异系数来衡量子簇中文本的离散程度,经过一轮遍历后,当离散程度最小时,确定将大簇划分为两个子簇的位置,此时将大簇划分为确定的两个子簇c和c;lr步骤S25,设置参数num,判断各子簇中的文本数是否小于num,如果是,则不再继续拆分该簇;否则,返回步骤S23,继续对子簇进行分簇操作,直至所有子簇中文本的数量小于num,或者子簇的数量达到要拆分的簇中样本的数量;要拆分的簇中样本的数量N:scN=max(int(IR), c)sc其中,int()为向下取整函数,c为常数,IR表示原始文本与隐秘文本的样本数量之比,即不平衡比率;步骤三,在每一次分簇完成后,从不同的子簇中选择文本形成一个子集,然后将该子集与隐秘样本组合成一个新数据集,并使用新数据集来训练基分类器;新数据集的形成过程为:步骤S31,依据每个子簇的变异系数和每个子簇中所有文本的检测难度之和,来计算每个子簇的重要性;子簇的重要性imp为:k其中,Nc表示第k个子簇中的文本数量,表示子簇中所有文本的检测难度之和,C(c)表示第k个子簇的变异系数;kvk步骤S32,根据每个子簇的重要性,计算每个子簇的采样比例,以及每个子簇中的采样数量;每个子簇的采样比例为:每个子簇中的采样数量为:sample=ratio×Nkkck步骤S33,判断各子簇的采样数量是否小于该子簇中的文本数量,若是,则进行欠采样;否则,选择该子簇中的所有文本,并将剩余的文本均匀分配到其他子簇进行采样;步骤S34,根据采样数量进行采样后,得到采样后的cover texts集,将其与原始的Stego texts集合,即可得到新的数据集X;new步骤四,每次迭代中,将训练好的基分类器集成到集成分类器中,返回步骤二指导下一次迭代的欠采样过程;步骤五,采用集成学习来集成多个基分类器的检测结果,在迭代完成后,输出最终集成分类器的结果,完成在不平衡场景下的隐写分析。 来源:马 克 数 据 网