一种基于词性的掩码策略与对抗文本攻击的防御方法、系统、设备及可读存储介质

申请号: CN202410016109.8

申请人: 北京新数科技有限公司

申请日期: 2024/1/4

摘要文本

本发明提供一种基于词性的掩码策略与对抗文本攻击的防御方法、系统、设备及可读存储介质，利用一种基于词性的掩码策略，并改进了软嵌入的计算方法，使净化器能够成功重预测被掩码处理的切分词。由掩码器和净化器构成了一种对抗文本攻击的防御框架，掩码器将输入文本中的一定比例单词替换为[MASK]，生成多个掩码副本。净化器使用Softmax函数计算每个位置上不同单词的概率分布，并输出最可能的单词作为预测结果。整个过程在干净样本的准确率和对抗防御成功率上取得了良好的平衡。

申请人信息

申请人:北京新数科技有限公司
申请人地址:100012 北京市朝阳区红军营南路15号院2号楼1层111室
发明人: 北京新数科技有限公司

专利详细信息

项目	内容
专利名称	一种基于词性的掩码策略与对抗文本攻击的防御方法、系统、设备及可读存储介质
专利类型	发明申请
申请号	CN202410016109.8
申请日	2024/1/4
公告号	CN117829147A
公开日	2024/4/5
IPC主分类号	G06F40/289
权利人	北京新数科技有限公司
发明人	王翔宇; 王伟斌; 陈传凯
地址	北京市朝阳区红军营南路15号院2号楼1层111室

专利主权项内容

1.一种基于词性的掩码策略与对抗文本攻击的防御方法，其特征在于：该方法具体步骤如下：(1)对输入的文本进行分词和词性标注，使用spaCy库进行英文分词，将文本分解成单个的单词或符号，再使用spaCy标注器对每个分词结果进行词性标注，确定每个单词或符号的词性类别；(2)根据词性判断掩码概率，利用基于词性的掩码器进行掩码，并使用净化器成功重预测被掩码处理的切分词；(3)使用PyTorch框架构建模型，将掩码后的输入文本作为输入，目标单词作为输出进行训练；利用交叉熵损失函数不断训练与优化模型，直到模型收敛或达到预设的训练轮数；每次训练轮数结束后，重复执行掩码与模型训练过程，得到最终的BERT-MLM模型。。

一种基于词性的掩码策略与对抗文本攻击的防御方法、系统、设备及可读存储介质

摘要文本

申请人信息

专利详细信息

专利主权项内容

热门技术领域

快速入口

专利技术资料

一种基于词性的掩码策略与对抗文本攻击的防御方法、系统、设备及可读存储介质

摘要文本

申请人信息

专利详细信息

专利主权项内容

相关专利推荐

一种全光产品的质量检测方法及系统

一种3D打印机脱料装置

一种基于试验数据库的压气机性能仿真程序精度评估方法

一种基于灰盒模型的节流阀响应预测方法

一种用于水性工业漆的加工装置

双辐板涡轮盘

热门技术领域

快速入口

专利技术资料